艾巴生活网

您现在的位置是:主页>科技 >内容

科技

数据仓库是什么(数据仓库的特点_数据仓库与数据库区别)

2024-11-16 16:04:58科技帅气的蚂蚁
什么是数据仓库?英文名是Data Warehouse,可以缩写为DW或DWH。数据仓库是一个战略集合,为企业各级决策过程提供所有类型的数据支持。它是

数据仓库是什么(数据仓库的特点_数据仓库与数据库区别)

什么是数据仓库?英文名是Data Warehouse,可以缩写为DW或DWH。数据仓库是一个战略集合,为企业各级决策过程提供所有类型的数据支持。它是一个单独的数据存储,用于分析报告和决策支持。为需要商业智能的企业提供业务流程改进指导,监控时间、成本、质量和控制。

数据仓库1的特征。主题数据仓库一般根据用户的实际需求,按照设定的主题对不同平台的数据源进行划分和集成,不同于传统的面向事务的操作数据库,具有较高的抽象性。面向主题的数据组织是指在更高层次上对分析对象的数据进行完整、统一、一致的描述,能够完整、统一地刻画每个分析对象所涉及的企业的所有数据以及数据之间的关系。

2.集成数据仓库中存储的数据大部分来自传统数据库,但原始数据并不是简单的直接导入,而是需要进行预处理。这是因为事务性数据中的数据一般都是嘈杂的、不完整的、数据形式不一致的。这些脏数据会给基于数据仓库的数据挖掘造成混乱。"脏数据必须在进入数据仓库之前进行抽取、清洗和转换,从而生成一个从面向事务到面向主题的数据集。数据集成是数据仓库建设中最重要也是最复杂的步骤。

3.稳定性数据仓库中的数据主要为决策者提供数据依据分析。做出决定的数据不允许修改。即数据保存到数据仓库后,用户只能通过分析工具进行查询和分析,不能进行修改。数据更新升级主要在数据整合过程中完成,过期的数据会直接在数据仓库中筛选出来。

4.动态数据仓库的数据会随着时间的变化而定期更新。不可更新用于应用程序,即用户在分析和处理时不更新数据。在每个固定的时间间隔之后,在运行的数据库系统中产生的数据被提取、转换并集成到数据仓库中。随着时间的变化,在更高的综合层次上不断合成数据,以满足趋势分析的要求。当数据超过数据仓库的存储期限或对分析无用时,从数据仓库中删除数据。数据仓库的结构和维护信息存储在数据仓库的元数据中,数据仓库的维护由系统根据其定义自动进行或由系统管理员定期维护。

数据仓库的基本结构数据仓库的目的是建立一个面向分析的集成数据环境,为企业提供决策支持。实际上,数据仓库本身并不 生产任何数据,它不会不需要消费任何数据。数据来自外部,并对外部应用程序开放,这就是为什么它被称为仓库而不是工厂。因此,数据仓库的基本结构主要包括数据流入和流出的过程,可分为三层:——源数据、数据仓库和数据应用:

从图中可以看出,数据仓库的数据来自不同的来源,并提供各种数据应用。数据自上而下流入数据仓库,然后开放给上层应用,而数据仓库只是一个中间集成数据管理的平台。

数据仓库的数据源数据仓库从各种数据源获取数据,数据仓库中的数据转换和流转可以看作是ETL(抽取多余、转换转移、加载负载)的过程。ETL是数据仓库的流水线,也可以看作是数据仓库的血液,维持着数据仓库中的数据代谢。数据仓库日常管理和维护的大部分精力都是为了保持ETL的正常稳定。

数据仓库的数据存储数据仓库不需要存储所有的原始数据,而数据仓库需要存储一些详细的数据。简要说明:

A.为什么唐你不需要所有的原始数据吗?数据仓库面向分析和处理,但有些源数据没有分析价值或者其可能的价值远远低于存储这些数据所需的数据仓库的实现和性能成本。比如我们知道用户的省市就够了。至于用户住在哪里,可能只是物流商关心的问题,或者是用户的内容博客上的评论可能只是文本挖掘。但是,将这些冗长的注释存储在数据仓库中是得不偿失的。

B.为什么要保存详细数据?细节是必要的,数据仓库的分析需求会一直变化。有了细节,我们就能以不变的方式改变一切。如果只是基于一些需求来存储数据模型,对于频繁变化的需求,显然会无所适从;

数据仓库在维护详细数据的基础上,对数据进行处理,使其能够真正应用于分析。它主要包括三个方面:

1.数据聚合

这里的聚合数据指的是基于特定需求的简单聚合(基于多维数据的聚合现在在多维数据模型中)。简单的聚合可以是网站的总浏览量、访问量、UniqueVisitors等汇总数据,也可以是Avg.timeonpage、Avg.timeonsite等平均数据,直接显示在报表上。

2.多维数据模型

多维数据模型提供了多角度、多层次的分析应用,如基于时间维度和区域维度的销售星形模型和雪花模型,可以实现基于时间维度和区域维度的交叉查询和细分。因此,在多维数据模型的基础上,为特定群体建立数据仓库的数据集市。

3.商业模式

这里的商业模型是指基于一些数据分析和决策支持的数据模型,如用户评价模型、关联推荐模型、RFM分析模型等。我之前介绍过的,或者用于决策支持的线性规划模型和库存模型。同时,数据挖掘中早期数据的处理也可以在这里完成。

仓库的数据应用报告显示

报表是几乎每个数据仓库中必不可少的数据应用程序。它显示要报告的聚合数据和多维分析数据,提供最简单、最直观的数据。

即时查询

理论上,数据仓库中的所有数据(包括明细数据、聚集数据、多维数据和分析数据)都应该开放给即时查询。即时查询提供了一种灵活的获取数据的方式,用户可以根据自己的需求查询获取数据。

数据分析

大部分数据分析都是基于已建立的业务模型。当然,聚合数据也可以用于趋势分析、对比分析、关联分析等。多维数据模型为多维分析提供了数据基础。同时,从详细数据中获取一些样本数据进行具体分析也是一种常用的方法。

数据挖掘技术

数据挖掘使用一些高级算法来显示各种令人惊讶的结果。数据挖掘可以基于数据仓库中已建立的业务模型进行,但很多时候数据挖掘会直接从详细数据开始,数据仓库为SAS、SPSS等挖掘工具提供数据接口。

元数据

数据仓库环境的一个重要方面是元数据。元数据是关于数据的数据。只要有程序和数据,元数据就是信息处理环境的一部分。但是在数据仓库中,元数据扮演着新的重要角色。因为有了元数据,数据仓库才能得到最有效的利用。使元数据最终用户/DSS分析师能够探索各种可能性。

元数据位于数据仓库的上层,记录数据仓库中对象的位置。通常,元数据记录:

程序员知道的数据结构。

DSS分析师已知的数据结构。

仓库的源数据。

将数据添加到数据仓库时的转换。

数据模型。

数据模型和数据仓库的关系。

提取数据的历史记录。

数据仓库在信息技术和数据智能的环境下,数据仓库在软件和硬件、互联网和内部网解决方案以及数据库领域提供了许多经济有效的计算资源。它可以存储大量数据以供分析和使用,并允许使用多种数据访问技术。

开放系统技术使得分析大量数据的成本更加合理,硬件解决方案更加成熟。数据仓库应用程序中使用的主要技术如下:

并肩而行

计算硬件环境、操作系统环境、数据库管理系统以及所有相关的数据库操作、查询工具和技术、应用程序等领域都可以受益于并行性的最新成果。

划分

分区使得支持大型表和索引变得更加容易,并且还提高了数据管理和查询性能。

数据压缩

数据压缩功能降低了数据仓库环境中用于存储大量数据的磁盘系统的成本,新的数据压缩技术也消除了压缩数据对查询性能的负面影响。

数据仓库的五个好处1、提供增强的商业智能(BI)

使用从各种数据源提供的数据,经理和高管将不再需要利用有限的数据或他们的直觉来做出业务决策。此外,数据仓库和相关的商业智能(BI)可以直接用于业务流程,包括市场细分、库存管理、财务管理和销售。"

2、可以节省时间

因为业务用户可以在一个地方快速访问许多数据源,所以他们可以在关键方案上快速做出明智的决策,而不必浪费宝贵的时间从多个数据源检索数据。

此外,业务主管可以在很少或没有IT支持的情况下自行查询数据,从而节省更多时间和金钱。这意味着业务用户可以生成报告,而不必等待它出现,而那些在IT部门努力工作的人可以做他们最擅长的事情——保持业务运行。

3、可以提高数据的质量和一致性

数据仓库的实现包括将来自许多数据源系统的数据转换成一种通用格式。因为来自每个部门的每个数据都是标准化的,所以每个部门都会产生与所有其他部门一致的结果。因此,您可以对数据的准确性更有信心。准确的数据是强有力的商业决策的基础。

4、可以提供历史智慧

数据仓库存储了大量的历史数据,因此您可以通过分析不同时期和趋势来预测未来。这些数据可以通常存储在交易数据库中,或用于从交易系统生成报告。

5、可以创造高投资回报

最后,最值得一提的是投资回报。安装了数据仓库和改进的商业智能(BI)系统的企业比那些没有投资BI系统和数据仓库的企业可以产生更多的利润和节省更多的资金。这应该是高级管理层快速加入数据仓库趋势的足够理由。

数据库与数据仓库的区别简而言之,数据库是面向事务的设计,而数据仓库是面向主题的。

通常,数据库存储在线交易数据,而数据仓库通常存储历史数据。

数据库设计是尽可能避免冗余。一般是按照正常的规则设计的,而数据仓库是通过故意引入冗余,以反正常的方式设计的。

数据库是用来捕获数据的,数据仓库是用来分析数据的。它的两个基本元素是维度表和事实表。维度是观点。比如时间、部门、维度表就是这些东西的定义。事实表包含要查询的数据和维度的ID。

从概念上来说,有点晦涩难懂。任何技术都是为应用服务的,结合应用很容易理解。以银行业为例。数据库是交易系统的数据平台。客户在银行的每一笔交易都会被写入数据库并记录在案。这里可以简单理解为和数据库记账。数据仓库是分析系统的数据平台。它从交易系统中获取数据,进行汇总和处理,为决策者提供依据。比如某银行某支行一个月发生多少笔交易,该支行的活期存款余额是多少。如果存款多,消费交易多,就要在这个区域设置自动取款机。

显然,银行的交易量是巨大的,通常以百万甚至千万次计算。系统是实时的,要求时效性。客户把一笔钱存入几十秒是无法承受的,这就要求数据库只能短时间存储数据。分析系统是事后的,应该提供相关时间段内的所有有效数据。这些数据庞大,汇总计算起来比较慢。但是,只要能提供有效的分析数据,就能达到目的。

在大量数据库已经存在的情况下,为了进一步挖掘数据资源,满足决策的需要而产生的数据仓库,绝不是所谓的大型数据库。那么,数据仓库和传统数据库有什么区别呢?让让我们看看W . H.Inmon 数据仓库的定义:面向主题的、集成的、与时间相关的和不可修改的数据集合。

"面向主题:传统数据库主要是为应用处理数据,不一定按照同一个主题存储数据;数据仓库侧重于数据分析,按主题存储。这类似于传统农民的区别市场和一家超市——在市场里,白菜、萝卜、香菜会在一个摊位,如果是小商贩的话;超市里白菜萝卜香菜各一个。也就是说,市场里的菜(数据)是按照摊贩(应用)来堆叠(存储)的,而超市里的菜是按照菜的种类来堆叠(同一主题)。

"与时间相关的:数据库存储信息时,并不强调一定要有时间信息。数据仓库则不同。为了决策的需要,数据仓库中的数据需要标记时间属性。时间属性在决策中非常重要。都是一共买了九辆车的客户。一个在最近三个月内买了九辆车,另一个在最近一年内从未买过车。这对决策者来说有着不同的意义。

"不可修改:数据仓库中的数据不是最新的,而是来自其他数据源。数据仓库反映的是历史信息,而不是很多数据库处理的日常交易数据(有些数据库如电信计费数据库甚至处理实时信息)。因此,数据仓库中的数据很少或根本不被修改;当然,向数据仓库添加数据是允许的。

数据仓库的出现并不是要取代数据库。目前,大多数数据仓库都是由关系数据库管理系统管理的。可以说数据库和数据仓库是相辅相成,各有优势的。

所以主要的区别是:

(1)数据库是面向事务的,数据仓库是面向主题的。

(2)数据库一般存储网上交易数据,数据仓库一般存储历史数据。

(3)数据库设计是尽量避免冗余,数据仓库设计是有意引入冗余。

(4)数据库是用来捕获数据的,数据仓库是用来分析数据的。