数据仓库的特点有哪些

乐多 问答 2022-04-16 18:35:51 阅读(...)

数据仓库具有面向主题、集成性、稳定性以及时变性的特点。数据仓库中的数据是按照一定的主题域进行组织,所需数据从原来的数据中抽取出来进行集成;不可更新主要是为决策分析提供数据,随时间而变化的,稳定的数据以只读格式保存,且不随时间改变。

数据仓库是为企业的决策制定过程,提供数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。数据仓库是面向主题的、集成的、非易失的和时变的数据集合,用以支持管理决策。

data warehouse 数据仓库

面向主题

即处于数据仓库中的数据是按照特定的主题组织而成的,这里的主题不是具体的而是一个抽象的概念,常指企业或个人在使用数据仓库着重关注的方面。传统数据库中,最大的特点是面向应用进行数据的组织,各个业务系统可能是相互分离的。而数据仓库则是面向主题的。主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。

集成性

数据集成,指在数据仓库中的数据信息并不是在各业务系统中简单、随机抽取的,由于数据仓库间的独立性,因此需要消除源数据中的异值。通过对分散、独立、异构的数据库数据进行抽取、清理、转换和汇总便得到了数据仓库的数据,这样保证了数据仓库内的数据关于整个企业的一致性。

数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前,必然要经过统一与综合,这一步是数据仓库建设中最关键、最复杂的一步,所要完成的工作有:1.要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。2.进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。

稳定性

业务系统中的数据总是处于不断变化的状态,即数据为最新的状态。相对于业务系统的不断变化,数据仓库具有稳定性,是指数据在进入数据仓库后,数据一般用于查询,很少会对数据进行修改,常见的操作也只是进行定期的加载和刷新。

时变性

数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星期、月份、季度或者年份有关。数据仓库的目的是通过分析企业过去一段时间业务的经营状况,挖掘其中隐藏的模式。虽然数据仓库的用户不能修改数据,但并不是说数据仓库的数据是永远不变的。分析的结果只能反映过去的情况,当业务变化后,挖掘出的模式会失去时效性。因此数据仓库的数据需要更新,以适应决策的需要。从这个角度讲,数据仓库建设是一个项目,更是一个过程。

数据仓库的数据随时间的变化表现在以下几个方面:

  1. 数据仓库的数据时限一般要远远长于操作型数据的数据时限。
  2. 操作型系统存储的是当前数据,而数据仓库中的数据是历史数据。
  3. 数据仓库中的数据是按照时间顺序追加的,它们都带有时间属性。

总结数据仓库特点

  1. 数据仓库是面向主题的,操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。
  2. 数据仓库是集成的,数据仓库将所需数据从原来的数据中抽取出来,进行集成,才能进入数据仓库。
  3. 数据仓库是不可更新的,数据仓库主要是为决策分析提供数据。
  4. 数据仓库是随时间而变化的,稳定的数据以只读格式保存,且不随时间改变。
  5. 汇总的。操作性数据映射成决策可用的格式。
  6. 大容量。时间序列数据集合通常都非常大。
  7. 非规范化的。Dw 数据经常是冗余的。
  8. 元数据。将描述数据的数据保存起来。
  9. 数据源。数据来自内部的和外部的非集成操作系统。

数据仓库是单个数据存储,用于支持分析性报告、决策等为目的而建立的。其可以提供各种类型数据,支持企业进行各种级别决策的制定,还能为有业务智能需求的企业提供有关数据监看、业务流程改进等支持。由此可见数据仓库对整个数据挖掘过程的重要性

收藏 0个人收藏
走进科技生活方式

评论交流

泪雪默认头像 请「登录」后参与评论
  1. 加载中..

相关推荐

  • 数据湖 data lake

    数据湖是什么

    数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。
  • 标准作业程序 Standard Operation Procedure

    SOP是什么

    标准作业程序(SOP)是将某一事件的标准操作步骤和要求以统一的格式描述出来,用来指导和规范日常的工作,对某一程序中的关键控制点进行细化和量化。
  • ssd 固态硬盘

    2021年固态硬盘品牌推荐

    固态硬盘主要是由主控芯片、闪存颗粒、缓存单元等三大元器件构成。原厂封装的闪存颗粒,一般意义上指的是来自三星、东芝(闪迪)、英特尔、镁光、海力士等几大闪存大厂直接封装出厂的闪存颗粒。知名的固态硬盘品牌有:三星、Intel、东芝、闪迪、威刚等。
  • 数据挖掘系统是什么

    数据挖掘系统是什么

    数据挖掘系统(data mining system)是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘出有趣知识的系统。近年来为了推动数据挖掘在实际中的应用,许多研究者对数据挖掘系统的体系结构做了大量的研究工作。
  • 数据挖掘是什么

    数据挖掘是什么

    数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。
  • STP理论是什么

    STP理论是什么

    STP营销理论是指企业在一定的市场细分的基础上,确定自己的目标市场,最后把产品或服务定位在目标市场中的确定位置上。