003 数据仓库专题讲座—数据仓库概论
- 格式:ppt
- 大小:2.93 MB
- 文档页数:15
数据仓库概论—数据仓库与数据挖掘数据仓库与数据挖掘在信息化时代来临、互联网高速发展的今天,社会已处于数据爆炸的状态下。
当数据量极度增长时,人们感到面对信息海洋像大海捞针一样束手无策,而这些存在的数据可以被广泛的使用,并且也迫切需要将这些数据转换成有用的信息和知识。
因此,需要一种从大量数据中去粗存精、去伪存真的技术。
数据挖掘技术就是人们长期对数据库技术进行研究和开发的结果,是数据库、数据仓库或其他信息库中的知识发现,是信息技术自然演化的结果。
一、数据仓库(一)什么是数据仓库数据可以存放在不同类型的数据库中,最近出现的一种数据库结构是数据仓库。
是从多个数据源收集数据,存储于一个统一的数据模式下的数据体,通常驻留在单一站点,以支持管理决策。
首先它是面向主题的,每一行业甚至企业建立自己的数据仓库,它关注决策者的数据建模与分析。
其次它集成存储了整个企业各部门各时期的数据,因此它是时变的和非易失的。
数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
而在实际数据挖掘中经常使用的是数据集市,它面向部门,关心某一主题,因此更灵活和实用。
概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息。
(二)数据仓库的数据组织在数据仓库发展过程中,适当的数据组织非常重要,同样大小的数据仓库采用不同组织形式,完成数据分析和处理的时间会有所不同,它有以下不同的组织形式。
简单堆积文件组织方式,是将每天由数据库提取并处理后的数据逐天存储起来。
在定期综合文件组织方式中,数据存储单位被分成日、周、月、季度、年等多个级别,数据被逐一的添加到每天的数据集合中。
当一个星期结束,每天数据被综合成周数据,周数据被综合成月数据,以此类推。
后者的数据量比前者大大减少,但由于数据被进行高度的综合,造成数据的细节在综合中丢失。