数据仓库与数据挖掘的综述
- 格式:doc
- 大小:422.50 KB
- 文档页数:14
数据挖掘与数据仓库技术的应用和前景分析作者:郎裕来源:《消费电子·理论版》2013年第06期摘要:近年来,我国社会正在朝向信息化的方向健康发展,在此过程中,数据挖掘与数据仓库技术在其中发挥着重要的作用,并给整个社会带来了巨大的变化,本文首先介绍了数据挖掘技术与数据仓库技术的概念,然后简述了其在社会中的应用以及发展前景,以供参考。
关键词:数据挖掘技术;数据仓库技术;应用;发展前景;分析中图分类号:TP311.13 文献标识码:A 文章编号:1674-7712 (2013) 12-0000-02随着决策理论、计算机技术、人工智能、信息技术等各项先进技术的出现与发展,决策支持系统作为电子数据处理系统也有了得到了较快的发展。
为了满足决策支持系统的发展需要,数据挖掘与数据仓库技术应运而生。
可以说数据仓库与数据挖掘技术是建立在关系数据库、处理分布式技术以及网络技术的基础上而不断发展起来的,它能够通过分散的易购环境来解决数据源,并得到准确可靠的信息。
要想解决信息技术在发展中的问题,就需要拥有大量的、准确可靠的信息。
此时数据挖掘与数据仓库技术就发挥着非常重要的作用。
以下就这两项技术的应用与发展前景进行分析。
一、数据挖掘技术的概述(一)数据挖掘技术的含义所谓数据挖掘及时也就是在数据库中获得最有效的、潜在有用的、最有价值的以及最后能够被理解的模式的一种过程,从简单的含义来讲,数据挖掘技术也就是在大量的数据中获取更加有用的知识。
它主要是建立在机器学习、模式识别等领域上发展起来的,并受到人们的广泛关注与青睐。
在数据挖掘及时当中,数据分析是一项非常重要的技术,其中最为常见的分析方法有领悟式分析、相关关系分析、聚类分析等。
其中聚类分析是最重要的一种分析方法。
数据挖掘技术主要是为了满足用户的需要,将数据库当中的知识信息按照某种规律排列并提取出来的一项技术。
在数据挖掘与分析的过程中,采用聚类分析法可以将含有一些主观因素的信息准确无误的传达给用户,满足用户的需要。
大数据分析知识:数据存储与管理——数据仓库、云计算和数据库随着技术的不断发展,越来越多的数据产生并蓄积,如何进行有效管理和利用已成为人们关注的焦点之一。
本文将从数据存储和管理的角度出发,分别介绍数据仓库、云计算和数据库的概念、特点及其在大数据领域的应用。
一、数据仓库数据仓库(Data Warehouse)是指从各个数据源中提取数据并经过处理后存储到一个统一且独立的数据集合中,以方便用户进行分析和决策的系统。
数据仓库通过将数据分析和查询分离,实现了数据决策支持系统的高效运行,从而提高数据的利用率。
数据仓库的特点:1.面向主题:数据仓库是面向主题的,即数据集中一般针对某个主体领域或数据分析任务。
例如,销售数据仓库、人力资源数据仓库等。
2.集成性:数据仓库具有集成性,可以将不同类型的数据源通过ETL(Extract-Transform-Load)的方式进行标准化、转换和加载,并保证数据之间的一致性和完整性。
3.时间性:数据仓库关注历史数据的存储和分析,并提供不同时间维度的数据展示方式,为决策者提供多样化的选择。
数据仓库在大数据领域的应用:1.数据分析和挖掘:通过数据仓库中的数据进行多维分析和数据挖掘,为决策者提供全面的数据支持。
2.企业级统一视图:数据仓库可以实现企业级统一视图,使决策者可以获得一份全面的数据报告。
3.交互式查询:数据仓库提供交互式的查询功能,用户可以根据需要自定义查询条件和维度,获得满足自己需求的数据结果。
二、云计算云计算(Cloud Computing)是指通过网络以服务方式提供计算资源的一种模式。
云计算基于分布式计算、虚拟化技术和自动化管理,通过网络实现数据处理和存储,通过服务模式进行资源使用和计费。
云计算的特点:1.弹性伸缩:云计算可以根据需求进行弹性伸缩,为企业和个人提供更加灵活的资源使用方式,从而降低IT成本、提高效率。
2.服务化:云计算基于服务的方式提供资源,用户可以根据需要选择提供商和服务类型,并根据实际使用量进行计费,降低了技术和资金门槛。
一、需求分析:一、应用背景:运输业是国家经济的一个重要的组成部分,其发展水平已经成为一个国家和地区综合实力的重要体现。
随着经济全球化,我国对物流的需求将大幅度的增加,物流将呈现跳跃式发展趋势。
企业开始改变那种以商品为导向的观念,开始注重发掘,通过收集整理繁多的信息,量化分析需求,提供优质的售后服务,保持稳定的关系等措施,来加强对客户关系的管理。
CRM的主要含义就是通过对详细资料的深入分析,来提高满意程度,从而提高企业的竞争力的一种手段,CRM最大程度地改善、提高了整个关系生命周期的绩效。
CRM整合了、公司、员工等资源,对资源有效地、结构化地进行分配和重组,便于在整个关系生命周期及时了解、使用有关资源和知识;简化、优化了各项业务流程,使得公司和员工在销售、服务、市场营销活动中,能够把注意力集中到改善关系、提升绩效的重要方面与核心业务上,提高员工对的快速反应和反馈能力;也为带来了便利,能够根据需求迅速获得个性化的商品、方案和服务。
要在激烈的市场竞争中获得主动,越来越多的民航企业把保持客户作为企业的重要任务,谁能留住那些能给企业带来丰厚利润的关键客户,并获得他们长久的信任和支持,谁就能获得满意的回报,进而赢得持续的竞争优势。
在航空业,客户关系管理的应用有其特别的原因。
面对航空公司的管理需求,急需引入先进的客户关系管理理念。
在航空公司引入电子商务后,公司关注的重点由提高部效率向尊重外部转移。
而CRM理念正是基于对客户的尊重,要求公司完整地认识整个客户生命周期,提供与客户沟通的统一平台,提高员工与接触的效率和反馈率。
随着“以客户为中心"的客户关系管理技术在航空业的不断应用和发展,航空服务质量的改善提高的同时,产生了大量的客户数据,充分挖掘这些数据中隐藏的有用信息可以为航空公司的经营决策带来极大的帮助。
二、应用价值与意义:概括来讲,数据仓库与数据挖掘在航空公司CRM中的商业价值主要体现在以下三个方面:1、有助于航空公司提高收益一个成功的CRM系统可以给航空公司带来明显的收益增长,在客户的整个生命周期,最大化利润贡献。
数据挖掘在⼤数据中的应⽤综述数据挖掘在⼤数据中的应⽤综述***(上海海事⼤学上海 201306)摘要: ⾯对⼤规模多源异构的数据,数据挖掘的⽅法不断的得到改善与发展,同时对于数据挖掘体系的完善也提出了新的挑战。
针对当前数据挖掘在⼤数据⽅⾯的应⽤,本⽂从数据挖掘的各个阶段进⾏了⽅法论的总结及应⽤,主要包括数据准备的⽅法、数据探索的⽅法、关联规则⽅法、数据回归⽅法、数据分类⽅法、数据聚类⽅法、数据预测⽅法和数据诊断⽅法。
最后还指出类数据挖掘在鲁棒性表达⽅⾯的进⼀步研究。
关键词: 数据挖掘;⽅法论;⼤数据;鲁棒性Application of Data Mining in Large Data***(Shanghai Maritime University,Shanghai 201306)Abstract: In the face of large-scale multi-source heterogeneous data, data mining methods continue to improve and develop, at the same time for the improvement of data mining system also put forward new challenges. In this paper, the method of data mining, the method of data exploration, the association rule method, the data regression method, the data classification method, the data classification method, the data classification method, the data classification method, the data classification method, the data classification method, the data classification method, the data classification method, Data clustering method, data prediction method and data diagnosis method. Finally, it also points out the further research on the robustness of class data mining.Key words: Data mining; methodology; large data; robustness随着⼈类⽣活⽅式的多样化,由此产⽣的数据的规模和复杂性也在急速增长,对于数据的各种分析也应运⽽⽣。
数据库技术发展综述数据库技术主要研究如何存储、使用和管理数据, 是计算机技术中发展最快、应用最广的技术之一。
作为计算机软件的一个重要分支, 数据库技术一直是倍受信息技术界关注的一个重点。
尤其是在信息技术高速发展的今天,数据库技术的应用可以说是深入到了各个领域。
当前, 数据库技术已成为现代计算机信息系统和应用系统开发的核心技术, 数据库已成为计算机信息系统和应用系统的组成核心, 更是未来/ 信息高速公路0 的支撑技术之一。
因此,为了更好的认识和掌握数据库技术的发展方向, 本文对有关数据库发展的文献进行了收集整理, 以求在对现有相关理论了解、分析的基础上, 对数据库发展进行综合论述,对数据库技术发展的总体态势有比较全面的认识, 从而推动数据库技术研究理论的进一步发展。
1 文献的收集与整理对数据库发展文献的收集主要利用以下检索工具: 中国学术期刊网全文期刊库、维普中文数据库, SC I数据库以及网络搜索引擎Google。
文献收集的范围: 1993 ~ 2003年国内外相关文献。
检索策略及结果如表1所示。
其中,学术期刊网和维普中刊数据库有两条相同记录, 搜索引擎Google两次搜索与高级搜索的最终结果有部分重复记录。
整理最终结果: 收集到相关文献23条,全部可以下载全文。
从SCI数据库中检索到505条相关记录,但其中最相关的题录信息仅24条。
2数据库技术发展的现状关系数据库技术仍然是主流关系数据库技术出现在20世纪70年代, 经过80年代的发展到90年代已经比较成熟,在90 年代初期曾一度受到面向对象数据库的巨大挑战, 但是市场最后还是选择了关系数据库。
无论是Oracle公司的Oracle9i、IBM公司的DB2、还是微软的SQL Serv er 等都是关系型数据库。
Gar tnerDataquest 的报告显示关系数据库管理系统(RDBMS) 的市场份额最大, 2000 年RDBMS的市场份额占整个数据库市场的80 % , 这个比例比1999年增长了15 % 。
2008年第6期牡丹江教育学院学报N o.6,2008 (总第112期)J ouR N A L oF M uD A N J I A N G co L L E G EoF E D ucA T I oN s e“aI N o.112数据挖掘技术综述高翔侯小静(洛阳理工学院,河南洛阳471003)[摘要]在对数据仓库与数据挖掘的概念及数据挖掘的功用与分类进行介绍的基础上.阐述了串行关联规则算法和并行关联算法的目标与内容.详细分析了A pr i or i算法、神经网络、遗传算法等数据挖掘算法。
[关键词]数据挖掘f关联规则I apr i ori算法;神经网络l遗传算法[中图分类号]T P31[文献标识码]A[文章编号]1009—2323(2008)06一0109一02数据挖掘是信息技术自然进化的结果。
自上世纪六十年代以来,信息技术已经从原始的文件处理发展到复杂的、功能强大的数据库系统。
而数据仓库是近年来数据库研究领域中迅速发展起来的新技术。
利用数据仓库技术可以将现实中的海量数据存放在异构的数据库中。
为了从数据中有效地提取和发现知识.需要对数据仓库中存储的数据进行“挖掘”。
数据挖掘是从大量数据中抽取出未知的、有价值的模式或规律等知识的复杂过程。
数据挖掘技术由数据清理、数据集成、数据选择、数据交换、数据挖掘、模式评估六个步骤组成。
通过这六个步骤的提纯与处理向用户提供有价值的信息。
数据挖掘提供的数据模式有概念描述、关联规则、分类与预测、聚类分析、异类分析、演化分析等六类。
1.数据仓库与数据挖掘数据仓库系统在数据分析和决策方面为用户和“知识工人”提供服务。
这种系统与传统的联机事务处理(0L TP)系统不同.它可以用不同的格式组织和提供数据,以满足不同用户的形形色色需求.这种系统称为联机分析处理(oL A P)系统。
数据仓库和oL A P工具均基于多维数据模型.这种模型可以以星形模式、雪花模式或事实星座模式等形式存在。
数据仓库概论—数据仓库与数据挖掘数据仓库与数据挖掘在信息化时代来临、互联网高速发展的今天,社会已处于数据爆炸的状态下。
当数据量极度增长时,人们感到面对信息海洋像大海捞针一样束手无策,而这些存在的数据可以被广泛的使用,并且也迫切需要将这些数据转换成有用的信息和知识。
因此,需要一种从大量数据中去粗存精、去伪存真的技术。
数据挖掘技术就是人们长期对数据库技术进行研究和开发的结果,是数据库、数据仓库或其他信息库中的知识发现,是信息技术自然演化的结果。
一、数据仓库(一)什么是数据仓库数据可以存放在不同类型的数据库中,最近出现的一种数据库结构是数据仓库。
是从多个数据源收集数据,存储于一个统一的数据模式下的数据体,通常驻留在单一站点,以支持管理决策。
首先它是面向主题的,每一行业甚至企业建立自己的数据仓库,它关注决策者的数据建模与分析。
其次它集成存储了整个企业各部门各时期的数据,因此它是时变的和非易失的。
数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
而在实际数据挖掘中经常使用的是数据集市,它面向部门,关心某一主题,因此更灵活和实用。
概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息。
(二)数据仓库的数据组织在数据仓库发展过程中,适当的数据组织非常重要,同样大小的数据仓库采用不同组织形式,完成数据分析和处理的时间会有所不同,它有以下不同的组织形式。
简单堆积文件组织方式,是将每天由数据库提取并处理后的数据逐天存储起来。
在定期综合文件组织方式中,数据存储单位被分成日、周、月、季度、年等多个级别,数据被逐一的添加到每天的数据集合中。
当一个星期结束,每天数据被综合成周数据,周数据被综合成月数据,以此类推。
后者的数据量比前者大大减少,但由于数据被进行高度的综合,造成数据的细节在综合中丢失。
数据仓库与数据挖掘技术在企业管理中的应用随着信息化时代的到来,企业管理开始进入了一个高度数据化的时代。
在企业管理中,数据是一种极其重要的资源,它对于企业的运营管理有着不可低估的作用。
而近年来,数据仓库和数据挖掘技术的出现,进一步丰富了企业管理中的数据资源,为企业提供了更加有力的数据支持。
本文将从数据仓库和数据挖掘技术在企业管理中的应用入手,探讨它们对于企业管理的促进作用,并介绍它们的原理和应用方法。
一、数据仓库在企业管理中的应用数据仓库是指对企业内部数据、外部数据以及历史数据进行采集、整合、清洗、转换和存储,并提供直观易用的数据查询与分析功能的一种数据存储方式。
它为企业提供了一个高效准确的数据管理平台,能够帮助企业更加直观地了解自身的运营情况,并为企业管理决策提供数据支持。
数据仓库在企业管理中的应用主要有以下几个方面:1. 提供全面数据视图数据仓库可以将企业内部数据、外部数据以及历史数据进行整合,提供一个全面的数据视图,为企业提供一个全面统一的视角。
这样,企业管理者就可以更加直观地了解企业的运营情况,有针对性地制定出管理策略。
2. 支持智能决策通过数据仓库的查询与分析功能,企业管理者能够方便地获取有关企业各方面的信息,可以对企业运营情况进行深入分析,为企业的决策提供数据支持。
这样,企业管理者可以更加准确地把握 Enterprise Performance Management(全面业绩管理)的核心内容和业务数据。
3. 提高管理效率数据仓库可以提供丰富的数据查询与分析功能,帮助企业管理者进行快速、准确的数据查询与分析,进而提升企业管理效率,提高管理水平。
4. 优化资源配置企业内部资源的配置是企业管理中一项非常重要的任务。
通过数据仓库可以把各个方面的数据进行整合和分析,通过数据分析及市场分析了解企业的运营情况,合理分配资源,使得企业资源得到更好的利用。
二、数据挖掘在企业管理中的应用数据挖掘是指通过各种计算机技术,以大规模的、高维度的、异构的数据集为研究对象,挖掘数据之间的潜在关系,发现数据背后蕴含的知识和规律。
Southwest university of science and technology 数据挖掘课程报告
数据仓库与数据挖掘的综述 学院名称 计算机科学与技术
专业名称 计科
学生姓名 学号 指导教师 吴珏
二〇一六年11月
摘要 通过对数据仓库与数据挖掘的学习和大致的了解,主要提出了一种基于数据仓库的数据挖掘系统的决策支持系统的框架。该文章把数据仓库、数据挖掘工具和知识库结合在一起,提高了数据挖掘的效率。增加了挖掘数据的效率和价值实用性!
一、概述 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,并且这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对"人们被数据淹没,人们却饥饿于知识的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 今天, 越来越多的企业认识到要从以往的事务处理和决策中总结经验,利用现有的数据进行分析和推理,建立企业的决策支持系统(DSS)以提高决策的质量。企业如果不能快速精确的收集和分析信息,将无法进行科学而有效的决策。建立数据仓库(Data warehouse)将能很的解决这一问题,使企业从大量的业务信息中筛选出所需的信息,并做出正确的决策。数据仓库不是单一的产品, 而是综合了多种信息技术的计算环境。它将全企业的运行数据汇集到一个精心设计的关系数据库中,并将它们转换成面向主题(Subject-oriented)的形式,使最终用户很容易的从历史的角度对这些数据进行访问和分析。以银行为例,通常,银行的应用系统是按业务分类的,如储蓄、信贷、信用卡等,一个客户的信息分布在不同的业务系统中,要想得到一个客户的全面信息非常困难。银行通过建立数据仓库, 可以将分离在各个业务系统中的数据合并成一个统一的图表,这样就可以看到客户在各个系统中的全貌,而且可以从历史的角度对客户档案进行分析, 以便做出为每一个客户进一步服务的决策。
二、数据仓库和数据挖掘的基本概念 数据仓库和数据挖掘的关系:数据仓库和数据挖掘都是数据仓库系统的重要组成部分, 它们既有联系, 又有区别。 联系是: (1) 数据仓库为数据挖掘提供了更好的、更广泛的数据源。 (2) 数据仓库为数据挖掘提供了新的支持平台。 (3) 数据仓库为更好地使用数据挖掘这个工具提供了方便。 (4) 数据挖掘为数据仓库提供了更好的决策支持。 (5) 数据挖掘对数据仓库的数据组织提出了更高的要求。 (6) 数据挖掘还为数据仓库提供了广泛的技术支持。 区别是: (1) 数据仓库是一种数据存储和数据组织技术, 提供数据源。 (2) 数据挖掘是一种数据分析技术, 可针对数据仓库中的数据进行分析。 数据仓库是支持管理决策过程的、面向主题的、集成的、随时间而变的、持久的数据集合。数据仓库系统负责从操作型数据库中抽取数据,实现对集成和综合后的数据的管理,并把数据呈现给一组数据仓库前端工具, 以满足用户的各种分析和决策的需求。数据仓库系统的前端工具以OLAP 工具和数据挖掘工具为代表,是用户赖以从数据仓库中提取、分析数据,以及实施决策的必经途径。数据挖掘DM(Data Mining),是指从数据中识别出潜在有用的、先前未知的、最终可理解的模式的非平凡过程。研究基于数据仓库的数据挖掘系统结构框架是很有意义的。
三、数据仓库的结构、功能 1、数据仓库的基本结构 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。 数据仓库中的信息存储, 根据对数据的不同深度的分析处理而区分为不同的层次,其基本结构分为以下几个部分: (1)历史性详细数据层:它存储历史数据,用于数据对比、回归、汇总等供分析、建模预测之用。历史数据一般为5 至10 年或更久的数据,它纵向只对数据/信息进行分类存储。 (2)当前详细数据层:存储当前最新详细数据,重点用于了解当前情况,是进一步分析数据的基础。在一定时刻,这些数据会转移到历史数据层去。 (3)不同程序的归纳总结信息层:可包含多个层次,根据所需分类和归纳的不同深度而定。如按周、月、年统计的数据。这些信息只是一些简单的汇总,尚不能形成高级的决策信息。 (4)专业信息分析层:进一步专业分析的结果,如统计分析、运筹分析、时间序列分析以及表面数据的内在规律分析等。 (5)仓库结构信息:数据仓库的内部结构信息,反映各种信息在数据仓库中的位置分布和处理方式等,以便检索查询之用。组织数据仓库的数据时, 应根据数据访问概率把数据分为经常被访问但较少被修改的数据和经常被修改但较少被访问的数据。对于前者可以做较多的索引(一般可做8 至12 个)来提高访问的效率;对于后者就必须少建索引,否则,由于它经常被修改,重索引的概率就很大,反而会降低系统的效率。 2、数据仓库的功能特点 数据仓库技术是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。数据仓库技术就是基于数学及统计学严谨逻辑思维的并达成“科学的判断、有效的行为”的一个工具。数据仓库技术也是一种达成“数据整合、知识管理”的有效手段。数据仓库是面向主题的、集成的、与时间相关的、不可修改的数据集合。这是数据仓库技术特征的定位。数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。 数据仓库的主要功能是提供企业决策支持系统或执行信息系统(EIS)所需要的信息,它把企业日常运行中分散不一致的数据经归纳整理后转换为集中统一的、可随时取用的深层信息,这种信息虽然也是按关系数据库的存储结构存储的, 单与面向逐条记录的联机时务处理(OLTP)不同,在数据仓库中的一条记录,有可能是基础数据中若干个表、若干条记录的归纳和汇总。 数据仓库的基本特点是: (1)面向对象性。数据仓库中存储的信息是面向主题来组织的。它根据所需要的信息,分不同类、不同角度等主题把数据加工、整理之后存储起来(按横向对数据进行分类存储)。 (2)数据历史性。数据仓库中可以专门存储5 至10 年或更久的历史数据,数据具有时间标示,以满足信息比较、分析预测等的数据需求(按纵向对数据进行分类存储)。 (3)数据集成性。无论数据来源于何处,进入数据仓库后都具有统一的数据结构和编码规则, 数据仓库中的数据具有一致性的特点。 (4)数据只读性。数据仓库是一个信息源,它只是为在其上开发的DSS 或EIS 等提供信息服务,因此它应是只读数据库,一般不能轻易改动,只能定期刷新。 (5)操作集合性。数据仓库可通过快照机制,成批的更新来自不同资源的数据, 将其载入数据仓库; 也可以成批的访问数据。 (6)应用C/S(客户机/服务器)性。数据仓库通过定义信息(元信息)把整个数据组织起来。在元信息中有一类记录系统信息,定义了数据存储、修改权限等,记录系统将原始数据转换成适合于数据仓库应用的数据,所以这实际上是C/S 应用模式。
四、数据挖掘技术 数据挖掘是一种大型数据库(如数据仓库)中提取隐藏的预测性信息的新技术。数据挖掘是一种展望和预测性的信息分析工具,它能挖掘数据间潜在的关系模式,发现用户可能忽略的信息,为企业管理者提供前摄的(Proactive)、基于知识的决策。数据挖掘技术使DSS 的应用向效益型卖出了重要的一步。传统的DSS 通常是在某个假设的前提下通过数据查询和分析来验证或否定这个假设,而数据挖掘技术则能够自动分析数据,进行归纳性推理,从中发掘出潜在模式或产生联想,建立新的业务模型,帮助决策者调整市场策略,做出正确的决策。 从数据本身来考虑,通常数据挖掘需要有数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示等8个步骤。 (1) 信息收集:根据确定的数据分析对象抽象出在数据分析中