当前位置：文档之家› 面向证券客户关系管理的数据仓库应用

面向证券客户关系管理的数据仓库应用

重庆大学

硕士学位论文

面向证券客户关系管理的数据仓库应用

姓名：赵天才

申请学位级别：硕士

专业：计算机技术

指导教师：李华;单欲立

20040428

重庆大学硕士学位论文中文摘要

摘要

随着证券行业竞争的日趋激烈，如何建立、维护与发展客户关系，有效地丌展营销与服务，是各券商在当前环境下必须优先考虑的问题；另外，经过十多年的发展，所有券商都积累了大量宝贵的客户数据资源，广大券商也急需把这些数据转化为证券公司的经营策略和竞争能力：最后，计算机和数据仓库技术的发展，也为券商建立ＣＲＭ（ＣｏｓＬｕＮｅｒｓＲｅｌａｔｉｏｎｓｈｉＰＭａｎａｇｅｍｅｎｚ，ＣＲＭ）系统提供了技术支持。因此，当前很多券商都在运用最新的数据仓库技术建设自己的ＣＲＭ系统，增强公司的竞争能力。

在这种背景下，本文运用数据仓库理论，建立了一个基于证券ＣＲＭ系统的数据仓库，并在此基础上设计了该ＣＲＭ系统的功能和数据挖掘模型，最后分析运用该系统后可以取得的实效，说明该系统的有效性。

论文主要研究了以下内容：

（１）数据仓库的基础理论研究，包括数据仓库的概念、结构、数据组织方式和数据挖掘的基础理论等内容；

（２）券商企业级数据仓库的设计，着重介绍了建立面向证券ＣＲＭ系统的数据仓库的步骤、券商企业级数据仓库的组织结构和模型设计、数据处理步骤和实现技术、ＣＲＭ系统的功能和模块设计等内容；

（３）券商企业级数据仓库的实现，分析了证券数据的特点，详细介绍了券商数据仓库的模型设计和物理实现，并对ＣＲＭ系统的实施效果进行了分析，说明实施基于证券ＣＲＭ的数据仓库系统能够给企业带来很好的效果。

关键词：证券，客户关系管理（ＣＲＭ），数据仓库，数据挖掘

重庆大学硕士学位论文英文摘要

ＡＢＳＴＲＡＣＴ

Ｗｉｔｈｔｈｅｃｏｍｐｅｔｉｔｉｏｎｉｎｔｈｅｓｅｃｕｒｉｔｉｅｓｂｕｓｉｎｅｓｓｂｅｃｏｍｅｍｏｒｅａｎｄｍｏｒｅｓｅｖｅｒｉｔｙ，ａｌｌｔｈｅｓｔｏｃｋｊｏｂｂｅｒｗａｎｔｔｏｕｓｅｔｈｅＣＲＭ（ＣｏｓｔｕｍｅｒｓＲｅｌａｔｉｏｎｓｈｉｐＭａｎａｇｅｍｅｎｔ，ＣＲＭ）ｔｏｍａｉｎｔａｉｎｈｉｓｃｏｓｔｕｍｅｒｓｒｅｌａｔｉｏｎｓｈｉｐａｎｄｉｍｐｒｏｖｅｈｉｓｃｏｍｐａｎｙ’Ｓｃｏｍｐｅｔｉｔｉｖｅａｂｉｌｉｔｙ，ａｔｔｈｅｓａｍｅｔｉｍｅ．ａｌＩｔｈｅｓｔｏｃｋｊｏｂｂｅｒｈａｖｅａｌｒｅａｄｙａｃｃｕｍｕｌａｔｅｄｌｏｔｓｏｆｃｏｓｔｕｍｅｒｓｄａｔａ，ａｎｄｔｈｅｃｏｍｐｕｔｅｒｔｅｃｈｎｏｌｏｇｙ，ｓｕｃｈａｓｄａｔａｗａｒｅｈｏｕｓｅａｎｄｄａｔａｍｉｎｉｎｇｔｅｃｈｎｏｌｏｇｙｈａｖｅｄｅｖｅｌｏｐｍｅｎｔｂｅｔｔｅｒ，ｗｈｉｃｈｂｅｃｏｍｅｔｈｅｂａｓｅｆｏｒｔｈｅｓｔｏｃｋｊｏｂｂｅｒｔｏｃｏｎｓｔｒｕｃｔｔｈｅＣＲＭｓｙｓｔｅｍ．

Ｕｎｄｅｒｔｈｉｓｂａｃｋｇｒｏｕｎｄ，ａｄａｔａｗａｒｅｈｏｕｓｅｗｈｉｃｈｉｓｏｒｉｅｎｔｅｄｔｈｅｓｅｃｕｒｉｔｉｅｓＣＲＭｉｓｅｓｔａｂｌｉｓｈｅｄｉｎｔｈｉｓｐａｐｅｒ，ｔｈｅＣＲＭｓｙｓｔｅｍａｎｄｆｕｎｃｔｉｏｎ，ｔｈｅｄａｔａｍｉｎｉｎｇｔｅｃｈｎｏｌｏｇｙｉｓａｌｓｏｍｅｎｔｉｏｎｅｄ．Ａｔｌａｓｔ，ｓｏｍｅｄａｔａａｎｄａｎａｌｙｓｉｓｒｅｓｕｌｔｉｓｐｒｏｖｉｄｅｄｔｏｐｒｏｖｅｔｈｅｓｙｓｔｅｍｍｅｎｔｉｏｎｅｄｉｎｔｈｉｓｐａｐｅｒｉｓｃｏｒｒｅｃｔａｎｄｅｆｆｅｃｔｉｖｅ。

Ｔｈｅｆｏｌｌｏｗｉｎｇｃｏｎｔｅｎｔｓｉｓｓｔｕｄｉｅｄｉｎｔｈｅｐａｐｅｒ．

（１）ｔｈｅｔｈｅｏｒｙｏｆｄａｔａｗａｒｅｈｏｕｓｅ，ｗｈｉｃｈｉｎｃｌｕｄｅｓｔｈｅｃｏｎｃｅｐｔ，ｔｈｅｃｏｎｓｔｒｕｃｔ，ｔｈｅｄａｔａｓｔｒｕｃｔｕｒｅｏｆｄａｔａｗａｒｅｈｏｕｓｅ，ａｎｄｔｈｅｄａｔａｍｉｎｉｎｇｔｈｅｏｒｙ；

（２）ｔｈｅｄｅｓｉｇｎｏｆｓｔｏｃｋｊｏｂｂｅｒ’Ｓｄａｔａｗａｒｅｈｏｕｓｅ．ｔｈｅｓｔｅｐｏｆｃｏｎｓｔｒｕｃｔｉｎｇａｄａｔａｗａｒｅｈｏｕｓｅｗｈｉｃｈｏｒｉｅｎｔｅｄｔｏｔｈｅｓｔｏｃｋｊｏｂｂｅｒ’ＳＣＲＭｓｙｓｔｅｍ，ｔｈｅｃｏｎｓｔｒｕｃｔｉｎｇａｎｄｍｏｄｅｌｄｅｓｉｇｎｉｎｇｏｆｓｔｏｃｋｊｏｂｂｅｒ’Ｓｄａｔａｗａｒｅｈｏｕｓｅ，ｔｈｅｒｅａｌｉｚａｔｉｏｎｔｅｃｈｎｏｌｏｇｙａｎｄｔｈｅｓｔｅｐｓｏｆｄａｔａｔｒａｎｓａｃｔｉｎｇｏｆｄａｔａｗａｒｅｈｏｕｓｅｉｓｍｅｎｔｉｏｎｅｄｉｎｔｈｉｓｓｅｃｔｉｏｎ；

（３）ｔｈｅｒｅａｌｉｚａｔｉｏｎｏｆｓｔｏｃｋｊｏｂｂｅｒ’Ｓｄａｔａｗａｒｅｈｏｕｓｅ．Ｉｎｔｈｉｓｓｅｃｔｉｏｎ，ｔｈｅｃｈａｒａｃｔｅｒｏｆｓｅｃｕｒｉｔｉｅｓｄａｔａｉｓａｎａｌｙｚｅｄ，ｔｈｅｍｏｄｅｌｄｅｓｉｇｎａｎｄｐｈｙｓｉｃｓｒｅａｌｉｚａｔｉｏｎｏｆｄａｔａｗａｒｅｈｏｕｓｅｉｓｉｎｔｒｏｄｕｃｅｄ，ａｎｄｔｈｅｅｆｆｅｃｔｏｆＣＲＭｓｙｓｔｅｍｉｓａｌｓｏｒｅｆｅｒｒｅｄｉｎｔｈｉｓｓｅｃｔｉｏｎ，ｔｈｉｓｐｒｏｖｅｄｔｈａｔｔｈｅｄａｔａｗａｒｅｈｏｕｓｅｓｙｓｔｅｍｗｈｉｃｈｂａｓｅｄｏｎｔｈｅｓｅｃｕｒｉｔｉｅｓＣＲＭＣａｎｐｒｏｖｉｄｅｄｌｏｔ’Ｓｐｒｏｆｉｔｓｔｏｓｅｃｕｒｉｔｉｅｓｅｎｔｅｒｐｒｉｓｅ．

Ｋｅｙｗｏｒｄｓ：Ｓｅｃｕｒｉｔｉｅｓ，ＣＲＭ，ＤａｔａＷａｒｅｈｏｕｓｅ，ＤａｔａＭｉｎｉｎｇ

重庆大学硕士学位论文

１引言

１．１研究背景

加入ＷＴＯ后，我国证券市场发生了一系列重大变革，证券业的经营者们面临着巨大的挑战，如外国金融机构进入国内市场，佣金下调等，导致券商的利润空间日趋减小，生存压力日渐趋增大，证券行业的竞争日趋激烈【１］；与此同时，互联网技术的广泛应用，使得整个证券市场的竞争已经打破了地域的限制，客户和投资者有了更多的选择。当然，信息技术的发展和证券市场的开放也给广大券商带来了崭新的发展机遇：经过十多年的发展，几乎所有券商都有大量宝贵的客户数据资源。如何充分利用这些客户数据资源，发现隐含在数据中的有用信息，将数据转化为证券公司的经营策略和竞争能力；如何建立、维护与发展客户关系，有效地开展营销与服务，是各券商在当前环境下必须优先考虑的问题。在这种情况下，ＣＲＭ成为证券业界共同关心的话题。

在证券业推行ＣＲＩｄ系统，通过信息技术整合现有的客户数据资源，是券商维持现有客户，有效吸引新客户，保持企业的竞争能力和赢利能力的重要手段和技术方法。但是，由于国内券商间的激烈竞争，和证券计算机网络系统建设时，缺乏统一的规范和规划，目前国内各券商的计算机网络系统之间，或者同一家券商内部的网络系统之间，存在着大量的系统异构或者数据异构问题【２］，利用传统的方法很难将这些数据统一起来，因此，如何从技术层面上对这些异构客户信息进行整合，实现ＣＲＭ的最终目标，也是券商当前需要关注的一个主要问题。

经过研究，本文认为，利用先进的数据管理技术，创建券商企业级数据仓库，可以解决不同券商管理信息系统之间的数据共享问题，实现对现存客户数据的重新组织整理，从而从不同接触点来获取客户信息；在建立券商企业级数据仓库的基础上，可以利用ＯＬＡＰ技术和数据挖掘技术，分析客户的行为方式，将数据转化为服务策略，开展一对一的个性化服务，对于改善券商信息服务工作的有效性，提升客户忠诚度有重要意义。

１．２相关技术及其发展现状

由于我国证券市场的相对独立性，近年虽然加强了一些与国外券商的交流，甚至出现了合作与合资券商，但证券市场环境不同，运行方式存在差异，我国证券行业数据仓库的应用还处于起步阶段，数据仓库技术在证券行业成功的案例并不多，虽然一些证券公司也试探过数据仓库项目，但并末取得理想的效果，建立的是都以业务为主的数据仓库单一模式，容量和速度限制在３—５年数据，其应用

以数据收集为主，目的是为公司决策者提供快速有效的各种报表，以提高公司的市场反应速度。

目前，各大券商都希望利用先进的数据库技术从庞大的、不同类型的数据库中抽取未知的、有用的和能理解的信息，用来支持决策，增加对客户的管理，提高管理水平和经营能力，也正在尽量向数据集中的交易方式转变。

所谓数据集中是指将下属各营业部的交易数据、客户数据、经营数据汇总到公司总部的主服务器上一起处理。数据的集中不仅能带来业务处理效率的提高，更有利于券商对自身经营状况的管理和监控，支持决策过程，这种应用类似于数据仓库技术的雏形。此时，各券商必须用全局的观点获取和集成来自公司内部和外部的数据，将操作型系统修改成集成的系统，进行数据抽取、转换、清沈和装载，建立起企业级的数据仓库。这样，不仅能做到数据的集中处理，还可以进一步提供多种灵活的数据分析方法，为证券业客户关系管理提供强大的支撑数据平台。

建立基于证券ＣＲＭ的数据仓库，需要首先明确ＣＲＭ的概念理论及其相关理论，然后，才能设计一个功能齐全的ＣＲＭ系统：由于ＣＲＭ系统设计时，需要首先对来自不同数据库的信息进行整合，因此需要对数据仓库的技术进行深入研究；建立ＣＲＭ系统的最终目的在于实现对客户信息的多角度分析，发现有利于券商经营赢利的规律，此时，数据挖掘技术是实现信息分析的有利工具，因此，建立基于证券ＣＲＭ的数据仓库系统，需要掌握的关键技术包括ＣＲＭ理论、数据仓库理论和各种数据挖掘技术。

１．２．１ＣＲＭ和证券ＣＲＭ

ＣＲＭ（ｃｏｓｔｕｍｅｓｒｅｌａｔｉｏｉｉｓｍａｎａｇｅｍｅｎｔ，ＣＲＭ）是通过赢得、发展和保持有价值的客户，增加企业收入、优化赢利能力并提高客户满意度的一种商务发展战略。其基本思想可以描述为１３】：

获得一个新客户要比留住一个老客户花更多的钱：

客户离开后再把他们吸引回来所花的钱要比使他们一开始就满意所花的钱要多得多；

将新产品卖给老客户要比卖给新客户容易得多；

有些客户比其他客户更加有利可图。

在以上思想的指导下，企业不但要重视新客户的发展，更要注重对原有客户的保持和潜力发掘。通过对客户交往的全面记录与分析，不断加深对客户需要的认识，开发现有客户存在的购买潜力，达到进一步提高销售额，降低成本，增加利润率，提高客户满意程度的目标。

从本质上说，ｃＲＭ是一种以客户价值为中心的经营思想，在其实施过程中，

必然要与公司的运营和管理流程、经营策略和需求价值链进行联结，也有人把ＣＲＭ对企业的影响分为理念、战略、战术、技术、技能、业务过程六个方面，其中理念是ＣＲＭ成功的关键【４】，是ＣＲＭ实施和应用的基础和土壤。

对于证券业而言，通过实施ＣＲＭ战略，可以帮助证券公司准确识别客，ｏ和区分客户，帮助券商回答哪些客户最有利可图、哪些促销活动最有效等诸如此类的问题：从而协助券商为不同的客户提供不同的投资分析工具和服务方式，保证券商以最少的投资获得最大的效益。

１．２．２数据仓库技术

从技术层面讲，ＣＲＭ实施成功的关键阶段在于对数据的有效处理和分析。并且，由于不同的客户信息数据来源来源不同、结构存在差异，相互之间很难实现共享。因此，在现有基础上对券商实施ＣＲＭ系统，需要首先解决数据集成的问题。而目前，实现不同数据集成的方法，主要是建立数据仓库。

数据仓库的思想是建立在关系数据库模型大量应用的基础之上的，随着数据库中数据量越来越大，查询越来越复杂，对数据的合成、分析和综合逐渐出现了难以克服的问题和困难，例如数据组织缺乏专题性，很难用于辅助决策或者帮助人们发现有用的信息等。在这种情况下，人们开始尝试对数据库中的原始数据进行再加工，形成一个综合的、面向分析的环境以帮助人们发现隐藏在数据中的有用信息，支持各种企业决策的产生，这就是数据仓库［５ｌ。

数据仓库的建立使信息环境划分为两部分：操作型环境和分析环境。操作型数据库负责数据的日常操作型应用，数据仓库则满足分析型应用需求［６１。它的出现为处理大量的数据，从深层次、高效率地发掘潜在的有价值的信息，并使之能用于决策支持开辟了一条新的道路。

１．２．３联机分析处理和多维数据分析

联机分析处理（ＯＬＡＰ）的概念最早是由关系数据库之父Ｅ．Ｆ．ｔｏｄｄ于１９９３年提出的。当时，Ｃｏｄｄ认为联机事务处理（ＯＬＴＰ）已不能满足终端用户对数据库查询分析的需要，ＳＯＬ对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果，而查询的结果并不能满足决策者提出的需求。因此Ｃｏｄｄ提出了多维数据库和多维分析的概念，即ＯＬＡＰ［７１。

联机分析处理（ＯＬＡＰ）不对数据库中的数据进行查询、增、删、改等操作，而主要以灵活、可用和及时的方式构造、处理和表示综合数据为目的，从而为决策人员和高层管理人员提供依据。联机分析处理有以下特点：

（１）快速性，由于系统采用多维数据结构存储，在查询时不需要进行大量计算，可直接访问，因此具有更高的查询效率：

（２）可分析性，系统能从任意角度和任意层次对数据进行查询和分析，并且

可以满足不断增长的数据量和用户需求的变化；

（３）多维性，是ＯＬＡＰ的关键属性，通过切片、钻取、旋转等手段，可以展示出多维视图的结构，使用户直观的了解和分析数据；

（４）信息性，不论数据量有多大，也不管数据存储在何处，ＯＬＡＰ系统应能及时获得信息，并且管理大容量信息。

１．２．４数据挖掘技术

随着９０年代初数据仓库（ＤａｔａＷａｒｅｈｏｕｓｅ）的出现和应用不断推广，数据挖掘（ＤａｔａＭｉｎｊｎｇ）的概念被相继提出，用于对数据仓库中的海量信息进行处理，帮助用户从大量的数据库中抽取有用的信息。

目前，常用的数据挖掘技术可谓种类繁多，但底层的核心方法却可以分为六大类啡【１１】，较为经典的方法包括统计、近邻、聚类三类，而目前比较流行的新方法则包括树（决策树）、神经网络和规则。这六类方法中的每一项都可以用于ＣＲＭ系统中的数据挖掘。

统计技术：严格地说，统计并不是数据挖掘技术，但当为了对某种发展趋势或者规律进行预测时而采用的统计技术，则可以认为该技术是一种为数据挖掘进行服务的工具口２］，况且，在“数据挖掘”的概念出现以前，统计方法在提取信息方面已经得到了长期广泛的应用，因此很多人愿意把统计划分为一种数据挖掘技术。

聚类和最近邻技术：这两类技术在数据挖掘中是使用最早的，两者十分相似，在证券市场中的应用也颇为广泛，例如股票市场上常常采用最近邻技术来预测股票价格的走势和变化规律。

决策树：从商业的角度看，决策树可以看成对原始数据的分割。对顾客、产品和销售区域进行分割是多年来销售经理一直在从事的工作，在数据挖掘中，决策树因为其算法的健壮性和运算速度较快，常常被用于第一次数据挖掘，以产生一个较为有用的分类器子集，作为其他的数据挖掘工具（如神经网络方法或者最近邻技术）的预处理方法。

人工神经网络技术［１３】：人工神经网络是指在计算机上运行的用于实现模式识别和机器学习算法的计算机程序，它通过对大量历史数据库的计算来建立预测模型。近几年来，人工神经网络技术在计算机会话、图象理解和顾客响应预测、欺诈行为检测等方面取得了大量研究成果。

规则归纳技术［１４］：规则归纳是数据挖掘的一种主要形式，而且可能是无监督学习系统中的最普遍的知识发现方式。从理论上讲，规则归纳可以得到数据库中的所有关联模式，这是该技术的优势，但也恰恰是该系统的不足，因为在数据仓库中提取所有规则，用户往往会被这些大量规则所淹没，从而有可能遗漏重要的

有用信息，因此，人们一般还会对归纳系统得到的各种规则进行再一次的数据挖掘，以找到其中隐藏的最有用的信息。

总的来说，ＣＲＭ系统、数据仓库、数据挖掘是三种相互独立又相互关联的信息技术。ＣＰ３１代表着用户的需求和系统的实现目标，将通过一系列的软件功能来实现，而数据仓库则是支持ＣＲＭ系统的，或者说是从数据库技术发展中出现的一种为ＣＲＭ服务的数据组织、存储技术。数据仓库由基本数据、历史数掘、综合数据和元数据组成，能提供综合分析、时间趋势分析等辅助决策信息。数据挖掘是对数据库和数据仓库中的数据使用一系列的方法进行丌采、挖掘、分析，从中识别和抽取隐含的、潜在的有用信息，并充分利用这些信息为ＣＲＭ服务。三者的结合使数据仓库的功能和作用达到了更高层次。

１．３课题的主要研究内容和目标

本课题的研究目标可以描述为：利用先进的数据管理技术，对现存的客户数据重新组织整理，从不同的客户接触点获取客户信息，创建企业级数据仓库；利用ＯＬＡＰ和数据挖掘技术，分析客户的行为方式，将数据转化为服务策略，开展…对一的个性化服务，改善信息服务工作的有效性，提升客户忠诚度。

主要研究内容包括：

（１）数据仓库的基础理论研究。在对不同的数据库信息进行整合过程中，需要一系列的数据处理方法，如数据的寻找、获取、清理和转换等，而数据仓库的体系结构也会根据底层数据库和应用目标的不同而有所变化，另外，数据仓库技术还将决定数据挖掘的方法、效率和效果。数据仓库的基础理论研究将主要阐述上述相关理论和方法。

（２）券商企业级数据仓库的设计。分析获取来自公司各个部门的数据和其它相关外部数据，建立起统一的数据模型，进行数据抽取、转换和装载，将操作型数据系统修改为集成的数据系统，建立起有利于客户关系管理的券商企业级数据仓库。建立券商数据仓库的主要内容包括数据仓库的整体构架设计、数据模型的选择、数据转移定义及实现和仓库中数据的管理；此外还对基于券数据仓库的ＣＲＭ系统功能设计和各个功能模块的具体功能作了详细叙述。

（３）券商企业级数据仓库的实现。通过分析证券数据的特点，获取券商数据仓库的各个主题，并以客户分析主题为基础详细介绍了券商数据仓库的高层、中间层、底层模型设计过程和物理实现，数据转移的实现，ＣＲＭ系统功能和界面实现：以及数据挖掘在ＣＲＭ系统中的重要作用和展望，并对ＣＲＭ系统的实施效果进行了分析，说明实施基于证券ＣＲＭ的数据仓库系统能够给企、Ｉｋ带来很好的效果。

重庆大学硕士学位论文１引言

以上内容，将分别在论文的第二、三、四章进行论述，论文的第五章将对论文的研究工作进行总结，说明该系统存在的不足和发展方向。

２数据仓库概论

建立企业级的数据仓库，对来自不同应用需要首先了解一些数据仓库的基础知识，本章将详细介绍数据仓库的概念、组织结构与实现方式等内容，以便为下一步建立基于券商ＣＲＭ的企业级数据仓库奠定理论基础和知识基础。

２．１数据仓库的概念

２．１．１数据仓库思想的出现

随着社会的发展，人们已不满足于简单的数据操作，进一步产生了使用现有数据的要求。但随着数据量越来越大，查询越来越复杂，对数据的合成、分析和综合逐渐出现了难以克服的问题和困难，这时，人们逐渐认识到基于传统数据库的数据处理技术已经不能很好地满足决策的需要，开始尝试对数据库中的原始数据进行再加工，形成一个综合的、面向分析的环境以支持决策的产生。这种环境中的分析数据与操作型数据具有截然不同的特点，如下表２—１所示。

表２－１操作型数据和分析型数据

ｔａｂｌｅ２－１ｔｈｅｏｐｅｒａｔｉｏｎａｌｄａｔａａｎｄｔｈｅａｎａｌｙｓｉｓｄａｔａ

原始数据／操作型数据分析型数据

细节的综合的或提炼的

在存取瞬间是准确的代表过去的数据

可更新的不更新

操作需求事先可知道的操作需求事先不知道

生命周期符合ＳＤＬＣ完全不同的生命周期

对性能要求高对性能要求宽松

事务驱动分析驱动

面向应用面向分析

一次性操作数量小一次性操作数量大

支持日常操作支持管理需求

在这种数据的要求下，数据仓库（ＤａｔａＷａｒｅｈｏｕｓｅ，ＤＷ）的思想逐渐形成。数据仓库的建立使信息环境划分为两部分：操作型环境和分析环境。操作型数据库负责数据的日常操作型应用，数据仓库则满足分析型应用需求。它的出现为处理大量的数据，从深层次、高效率地发掘潜在的有价值的信息，并使之能用于决策支持开辟了一条新的道路。

２．１．２数据仓库的定义

关于数据仓库的定义尚未统一，但一般认为ｗ．Ｈ．］ｎｍｏｎ对数据仓库的定义最为确切【”］：数据仓库是一个用以更好地支持企业或组织的决策分析处理的、面向主题的、综合的、稳定的、随时间变异的数据集合。从这个定义可以看出数据仓库主要有以下特征：

（１）数据仓库的数据是面向分析主题的

主题是数据归类的标准，每个主题对应一个客观分析领域，基于主题组织的数据被划分为各自独立的领域，每个领域有自己的逻辑内涵而互不交叉。比如在企业中，可以以销售为主题组织数据。这样可以简化单一主题的数据检索过程，满足联机分析处理的需要，并在整体上保证数据的一致性，从而构成管理分析和决策的统一、准确的数据源。

（２）数据仓库的数据是综合的

数据仓库的数据，是从原有的分散的数据库中抽取出来的。数据仓库的每一个主题所对应的源数据在原有的各分散数据库中有许多重复和不一致的地方，且来源于不同系统的数据都和不同的应用逻辑捆绑在一起；数据仓库的综合数据０ｉ能从原有的数据库系统直接得到，因此在数据进入数据仓库之前要经过统一和综合，使数据具有一致的命名规则、一致的度量单位、一致的编码规则、一致的物理属性等。

（３）数据仓库的数据是稳定的

数据的稳定性包括多方面的含义：数据语义和结构稳定，以满足历史分析需要；进入数据仓库的数据通常不再更新，特别是详细数据，因为它是系统的历史状态和变化客观真实的反映。面向事务处理的数据库系统的状态则始终在不断变化。

（４）数据仓库的数据是随时间变异的

数据仓库随时间变化不断增加新的或删去旧的数据内容；数据仓库中包含的大量综合数据要随时间变化不断的重新进行综合。所以数据仓库的码键一般都包含时间项，以表明数据的时间性。

２．２数据仓库的结构

数据仓库的结构分为两个方面，一是数据仓库的数据结构；二是数据仓库的体系结构。

２．２．１数据仓库的数据结构

图２－１数据仓库的数据结构

Ｆｉｇｕｒｅ２－１ｔｈｅｄａｔａｃｏｎｓｔｒｕｃｔｅｒｏｆｄａｔａｗａｒｅｈｏｕｓｅ

数据仓库要把分散的、难以访问的日常操作的数据转化为集中统一的信息，就必须对数据进行加工。数据经加工处理后，原始数据经过集成后，首先形成当前详细数据，并根据具体需要进行进一步的综合，从而形成归纳总结数据乃至专业分析数据，老化的数据将形成历史性详细数据。数据仓库数据结构如图２－１所不ａ

（１）历史详细数据

早期细节数据。这些数据主要用于数据对比、回归、汇总、预测等，供决策分析、建模之用。这些数据主要是时间序列数据。数据仓库的历史详细数据层存储的历史数据一般为五至十年或更久的数据。由于历史详细数据量很大，所以一般要放在存储容量较大的介质上，如磁带机等。但同时要考虑数据的访问频率、介质成本和访问类型等因素。

（２）当前详细数据

当前细节数据。该层存储当前最新的详细数据，在一定时刻，这些数据会转移到历史数据详细数据层中去。由于这里存储的是当前最新数据，所以它对理解当前情况具有重要作用。

（３）归纳总结数据

轻度综合级数据。该层数据来源于底层，它综合、总结不同阶段的底层数据。该层的存储内容已经是有序化程度较低的信息，但是这些信息只是一些简单的汇总，尚不能形成高级的决策信息。

（４）专业分析数据

高度综合级数据。该层内容为高度有序化的信息，而非简单的数据。它是对底层数据进行专业分析，如回归、统计性分析、运筹分析、预测分析等，得到的高层次的信息。

从上述数据结构可以看出，数据仓库中存在不同的细节级别，一般称之为“粒度”。粒度越大表示细节程度越低，综合程度越高。粒度是数据仓库的重要概念，它既影响数据仓库中数据量的多少，也能影响到数据仓库所能回答的问题的种类。

一个内在的矛盾是：粒度越小，细节程度越高，回答查询的种类就越多，但必然造成数据仓库内数据的大量堆积。这样在回答比较综合的问题时，需要从大量细节数据中综合出答案，效率将十分低下。另一方面，粒度的增大会提高查询效率，但同时造成回答细节问题能力的下降。

因此，在数据仓库中多重粒度是必不可少的。由于数据仓库主要用于ＤＳＳ分析，因而决定其大部分查询都基于一定程度的综合之上，只有极少数的查询涉及到细节。所以，应将大粒度数据存储在快速的设备上，这样绝大多数的查询性能将大大提高。而小粒度数据可存储于低速设备上，一旦有细节查询需求，也可以满足。

２．２．２数据仓库的体系结构

数据仓库体系结构问题是数据仓库研制和开发中很重要的问题。由于数据仓库体系结构必须考虑原有信息系统的体系结构及相关的基础设施，因此，确定数据仓库的体系结构必须兼顾用户需求的多变性、基础设施的复杂性、技术更新的阶段性等。数据仓库的体系结构一般如图２—２所示。

量一蓊一羽

图２－２数据仓库的体系结构

Ｆｉｇｕｒｅ２－２ｔｈｅｓｙｓｔｅｍｃｏｎｓｔｒｕｃｔｏｆｄａｔａｗａｒｅｈｏｕｓｅ

（１）源数据库

源数据库为数据仓库提供原始数据，包括操作型数据库系统和外部数据。源数据库可以是集合的，也可以是分布异构的。

（２）数据的提取、清洁、转换

是对数据源中涉及主题的数据进行清洁、过滤或转换处理后加入到数据仓库的过程。即将无关联的数据转换到数据仓库中有明确主题的统一数据视图中去。一般来说，原始数据中存在大量的缺陷和不一致，如：不一致的数据类型、不一

致的字段长度，这种小的差错也会造成决策分析的失误。

为了保证数据质量，需要对数据进行以下处理：数据类型的变换和域的变换；数据提炼及误差修正；按数据仓库中数据的语义规范进行代数计算和推理计算；对数据仓库的数据完整性和相容性进行检查并修正；对数据加上时间标志及对导出数据的计算。

（３）元数据管理

数据仓库中有数据和元数据两类数据，元数据就是关于数据的数据【”】。传统数据库中的数据字典就是一种元数据。在数据仓库中有两种元数据：一种是为数据从源数据库环境向数据仓库环境转换而建立的元数据，它包含所有数据项名、属性及其在数据仓库中的转换；另一种元数据在数据仓库中是用来与终端用户的多维模型之间建立映射，此种元数据称为分析元数据，常用来开发多维分析应用。

数据仓库的元数据是源数据和数据仓库数据联系的纽带，能够有效的管理源数据的转换和数据仓库的回溯：同时数据仓库中的数据量很大，划分不同的粒度层次、进行分割的策略选择、建立各种各样的索引等，都需要在元数据中进行描述和管理；另外，数据仓库中包含较长时期内的数据，不同时期不同的需求使得其数据从形式到内容都可能不同，这些都要通过元数据加以管理；再者，分析需求的不断增加变化，需要不断完善主题或增加新的主题，这些都要首先通过元数据反映。

数据仓库中的元数据内容与设计所采用的具体技术及应用环境有关，大致包括如下内容：（ａ）数据仓库的主题描述：主题名，主题的公共码键，有关描述信息等：（ｂ）外部数据和非结构化数据的描述：外部数据源名，存储地点，存储内容简述；（ｃ）记录系统定义：主题名，属性名，数据源系统，源表名，源属性名；（ｄ）逻辑模型的定义：关系名，属性ｌ，属性２…属性ｎ：（ｅ）数据进入数据仓库的转换规则；（ｆ）数据的抽取历史；（曲粒度的定义；（ｈ）数据分割的定义；（ｉ）广义索引：广义索引名，属性ｌ，属性２…属性ｎ；（ｊ）有关存储路径和结构的描述。

元数据的内容在数据仓库设计、开发、实施，以及使用过程中不断完善，不仅为数据仓库的创建提供必要的信息、描述和定义，还为开发分析人员访问数据仓库提供直接或间接的辅助信息。

（４）数据集市

所谓数据集市实际是指小型的数据仓库，相当于部门级数据仓库。不同的数据集市可以按业务的分类来组织，数据集市中一般包含有关某一特定业务领域的数据。不同的数据集市可以分布在不同的物理平台上，也可以逻辑的分布于同一物理平台上。这种灵活性使得数据集市可以独立的实施。数据集市的思想实际上是一种分布式数据仓库的思想。

（５）数据分析

一组面向最终用户，实现决策分析的软件。如报表查询工具、趋势预测、统计分析工具。用户通过它们和后端数据仓库服务器进行交互，完成决策分析。

２．３数据仓库的数据组织

２．３．１多维数据概念

数据仓库是以多维表或多维数据库结构形式组织数据的。多维结构是决策支持的支柱，多维数据的主要概念包括以下内容［１７］【１８］。

维：维是人们观察数据的特定角度。例如，经济分析人员常常关心国民生产总值数据随时间推移而发生的变化情况，这时从时间的角度来观察国民生产总值数据，所以时间就是一个维（时间维）。经济分析人员也时常关心不同地区的国内生产总值情况，这时从地理分布的角度来观察国民生产总值数据，此时，地理分布也是一个维（地理维）。

维的层次：人们观察数据的某个特定角度（即某个维）还可以存在细节程度不同的多个描述方面，我们称这多个描述方面为维的层次。一个维往往具有多个层次，例如描述时间维时，可以从日期、月份、季度、年等不同层次来描述，那么日期、月份、季度、年就是时间维的层次：同样，城市、地区、国家等构成了地理维的多个层次。

维成员：维的一个取值称为该维的一个维成员。如果一个维是多层次的，那么该维的维成员是在不同维层次的取值的组合。例如，我们考虑时间维具有日、月份、年三个层次，分别在ＦＩ、月份、年上各取一个值组合起来，就得到了时间维的一个维成员，即“某年某月某日”。一个维成员并不一定在每个维层次上都要取值，例如，“某年某月”、“某月某日”、“某年”等等都是时间维的维成员。

多维数组：一个多维数组可以表示为：（维ｌ，维２，…，维ｎ，变量）

数据单元：多维数组的取值称为数据单元。当多维数组的各个维各选中…个维成员，这些维成员的组合就唯一确定了一个变量的值。

２．３．２多维表的数据组织

数据仓库的多维表（维表一事实表）结构共有三种组织形式。

星型模型：大多数的数据仓库都是采用星型模型，由事实表及多个维表所组成。事实表用于存放大量事实数据（数量数据），通常都很大，而且非规范程度很高。例如，多个时期的数据可能会出现在同一个表中。维表存放描述性数据，它是围绕事实表建立的较小的表。星型模型数据结构如图２－３所示。星型模型最适合于数据集市，对大规模数据有一定的缺点。

客户信息表客户姓名客户地址客户年龄婚姻状况客户年龄段

１５，２０

２０．２５

２５．３０

３０．３５

婚姻状况

未婚

婚龄０．５年婚龄５．１０年大于】０年

图２－３星型模型的数据结构

Ｆｉｇｕｒｅ２－３ｔｈｅｓｔａｒｍｏｄｅｌｏｆｄａｔａｃｏｎｓｔｒｕｃｔ

雪花模型：雪花模型是对星型模型的扩展。雪花模型对星型模型的维表进一步层次化，形成一些局部的“层次”区域，如在图２—３中可以把地址维度表扩展为“城区表”和“城区地址表”，如图２－４所示。它的优点是最大限度的减少了存储量，以及把较小的维表联合在一起来改善查询性能，但是，雪花模型增加了用户必须处理的表的数量，增加了某些查询的复杂程度。

客户信息表客户姓名客户地址客户年龄婚姻状况客户年龄段

１５－２０

２０．２５

２５．３０

３０．３５

婚姻状况

未婚

婚龄０．５年婚龄５．１０年人于１０年

图２－４雪花模型的数据结构

Ｆｉｇｕｒｅ２－４ｔｈｅｓｔａｒｍｏｄｅｌｏｆｄａｔａｃｏｎｓｔｒｕｃｔ

星网模型：星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维，如时间维，连接多个事实表。

２．３．３多维数据库的数据组织

数据仓库的另一种数据组织形式是多维数据库形式，其主要的特点是使用维为坐标的存储，它提高了多维分析操作的效率。

数据在多维空间中的分布总是不均匀的，在事件发生的位置，数据聚合在一

起，其密度很大，而其他地方可能很稀疏。因此，要设法解决多维数据空间的数据稀疏和数据聚合问题。事实上，有许多方法可以构造多维数据。如超立方结构和多个超立方结构组成的多立方结构等形式。

２．４联机分析处理（ＯＬＡＰ）多维数据分析技术

多维分析是指对以多维形式组织起来的数据采取切片、切块、旋转等各种分析动作，以求剖析数据，使最终用户能从多个角度、多侧面观察数据库中的数据，从而深入地了解包含在数据中的信息、内涵。多维分析的基本功能包括以下三种【ｌ

９１。

切片和切块：在多维数据结构中，按二维进行切片，按三维进行切块，可得到所需的数据。

钻取：分为向下钻取和向上钻取。向上钻取指获取更高层次的综合数据，向下钻取则是指查询更详细的数据。

旋转：旋转即是改变一个报告或页面显示的维方向。例如旋转可能包含了交换行和列；或把某一个行维移到列维中，或是把页面显示中的一个维和页面外的维进行交换。

２．５数据挖掘

２．５．１数据挖掘概念

数据挖掘（ＤａｔａＭｉｎｉｎｇ，ＤＭ）是大型数据库（ＶｅｒｙＬａｒｇｅＤａｔａｂａｓｅ。ＶＬＤＢ）和数据仓库中的智能应用技术，它是人工智能、机器学习与数据库技术相结合的产物。数据挖掘也称为数据库中的知识发现（ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙｉｎＤａｔａｂａｓｅ，ＫＤＤ），其定义是“从大量数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息。”数据挖掘的知识可以表示为概念、规则、分类、规律等形式。

２．５．２数据挖掘的过程

数据挖掘过程一般由３个主要的阶段组成‘列：数据准备、采掘操作、结果表达和解释。知识的发现可以描述为这３个阶段的反复过程．如图２－５所示。

数据源

数据

图２－５数据挖掘过程示意圈

Ｆｉｇｕｒｅ２－５ｔｈｅｐｒｏｃｅｓｓｏｆｄａｔａｍｉｎｉｎｇ

（１）数据准备

这个阶段又可进一步分成３个子步骤：数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理，解决语义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要分析的数据集合，缩小处理范围，提高数据挖掘的质量。预处理是对数据进行必要的综合。

（２）数据挖掘

这个阶段进行实际的挖掘操作。主要包括：要首先决定如何产生假设，是让数据采掘系统为用户产生假设，还是用户自己对于数据库中可能包含的知识提出假设，前一种称为发现型的数据采掘，后一种称为验证型的数据采掘。无论哪种类型的数据挖掘，都需要首先选择合适的工具，然后定义发掘知识时所进行的各种操作，最后还要通过实际的数据来证实所发现的知识。

（３）结果表述和解释

根据最终用户的决策目的对提取的信息进行分析，把最有价值的信息区分出来，并且通过决策支持工具提交给决策者。因此，这一步骤的任务不仅是把结果表达出来（例如采用信息可视化方法），还要对信息进行过滤处理。如果不能令决策者满意，需要重复以上数据采掘的过程。

２．５．３数据挖掘的任务

数据挖掘的任务有六项：关联分析、时序模式、聚类、分类、偏差检测、预测。

关联分析：关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值重复出现且概率很高时，它就存在某种关联，可以建立这些数据项

的关联规则。

时序模式：通过时间序列搜索出重复发生概率较高的模式。在时序模式中，需要找出在某个最小时间内出现比率一直高于某一最小百分比（阈值）的规则。

聚类：数据库中的数据可以划分为一系列有意义的子集，即类。在同一类别中，个体之间的距离较小，而不同的类别的个体之间的距离偏大。

分类：分类是找出～个类别的概念描述，它代表了这类数据的整体信息，即该类的内涵描述。一个类的内涵描述包括：特征性描述和辨别性描述。特征性描述是对类中对象的共同特征的描述，辨别性描述是对两个或多个类之间的区别的描述。

偏差检测：数据库中的数据存在很多异常情况，从数据分析中发现这些异常情况也是很重要的，以引起人们更多的注意。偏差检测的基本方法是寻找观察结果与参照之间的差别。

预测：预测是利用历史数据寻找出变化规律，建立模型，并用此模型来预测未来数据的种类、特征等。

券商企业级数据仓库的设计

建立面向ＣＲＭ的券商企业级数据仓库，是实施ＣＲＭ项目的第一步，只有把券商各营业部内部现有的各种客户资源收集起来，结合相应外部数据进行整合，才能够为联机分析处理和数据挖掘提供基础数据。建设券商企业级数据仓库已经成为ＣＲＭ系统管理数据的一个主要方式。

３．１实施证券ＣＲＭ项目的总体步骤

在证券企业内部实施ＣＲＭ项目，一般来说，需要三个主要步骤，即数据集成、业务数据分析、决策执行【２”。

（１）数据集成

实施ＣＲＭ项目时，从指导思想上，应将独立的市场管理、销售管理与售后服务进行业务集成，而在底层技术上，则可以把所有与客户信息有关的数据库进行数据集成，以便为ＣＲＭ系统的运行提供统一的运作平台。将多渠道来源的数据进行整合，实现业务数据的集成与共享。这一环节的实现，使系统使用者可以在系统内得到各类数据的忠实记录，代表目前真实发生的业务状况。对于证券企业而言，建立券商企业级的数据仓库显然是数据集成的一种较好的方法和选择。

（２）业务数据分析

对ＣＲＭ系统中的数据进行加工、处理与分析将使企业受益匪浅。对数据的分析可以采用ＯＬＡＰ（ｏｒｄｉｎｅＡｎａｌｙｓｉｓＰｒｏｃｅｓｓｉｎｇ）的方式进行，生成各类报告；也可以采用数据挖掘模型，对数据做进一步的加工与数据挖掘，分析各数据指标间的关联关系，建立关联性的数据模型用于模拟和预测。这一步所取得的结果将是非常重要的，它不单反映目前业务状况，同时也对未来业务计划的调整起到指导作用。

（３）决策执行

依据数据分析所提供的可预见性的分析报告，企业可以将在业务过程中所学到的知识加以总结利用，对业务过程和业务计划等做出调整。通过调整达到增强与客户之间的联系，使业务运作更适应市场要求的目的。

ＣＲＭ系统的项目实施是以业务和管理为核心的，是为了建立一套以客户为中心的销售服务体系，因此ＣＲＭ系统的实施应当是以业务过程来驱动的，而不是ＩＴ技术。应当将ＣＲＭ系统的实施作为改善企业销售服务水平的一次机遇，在实施过程中主动思考现有的销售、市场和服务机制存在的问题与长处，将客户可能

客户关系管理简答整理

客户关系管理简答整理 1.客户关系管理的内涵？客户关系管理对企业有哪些积极地作用？答：CRM的内涵是企业利用IT技术和互联网技术实现对客户的整合营销，是以客户为核心的企业营销的技术实现和管理实现。作用：CRM的根本的作用是提高“客户满意度” ①提高效率：提高业务处理流程的自动化程度，实现企业范围内的信息共享，提高企业员工的工作能力，并有效减少培训需求，使企业内部能够更高效的运转。 ②拓展市场：通过新的业务模式（电话、网络）扩大企业经营活动范围，及时把握新的市场机会，占领更多的市场份额。 ③保留客户：客户可以自己选择喜欢的方式，同企业进行交流，方便的获取信息得到更好的服务，客户的满意度得到提高。可帮助企业保留更多的老客户，并更好的吸引新客户。 2.客户关系有哪些基本类型及其特征？企业如何选择客户关系管理？企业选择客户关系类型示意图客户数熾

边际利润水平如果企业在面对少量客户时，提供的产品或服务边际利润水平非常高，那么他应该采用伙伴型的客户关系，力争显现客户成功的同时，自己也获得丰厚的回报；但如果产品或服务边际利润水平很低，客户数量极其庞大，那么企业会倾向于采用基本型的客户关系，否则他可能因为售后服务的较高成本而出现亏损；其余的类型则可由企业自行选择或组合。因此一般来说，企业对客户关系进行管理或改进的趋势应当朝着为每个客户提供满意服务并提高产品的边际利润水平的方向转变。 3.客户满意度指数测评模型包括哪些潜在变量及其因果关系的构成？预期质量：消费者在购买该产品或服务前对其质量的预期；感知质量：消费者购买和使用该产品或服务后对其质量的评价；感知价格：消费者通过购买和使用该产品或服务对其提供价值的感受；顾客满意度：消费者对该产品或服务的总体满意度；顾客报怨：消费者对该产品或服务不满的正式表示；顾客忠诚度：消费者继续选购该产品或服务的可能性。

数据仓库技术在医院信息系统中的应用

数据仓库技术在医院信息系统中的应用本文介绍了数据仓库技术的发展历程及特点，对数据仓库技术在医院信息管理平台的应用进行了分析，并对医院信息平台使用数据仓库技术提出了建议，为数据仓库技术在医院的建设及使用提供了一定有价值的参考。标签：数据仓库；医院信息；应用数据仓库可为所有类型的数据起到支持与集合作用，也是企业发展过程中对决策定制必须要用到的。数据仓库作为独立的数据存储，对企业业务报告进行分析以及作出决策等提供一定支持，对业务流程、所花费成本以及质量等进行控制的一种系统。 1 数据仓库技术数据仓库由数据仓库之父比尔·恩门（Bill Inmon）于1990年提出，主要功能是将组织透过资讯系统之联机事务处理（OLTP）经年累月所累積的大量资料，透过数据仓库理论所特有的资料储存架构，有系统的进行分析整理，以利于各种分析方法如联机分析处理（OLAP）、数据挖掘（Data Mining）的进行，并进而支持如决策支持系统（DSS）、主管资讯系统（EIS）的创建，帮助决策者能快速有效的从大量资料中，分析出有价值的资讯，有利于决策拟定及快速回应外在环境变动，帮助建构商业智能（BI）[1]。数据仓库技术主要对数据库中获得的信息进行研究和分析，以找出解决方法，因此，数据仓库最大的特点就是具有集成性、稳定性和实时性。 2 数据仓库的特点数据仓库最大的特点就是可以在数据库存储大量数据的情况下，还可以对数据进行深度挖掘，以对企业在决策问题上提供支持。数据仓库同其他系统大型数据库不同，数据仓库存在的最主要目的就是为企业所得数据进行分析与查询，以为企业提供数据依靠，所以在所用的存储量上较多。数据仓库为了能为企业提供更多前端应用服务，在其实际应用过程中还存在以下几点特点： 2.1对数据仓库要求效率过高数据库对数据进行分析也是有其规律的，分别按照年、季、月、周、日为周期对数据进行分析。以日周期为例，对数据仓库的要求上尤其高，要求其分析数据的频率能够在客户所要求的时间内得出结果。但对于大型企业来说，每天企业所涉及的数据量非常多，如果数据仓库使用不恰当则会延误客户的需求，进而给企业造成影响。 2.2对数据质量要求严格数据仓库所收集到的各种信息必须保证准确，如果在某一数据或者某一代码中出现错误，那么往往就会造成部分数据失真。在数据仓库实际使用过程中所涉及环节较多，且内容复杂，因此，在为客户所提供的数据信息上仍会有错误数据存在，使客户作出错误的判断，进而对企业造成损失。

《数据仓库与数据挖掘技术》第1章：数据仓库与数据挖掘概述

数据仓库与数据挖掘技术

第1章数据仓库与数据挖掘概述1.1数据仓库引论1 1.1.1为什么要建立数据仓库1 1.1.2什么是数据仓库2 1.1.3数据仓库的特点7 1.1.4数据进入数据仓库的基本过程与建立数据仓库的步骤11 1.1.5分析数据仓库的内容12 1.2数据挖掘引论13 1.2.1为什么要进行数据挖掘13 1.2.2什么是数据挖掘18 1.2.3数据挖掘的特点21 1.2.4数据挖掘的基本过程与步骤22 1.2.5分析数据挖掘的内容26 1.3数据挖掘与数据仓库的关系28 1.4数据仓库与数据挖掘的应用31 1.4.1数据挖掘在零售业的应用31 1.4.2数据挖掘技术在商业银行中的应用36 1.4.3数据挖掘在电信部门的应用40 1.4.4数据挖掘在贝斯出口公司的应用42 1.4.5数据挖掘如何预测信用卡欺诈42 1.4.6数据挖掘在证券行业的应用43 思考练习题一44

1.1.1为什么要建立数据仓库数据仓库的作用建立数据仓库的好处

1.1.2 什么是数据仓库 1．数据仓库的概念 W.H.Inmon在《Building the Data Warehouse》中定义数据仓库为：“数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支持决策制定过程的数据集合。”即数据仓库是在管理人员决策中的面向主题的、集成的、非易失的并且随时间而变化的数据集合。 “DW是作为DSS基础的分析型DB，用来存放大容量的只读数据，为制定决策提供所需的信息。” “DW是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的。即与企业定义的时间区段相关，面向主题且不可更新的数据集合。” 数据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。这种数据存储提供给可以允许最终用户的可以是一种他们能够在其业务范畴中理解并使用的方式。数据仓库是大量有关公司数据的数据存储。仓库提供公司数据以及组织数据的访问功能，其中的数据是一致的（consistent），并且可以按每种可能的商业度量方式分解和组合；数据仓库也是一套查询、分析和呈现信息的工具；数据仓库是我们发布所用数据的场所，其中数据的质量是业务再工程的驱动器（driver of business reengineering）。定义的共同特征：首先，数据仓库包含大量数据，其中一些数据来源于组织中的操作数据，也有一些数据可能来自于组织外部；其次，组织数据仓库是为了更加便利地使用数据进行决策；最后，数据仓库为最终用户提供了可用来存取数据的工具。

数据仓库技术及其在金融行业的应用

数据库技术及其在金融行业的应用 1. 前言数据库仓库（DW）技术从1991年开始出现，经过多年的摸索和应用，目前在一些发达国家已经建设得比较成熟，为企业综合与灵活的分析型应用提供了强大的数据支撑，为管理层的分析决策和操作层的智能营销提供了技术保证，为企业带来了多方面的收益。而在国内，数据库仓库仍处于尝试或初级建设阶段。国内的金融行业，随着外部监管和信息披露的压力、内部管理和决策分析的需要，在建设分析类应用时，也正在逐渐从孤立的数据层向统一的数据仓库层规划和转移。建立数据仓库能够减少对数据层的重复投资和资源浪费、统一数据标准、监管和提高数据质量、消除信息孤立、支持综合分析和灵活及时的分析型应用、适应管理和发展、提高业内竞争力。本文对数据库技术做一个概括性的介绍，并对国内外金融行业数据仓库技术的应用现状做一个简单分析。 2. 数据仓库概念 2.1. DW的提出 2.1.1. 需求业务系统的建设与逐渐完善，巨量数据信息的积累。分析类需求不断增加，传统分析类应用造成巨大的资源浪费和管理困难。业务数据平台异构、数据来源口径多、标准不统一、信息孤立。整合部门级应用，建设企业级应用，满足综合分析、复杂查询、智能营销等高级需求。 2.1.2. DW概念的提出 MIT在20世纪70年代对业务系统和分析系统的处理过程进行研究，结论是只能采用完全不同的架构和设计方法。 1988年，IBM为解决全企业数据集成问题，提出了信息仓库的概念，确立了原理、架构和规范。但没有进行实际的设计。 1991年，Bill Inmon提出了数据仓库概念，并对为什么建设数据仓库和如何建设数据仓库进行了论述。Bill Inmon被称为数据仓库之父。

数据仓库与数据挖掘

数据仓库与数据挖掘摘要数据挖掘是一新兴的技术，近年对其研究正在蓬勃开展。本文阐述了数据仓库及数据挖掘的相关概念．做了相应的分析，同时共同探讨了两者共同发展的关系，并对数据仓库与挖掘技术结合应用的发展做了展望。用Data Miner作为对数据挖掘的工具，给出了应用于医院的数据仓库实例。指出了数据挖掘技术在医疗费用管理、医疗诊断管理、医院资源管理中具有的广泛应用性，为支持医院管理者的分析决策作出了积极探索。 Abstract The Data Mine is a burgeoning technology，the research about it is developing flourishing．In this paper，it expatiates and analyses the concepts of Data Warehouse and Data Mine Together，discussing the connections of how to expand the two technologies，and combining the two technologies with prospect．The data warehouse supports the mass data on the further handling and recycling．The paper points out the use of data mining in patient charge control，medical quality control， hospital resources allocation management． It helps the hospital to make decisions positively 关键字：数据仓库；数据挖掘；医院信息系统 Key words：Data Warehouse；Data Mine；Hospital information system

第7章习题及答案_客户关系管理

第七章练习题一、选择题： 1.在数据仓库中，所有数据都是围绕一定的进行组织的 A 主题 B 主键 C 外键 D 视图 2.对于DSS，是非常重要的 A 最新数据 B 历史数据 C 分析数据 D 多媒体数据 3. 是从外部数据中收据数据，它是数据仓库中数据综合的一种类型 A 数据提取 B 数据清洗 C 数据抽取 D 数据切割 4. 是关于数据的数据 A 外部数据 B 内部数据 C 元数据 D 纯数据 5.数据粒度有两种形式，其中一种形式的数据粒度是面向的 A OLTP B CRM C OLAP D ERP 6. 数据集市的数据直接来源于中央数据仓库 A 独立的 B 依赖的 C 内部的 D 中央的 7.数据仓库的是具有层次性的 A 主键 B 变量 C 维 D 索引 8.由各维度的取值和变量值构成 A 维成员 B 维 C 事实 D 索引 9. 技术的核心是多维分析 A OLAP B CRM C OLTP D ERP 10.三种多维数据模型中，最为流行 A 星型模型 B 雪花型模型 C 星座模型 D 网型模型 11.由于的应用，数据需要定期的从数据仓库中导入多维数据库中 A OLAP B OLTP C CRM D ERP 12.由类和类之间的关系构成的模型称为 A 关系模型 B 类模型 C ER模型 D 对象模型 13. 的设计是数据仓库模型设计的第一步 A 部门模型 B 类模型 C 企业模型 D 对象模型 14. 的选取是模型设计中极为重要的一部分 A 主题 B 类

C 变量 D 对象 15.无论数据仓库以怎样的数据模型组织数据，最终还是以各种来完成的 A 表空间 B 类 C 变量 D 表 16.在中，只有一个事实表，每个维表都与事实表直接连接 A 星型模型 B 雪花型模型 C 星座模型 D 网型模型 17. 中的数据是最丰富的、最详细的 A 事实数据库 B 关系数据库 C 高级数据库 D 数据仓库 18.数据挖掘的基础是 A OLAP B OLTP C 人工智能 D 数据仓库 19.对一组数据的集合分组成为有类似的对象组成的多个类的过程称为 A 分类 B 汇集 C 类分析 D 聚类 20. 也常常作为数据挖掘的第一部，对数据进行预处理 A 分类分析 B 关联分析 C 聚类分析 D 孤立点分析二、填空 1.数据仓库(data warehouse)是一个面向主题的(subject oriented)、集成的(integrated)、非易失的(non-volatile)、随时间变化的(time variant)数据集合，用于。 2在数据仓库中涉及两个非常重要的概念，即和。 3.常见的数据分割有以下几种形式：、和。 4. 是用于支持企业日常的、全局应用的数据集合。 5. 是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。 6.用户分析问题的角度或决策分析的出发点构成了数据仓库中的。 7.OLAP技术的核心是。 8.从数据仓库的最终用户看，可以将用户分为和两类。 9.在CRM系统中实现，是CRM系统成败的关键之一。 10.数据主要有四个方面的来源：、客户行为、和其他相关数据。 11.数据仓库的就是逻辑模型在数据仓库中的实现模式。 12.对于数据仓库的应用效益，一般有两种分析方法：和。 13. ROI的计算公式是：。 14. 是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识，这些知识是隐含的、事先未知的、潜在有用的信息。 15. 中的数据是最丰富、最详细的。 16. 和关联分析相似，其目的也是为了挖掘出数据间的联系，但序列模式分析的侧重点在于分析数据间的前后(因果)关系。 17.孤立点又叫，是数据库中与数据的一般模式不一致的数据对象。 18.数据挖掘的第一步是。 19. 是指将所有的客户分成不同的类的过程。 20. 是提高企业客户关系管理的一个重要目标。

数据仓库实例

计算机
王莹

本例采用的是SQl Server2005所提供的商业智能服务和工具，主要包括Analysis Services(分析服务)， Integration Services(集成服务),Reporting Services(集成服务)和Bussiness Intelligence Developer Studio(BIDS)。

分析服务(Analysis Services) SQL Server 分析服务（SSAS）是一个用于分析数据仓库中数据的工具，它包括了OLAP和数据挖掘工具。在SQL Server 2005数据库系统中，Analysis Services工具以服务器的方式为用户提供管理多维数据立方体的服务。Analysis Services可以把数据仓库中的数据组织起来，经过预先的聚集运算，加入到多维立方体中（即建立立方体），然后对复杂的分析型访问做出迅速的回答。

集成服务(Integration Services) SQL Server 集成服务（SSIS）被定位成一个能生成高性能数据集成解决方案(包括数据仓库中数据的提取、转换和加载（ETL））的平台。其集成的含义主要就是指把ETL集成在一起。SSIS通过一个统一的环境向用户提供了数据转换服务（DTS）所能提供的所有功能，并且大大减少了用户花在编写程序和脚本上的精力和时间。 SSIS的基本功能包括：
? ? ? ? ? ? 合并来自异类数据源中的数据填充数据仓库和数据集市整理数据和将数据标准化精确和模糊的查找功能将商业智能置入数据转换过程使管理功能和数据加载自动化

数据仓库技术与应用

数据仓库技术与应用 LEKIBM standardization office【IBM5AB- LEKIBMK08- LEKIBM2C】

文章编号 :5(2004 03 收稿日期 :27 基金项目 :教育部高等学校骨干教师资助计划项目 (GG 28 作者简介 :项军 (19792 , 男 , 四川绵阳人 , 空军工程大学导弹学院计算机工程系硕士研究生 , 研究方向 :智能信息处理与人工智能 ; 雷英杰 (19562 , 男 , 陕西渭南人 , 教授 , 博士生导师 , 研究方向 :智能信息处理 , 模式识别 , 人工智能。数据仓库技术与应用项军 , 雷英杰 (空军工程大学导弹学院 , 陕西三原 713800 摘要 :对数据仓库、联机分析处理和数据挖掘等几个概念做了详细的介绍 , 在此基础上提出适用于电信系统应用的设计思想 , 详细介绍了该系统的系统结构、关键技术的实现和各子系统功能。关键词 :数据仓库 ; 联机分析处理 ; 数据挖掘中图分类号 :文献标识码 :A The T echnique and Application of Data W arehouse XI ANGJun ,LEI Y ing 2jie (Missile Institute of Air F orce Engineering University ,Sanyuan 713800,China Abstract :This paper introduces the concepts of data warehouse ,on 2line analytical processing and data mining ,puts forward the design thought of telecommunication system and briefly introduces the system structure ,the key techniques of the system and the functions of each sub 2system. K ey w ords :data warehouse ;on 2line analytical processing ;data mining 0引言

客户关系管理CRM系统设计报告

客户关系管理(CRM)系统设计报告摘要通过CRM系统分析、本公司需求分析及考察CRM的一般系统与实际业务流程关系，确定本公司CRM系统设计定位于基于部门应用、运营与分析并重。并在此系统设计目标定位下，确定系统流程，设计功能模块，并努力面向部门协作与数据挖掘。针对系统，本文模拟了使用过程，预测运行效益，证实了系统的可行性。因已立项，本报告不作项目可行性分析。目录第一部份系统分析和需求分析一、基本需求分析-------------------------------------------2. 二、CRM 一般系统-------------------------------------------3. 三、系统设计定位-------------------------------------------7. 第二部份系统设计一般技术需求-------------------------------------------7. 流程设计及功能菜单设计---------------------------------8. 三、数据表设计---------------------------------------------11. 四、界面设计-----------------------------------------------16. 五、功能模块设计-------------------------------------------16. 六、系统策略-----------------------------------------------17. 第三部份可行性预测一、使用描述-----------------------------------------------17. 二、效益分析-----------------------------------------------18. 第四部份其他信息词汇注解-----------------------------------------------19. 参考模型-----------------------------------------------19. 系统设计流程图-----------------------------------------20. 设计说明-----------------------------------------------20.

数据仓库在证券业的应用

数据仓库在证券业的应用随着数据仓库技术的发展，在线分析、数据挖掘已渐渐获得了券商的青睐，但数据仓库在证券业中却鲜有成功的案例，大部分券商对数据仓库也都持观望的态度，对数据仓库的应用仅限于研究阶段。那么究竟数据仓库的“行”在何处：它可以为我们带来什么？为什么“不行”：它的应用为什么不能达到其预期的效果？怎样才能使数据仓库从“不行”的模式转到到“行”的模式？本文试对此进行探讨，并认为数据的集中统一是数据仓库应用的基础；确立合理的数据模型是数据仓库应用的核心；高效的应用系统是数据仓库应用的动力；良好的外部环境是数据仓库成功应用的外部保障。数据仓库的“行” 这里所说的数据仓库的“行”主要是指数据仓库可以做什么，它的使用能为证券业带来哪些好处，为什么对券商来说是一个行之有效的工具。数据仓库（Data Warehouse）是在数据库基础上发展而来的，是一个面向主题的、集成的、稳定的、不同时期的数据集合，用以支持企业经

营管理中的决策过程。它通常由三个部分构成：数据仓库、联机分析处理及数据挖掘，它们之间具有极强的互补关系。数据仓库用来对大量的数据按一定的结构进行组织存储；联机分析处理则可进行灵活丰富的多维分析与查询，可以从不同的角度去分析企业的运作情况，并对未来进行预测；数据挖掘则是对现有数据进行深层次的研究分析，从中找出对经营管理有用的结论。由上述对数据仓库的叙述，不难看出特别是对券商这种数据密集型的企业而言，数据仓库技术的应用在以下三个方面有其得天独厚之处和现实的意义：提升客户服务虽然大部分券商已积累了大量的客户信息和交易数据，但现在还没有办法对客户的贡献度、盈亏情况、持仓情况及操作习惯等进行统计和分析，为客户提供针对其个人习惯的投资组合建议。而通过建立数据仓库，为客户资料的统计分析提供基本的信息源和辅助工具，已成为券商提高市场竞争能力和客户服务水平的关键。提高资产质量数据仓库中强大的分析和预测功能为此提供了有力的支持，可根据股市行情走势、上市公司的资料以及宏观微观经济数据等对

互联网大数据与传统数据仓库技术比较研究

互联网大数据与传统数据仓库技术比较研究韩路 1.Hadoop技术简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，是目前全世界最主流的大数据应用平台。以分布式文件系统（HDFS）和MapReduce为核心的Hadoop，目前已整合了其他重要组件如Hive、HBase、Spark，以及统一资源调度管理组件Yarn，形成了一个完成的Hadoop产品生态圈。 1.1.HDFS HDFS是一个分布式文件系统，可设计部署在低成本硬件上。它可以通过提供高吞吐率支持大量数据的批量处理，同时支持应用程序流式访问系统数据。 1.2.MapReduce MapReduce是一种编程模型，用于大规模数据机的并行运算。MapReduce可以将一个任务分发到Hadoop平台各个节点上并以一种可靠容错的方式并行处理大量数据集，实现Hadoop的并行任务处理功能。 1.3.Hive Hive是用于对Hadoop中文件进行数据整理、特殊查询和分析储存的工具。Hive提供了一种结构化数据的机制，支持类似传统结构化数据库中SQL元的查询语言，帮助熟悉SQL的用户查询HDFS中数据。 1.4.HBase HBase是一个分布式的、列式储存的开源数据库。HBase不同于传统关系型数据库，适合非结构化数据储存，同时可以为一个数据行定义不同的列。HBase 主要用于需要随机访问、实时读写的大数据。 1.5.Spark Spark是基于内存计算的分布式计算框架。Spark提出了RDD概念，弥补了MapReduce在并行计算各个阶段无法进行有效数据共享的缺陷。同时，Spark形成了自己的生态系统：SparkSQL、SparkStreaming、MLlib，并完全兼容Hadoop 生态系统。

数据仓库技术制定方案

数据仓库制定方案在当下的数据仓库系统安全控制模块中，我国数据仓库安全分为不同的等级。总体来说，我国的数据仓库安全性是比较低。为更好的健全计算机数据仓库体系，进行数据仓库安全体系的研究是必要的。很多软件都是因为其比较缺乏安全性而得不到较大范围的应用，归根结底是数据仓库安全性级别比较低。为满足现阶段数据仓库安全工作的需要，有利于数据仓库保密性的控制，保证这些数据存储与调用的一致性。当前数据仓库安全控制过程中，首先需要对这些数据进行可用性的分析，从而有利于避免数据仓库遭到破坏，更有利于进行数据仓库的损坏控制及其修复。其次为了保证数据仓库的安全性、效益性，也离不开对数据仓库整体安全性方案的应用。最后必须对数据仓库进行的一切操作进行跟踪记录，以实现对修改和访问数据仓库的用户进行追踪，从而方便追查并防止非法用户对数据仓库进行操作。 2.1数据仓库安全整体规划本方案通过对电力行业敏感信息泄露安全威胁的分析，对数据仓库安全进行整体设计与规划，通过全系列数据仓库安全产品相互之间分工协作，共同形成整体的防护体系，覆盖了数据仓库安全防护的事前诊断、事中控制和事后分析。制定严密可行的实施计划，整个工程严格按照计划进行；公司质量控制部利用ISO9000质量管理规范对工程的软件开发及实施全过程进行监督和控制；建立完善的软件开发和工程实施的文档体系。对程序进行测试，对各个模块之间的关联情况下可能出现的问题进行严密的测试，并不断完善在测试过程中暴露出来的问题。在这过程中质量控制小组将全程参与，确保软件质量。需求调研是数据仓库开发的最重要的环节之一，在调研的过程中能否真实、准确地描述客户的需求，对于数据仓库的开发有着举足轻重的影响。与客户沟通不够导致对同一个事物的描述或者理解有分歧和差异，或者调研过程中流于表面文字，而没有进入实际的操作，都可能造成在需求调研的过程中造成对需求不精确的理解。失之毫厘，谬之千里，需求调研的微小差异可能会在软件的开发过程中造成较大的偏差，直接影响了工程的建设质量。为此我们为需求调研工作分配

分析型客户关系管理_CRM_的数据仓库模型

分析型客户关系管理(CR M)的数据仓库模型张玉颖,姚家奕X (北京交通大学经济与工商管理学院,北京海淀100044) 摘要:随着Internet的飞速发展,CRM已经成为企业在竞争中获胜的重要资源。而CR M的设计与实现又是以数据仓库为核心技术的。在主要介绍了CRM的内涵以及数据仓库技术的概念的基础上,并进一步阐述了数据仓库在CR M系统中的重要作用。关键词:CRM;数据仓库;数据挖掘中图分类号:F27017文献标识码:A文章编号:1671-1181(2003)04-0025-04 任何一个企业追求利润无非有三种方式:降低企业内部的生产管理成本、挖掘现有客户的潜力、寻找新客户。随着信息社会的发展,客户拥有了比以往任何时候都多的对产品和服务进行选择和比较的机会与权利,以客户为主导的牵拉型市场已经形成。无疑,一个企业要想增加利润并获得竞争优势,良好的客户关系至关重要。也正是如此,客户关系管理(Customer Relationship Management,简称CRM)将具有很好的应用前景。一CRM的基本内涵 CRM在国内外已经引起广泛关注,然而迄今为止对于CRM本身却没有一个统一的定义。一方面,不能把CRM单纯的理解为一种营销理念,/以客户为中心0的思想形成已久,而CRM的真正提出是在Internet迅猛发展以后。另一方面,不能把C RM等同于客户管理信息系统,这样将会抹煞掉CR M的很多重要价值。事实上,CRM是一种经营理念,但它的产生与发展却与互联网技术息息相关。在某种程度上可以这样理解:CRM=管理理念+信息技术+计算机应用系统。首先,CRM的核心思想是将企业的客户视为最重要的企业资产,根据客户利润贡献能力的大小,充分调动可用资源以有效建立、维护和发展客户的长期互利合作关系。这种理念本身与信息技术没有直接联系,但它却是引导C RM的灵魂。其次,没有信息技术的发展,CRM还只停留在/以客户为中心0的阶段。正是由于网络通讯的发展和数据仓库及其相关技术的成熟,企业才有能力整合各种客户联系渠道,建立一致的企业全局数据并实现CRM中的商业智能。可以说信息技术是CRM的基础,脱离信息技术谈CRM将是空中楼阁。最后,CRM作为一种解决方案,要最终体现为一套计算机应用系统。一套CRM系统大都具备市场管理、销售管理、销售支持和服务功能,也要具备对象记录与分析的功能。但由于目前CR M系统远不如ERP成熟,还很难定义系统的界限,只是将若干功能模块集成起来,有利于系统的扩展和移植。目前,业内人士倾向于将C RM系统分为三类:操作性(Operational)、分析型(Analyticai)和协作型(Colla bo-ra tive)。一个CR M系统的体系结构如图1所示。操作型CRM,即所谓的前端办公室应用,包括销售自动化、营销自动化和服务自动化等,实现前端办公和后端办公的无缝集成。操作型C RM的主要目的是让各个部门的业务人员在日常工作中能共享客户资源,减少信息流动的滞留点。客户在同企业打交道时只需要把企业当作一个整体而不必为单独处理同企业各个部门之间的关系而烦恼。操作型CRM是客户关系管理中最基本的应用模块。分析型CRM不直接与客户打交道,主要工作是将操作型CRM中有价值的数据提取并进行分析和预测。分析型CRM以数据库为基础,将交易操作所累计的大量数据过滤,抽取到数据仓库,再利用数据第13卷第4期2003年12月湖南工程学院学报 Journal of Hunan Institute of Engineering Vo1.13.No.4 Dec.2003 X收稿日期:2003-09-17 作者简介:张玉颖(1980-),女,硕士研究生,研究方向:信息管理。

数据仓库建设步骤

数据仓库建设步骤 1.系统分析，确定主题确定一下几个因素：操作出现的频率，即业务部门每隔多长时间做一次查询分析。在系统中需要保存多久的数据，是一年、两年还是五年、十年用户查询数据的主要方式，如在时间维度上是按照自然年，还是财政年。用户所能接受的响应时间是多长、是几秒钟，还是几小时。 2.选择满足数据仓库系统要求的软件平台选择合适的软件平台，包括数据库、建模工具、分析工具等。有许多因素要考虑，如系统对数据量、响应时间、分析功能的要求等，以下是一些公认的选择标准：厂商的背景和支持能力，能否提供全方位的技术支持和咨询服务。数据库对大数据量（TB级）的支持能力。数据库是否支持并行操作。能否提供数据仓库的建模工具，是否支持对元数据的管理。能否提供支持大数据量的数据加载、转换、传输工具（ETT）。能否提供完整的决策支持工具集，满足数据仓库中各类用户的需要。 3.建立数据仓库的逻辑模型具体步骤如下： 1)确定建立数据仓库逻辑模型的基本方法。 2)基于主题视图，把主题视图中的数据定义转到逻辑数据模型中。 3)识别主题之间的关系。 4)分解多对多的关系。 5)用范式理论检验逻辑数据模型。 6)由用户审核逻辑数据模型。 4.逻辑数据模型转化为数据仓库数据模型具体步骤如下： 1)删除非战略性数据：数据仓库模型中不需要包含逻辑数据模型中的全部数据项，某些用于操作处理的数据项要删除。 2)增加时间主键：数据仓库中的数据一定是时间的快照，因此必须增加时间主键。 3)增加派生数据：对于用户经常需要分析的数据，或者为了提高性能，可以增加派生数据。

4)加入不同级别粒度的汇总数据：数据粒度代表数据细化程度，粒度越大，数据的汇总程度越高。粒度是数据仓库设计的一个重要因素，它直接影响到驻留在数据仓库中的数据量和可以执行的查询类型。显然，粒度级别越低，则支持的查询越多；反之，能支持的查询就有限。 5.数据仓库数据模型优化数据仓库设计时，性能是一项主要考虑因素。在数据仓库建成后，也需要经常对其性能进行监控，并随着需求和数据量的变更进行调整。优化数据仓库设计的主要方法是：合并不同的数据表。通过增加汇总表避免数据的动态汇总。通过冗余字段减少表连接的数量，不要超过3~5个。用ID代码而不是描述信息作为键值。对数据表做分区。 6.数据清洗转换和传输由于业务系统所使用的软硬件平台不同，编码方法不同，业务系统中的数据在加载到数据仓库之前，必须进行数据的清洗和转换，保证数据仓库中数据的一致性。在设计数据仓库的数据加载方案时，必须考虑以下几项要求：加载方案必须能够支持访问不同的数据库和文件系统。数据的清洗、转换和传输必须满足时间要求，能够在规定的时间范围内完成。支持各种转换方法，各种转换方法可以构成一个工作流。支持增量加载，只把自上一次加载以来变化的数据加载到数据仓库。 7.开发数据仓库的分析应用建立数据仓库的最终目的是为业务部门提供决策支持能力，必须为业务部门选择合适的工具实现其对数据仓库中的数据进行分析的要求。信息部门所选择的开发工具必须能够：满足用户的全部分析功能要求。数据仓库中的用户包括了企业中各个业务部门，他们的业务不同，要求的分析功能也不同。如有的用户只是简单的分析报表，有些用户则要求做预测和趋势分析。提供灵活的表现方式。分析的结果必须能够以直观、灵活的方式表现，支持复杂的图表。使用方式上，可以是客户机/服务器方式，也可以是浏览器方式。事实上，没有一种工具能够满足数据仓库的全部分析功能需求，一个完整的数据仓库系统的功能可能是由多种工具来实现，因此必须考虑多个工具之间的接口和集成性问题，对于用户来说，希望看到的是一致的界面。 8.数据仓库的管理

数据仓库技术知识

一、数据仓库数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。 1、数据仓库是面向主题的；操作型数据库的数据组织面向事务处理任务，而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面，一个主题通常与多个操作型信息系统相关。 2、数据仓库是集成的，数据仓库的数据有来自于分散的操作型数据，将所需数据从原来的数据中抽取出数据仓库的核心工具来，进行加工与集成，统一与综合之后才能进入数据仓库；数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询，一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。数据仓库中的数据通常包含历史信息，系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。 3、数据仓库是不可更新的，数据仓库主要是为决策分析提供数据，所涉及的操作主要是数据的查询； 4、数据仓库是随时间而变化的，传统的关系数据库系统比较适合处理格式化的数据，能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存，且不随时间改变。 5、汇总的。操作性数据映射成决策可用的格式。 6、大容量。时间序列数据集合通常都非常大。 7、非规范化的。Dw数据可以是而且经常是冗余的。 8、元数据。将描述数据的数据保存起来。 9、数据源。数据来自内部的和外部的非集成操作系统。二、数据仓库的特点要求数据仓库，是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，它并不是所谓的“大型数据库”。数据仓库的方案建设的目的，是为前端查询和分析作为基础，由于有较大的冗余，所以需要的存储也较大。为了更好地为前端应用服务，数据仓库往往有如下几点特点： 1. 效率足够高。数据仓库的分析数据一般分为日、周、月、季、年等，可以看出，日为周期的数据要求的效率最高，要求24小时甚至12小时内，客户能看到昨天的数据分析。由于有的企业每日的数据量很大，设计不好的数据仓库经常会出问题，延迟1-3日才能给出数据，显然不行的。

数据仓库和LOAP应用技术

数据仓库和LOAP应用技术传统数据库以及OLTP(On-Line Transaction Processing联机事务处理)在日常的管理事务处理中获得了巨大的成功，但是对管理人员的决策分析要求却无法满足。因为，管理人员常常希望能够通过对组织中的大量数据进行分析，了解业务的发展趋势。而传统数据库只保留了当前的业务处理信息，缺乏决策分析所需要的大量的历史信息。为满足管理人员的决策分析需要，就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(Data Warehouse)。数据仓库系统是一个信息提供平台，是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。从功能结构化分，数据仓库系统至少应该包含数据获取（Data Acquisition）、数据存储（Data Storage）、数据访问（Data Access）三个关键部分。其体系结构如下：业务处理系统即是数据库去实现的即时记录的功能，在数据准备区进行ETF处理，数据经过抽取、转换之后加载到数据仓库中，因此也说数据仓库是利用的已经存在的历史记录去整合，是利用原有数据分析下一步行动的决策，是有风险的。分析完主题和数据元后建立数据模型（概念模型、逻辑模型、物理模型）并形成事实表和纬度表，然后通过粒度分析将历史记录先抽取整合，然后再根据决策者可能用到的数据集合分解成若干记录，以备不同决策者使用；再利用OLAP工具技术进行数据的分析导出。当然，这些都在了解了管理者即客户的需求之后进行的，或者是由企业的管理者自己进行的技术应用或分析。模型设计的过程如下：

数据仓库是管理决策分析的基础，要有效地利用数据仓库的信息资源，必须要有强大的工具对数据仓库的信息进行分析决策。 On-line Analytical Processing(在线分析处理或联机分析处理)就是一个应用广泛的数据仓库使用技术。它可以根据分析人员的要求，迅速灵活地对当量的数据进行复杂的查询处理，并以直观的容易理解的形式将查询结果提供给各种决策人员，使他们能够迅速准确地掌握企业的运营情况，了解市场的需求。具体的说，OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义) OLAP的目标是满足决策支持或多维环境特定的查询和报表需求，它的技术核心是“维”这个概念，因此OLAP也可以说是多维数据分析工具的集合。OLAP是连接数据仓库和用户的桥梁，通过OLAP服务器用户可以很方便的浏览信息，进行决策！按照数据的存储方式进行分类，OLAP分为MOLAP，ROLAP，HOLAP三类。 OLAP支持最终用户进行动态多维分析、预测分析；切片和切块并在屏幕上显示，从宏观到微观，对数据进行深入分析；可查询底层的细节数据，在观察区域中选转，进行不同维之间的比较，在OLAP中有变量、维、维的层次、维成员、多维数组、数据单元等基本概念降，变量是从现实系统中抽象出来的，用于描述数据的实际含义；维是观察者观察数据的特定角度；维的层次是数据的某个维还可以存在细节程度不同的多个描述方面，称为维的层次；维成员是维的一个取值。如果一个维是多层次的，那么维成员就是不同维层次取值的组合。例如时间维具有年、月、日这三个层次，分别在年、月、目上各取一个值组合起来，就得到了时间维的一个维成员，如：2005年6月6日；多维数据集是决策支持的支柱，也是OLAP的核心，有时也称为立方体或超立方体。 0LAP使用三层的体系结构：数据库服务器、0LAP服务器和客户端工具。第一层是数据仓库服务器，它实现与基层运营的数据库系统的连接，完成企业级数据一致和数据共享的工作。第二层是OLAP服务器，它根据最终客户的请求实现分解成OLAP分析的各种动作，并使用数据仓库中的数据完成这些动作。

文档之家

面向证券客户关系管理的数据仓库应用

客户关系管理简答整理

数据仓库技术在医院信息系统中的应用

《数据仓库与数据挖掘技术》第1章：数据仓库与数据挖掘概述

数据仓库技术及其在金融行业的应用

数据仓库与数据挖掘

第7章习题及答案_客户关系管理

数据仓库实例

数据仓库技术与应用

客户关系管理CRM系统设计报告

数据仓库在证券业的应用

互联网大数据与传统数据仓库技术比较研究

数据仓库技术制定方案

分析型客户关系管理_CRM_的数据仓库模型

数据仓库建设步骤

数据仓库技术知识

数据仓库和LOAP应用技术

最新客户关系管理试题及答案