当前位置:文档之家› 电信运营分析中的数据挖掘研究

电信运营分析中的数据挖掘研究

成都理工大学

硕士学位论文

电信运营分析中的数据挖掘研究

姓名:欧阳喜德

申请学位级别:硕士

专业:计算机应用技术

指导教师:黄地龙

20090601

摘 要

电信运营分析中的数据挖掘研究

作者简介:欧阳喜德,男,1972年1月生,师从成都理工大学黄地龙教授,2009年6月毕业于成都理工大学计算机应用技术专业,获得工学硕士学位。

摘要

随着中国电信体制的改革与重组,中国电信市场环境发生了根本性的变化。中国电信服务市场逐步形成了从最初个别运营商垄断市场到数家大运营商竞争的新格局。而电信运营企业作为经营电信业务的服务商又有着自己独特的客户特性与市场特性:电信业的客户具有多元性;电信客户的需求特征具有多样性,表现出极大的行业特征及业务量特征;电信业的服务比重大,电信产品更新率高;另外,客户使用电信服务的随机性强,用户稳定性差,用户对电信业务运营商的选择权多了。面对一个全新的、更加激烈的、国际国内全方位的市场竞争环境,国内电信运营商迫切需要一个能为电信企业的资费、营销、规划等多个方面决策提供必要支持的有力利器—电信运营分析与决策支持系统。而这个利器又必须具备数据挖掘功能。

数据挖掘是近年来伴随着人工智能和数据库技术发展而出现的一门新兴技术。它的核心功能是从巨大的数据集或数据仓库中获取有用信息,以供企业分析和处理各种复杂的数据关系。随着电信市场竞争的日益加剧,运营商普遍开始向“客户驱动”管理模式转变。最近几年,数据挖掘技术以其强大的数据分析功能被普遍应用到电信运营商客户关系管理、营销等活动之中。

本文主要研究电信运营分析中的数据挖掘。在对企业数据仓库的构建方式进行了深入分析之后,在前人的基础上,提出了数据挖掘在电信行业中的应用研究的观点,并针对电信行业的具体特点提出了应用于电信行业中客户呼叫模式的关联分析的挖掘算法—基于分区的散列算法,和应用于客户细分的基于网格的模糊聚类算法。基于分区的散列算法是对常用的关联分析的有益补充,实现了对海量数据分区的设计,极大地减少了数据库的扫描次数,同时很好的实现了散列技术和分区技术的融合,既说明了数据挖掘模块设计的可行性,同时也针对电信行业的特点,有针对性地改进了电信行业中应用到的各种挖掘算法性能;基于网格的模糊聚类算法是基于网格聚类和基于密度的聚类算法的混合,是在电信客户特征的聚类识别应用中具体实现的,学术界对海量数据的挖掘研

成都理工大学硕士学位论文

究方兴未艾,希望通过本论文的探讨可以为目前在电信行业中构建、实施数据仓库的研究提供有价值的参考。

另外,本文将自然界中的“万有引力”思想引入网格状数据空间模型,即首先将数据空间划分为有限个单元的网格结构,所有的处理都以单个的单元格为对象,而在处理每个单元格之前先根据“万有引力”原理将周围单元格中的那些与本单元格“关系更密切”的数据吸引过来,这样位于单元格边界附近的数据就被重新分配到对它“吸引力大”的单元格中,这样相当于模糊了单元格的边界。从而解决了传统网格聚类中没有考虑和其相邻单元的关系,克服了结果簇的边界要么是水平的,要么是竖直的,没有对角的边界的缺点。同时消弱了网格边界过硬的问题,它将对电信运营分析与决策支持系统的建设有着重要的指导意义,并在实际系统的建设过程中发挥着重要的作用。

关键字:电信运营分析;数据挖掘;关联规则;模糊聚类;

Abstract

Research of The Data Mining in The Analysis of Telecom

Operates

Introduction of the author: OuyangXide, male, was born in January, 1972 whose tutor was Professor HuangDilong . He graduated from Chengdu University of Technology in Computer Application Technology major and was granted the Master Degree in June, 2009.

Abstract

With the reform and reorganization of China telecom system, the China telecommunications market environment has undergone fundamental changes. China's telecommunications service market gradually formed from individual operators to monopolize the market to a number of large operators of the new pattern of competition.The carriers operate as a business telecommunications service provider also has its own unique characteristics of customer and market: the telecommunications industry clients have diversity; telecommunication customers’ demand have characteristics of diversity, showed great industry and the volume of business Features; telecommunication’s services is more important than other industry’s, telecommunications products, high renewal rate; In addition, the use of telecommunications services to customers is strong randomness, poor stability, users of telecom business operators have more rights to choose. In the face of a new, more intense, and a full range of international and domestic competition in the market environment, the domestic carriers is an urgent need for a powerful weapon which can provide the necessary support of the decision-making for telecommunications enterprise charges, marketing, planning and other aspects—Telecom Operations analysis and decision support system. This tool also must have the function of data mining.

Data mining is a new and emerging technology,in recent years,accompanied by the development of artificial intelligence and database technology. Its core function is from the huge data sets or data warehouse to obtain useful information for business analysis and processing of complex data relationships. With the

成都理工大学硕士学位论文

telecommunications market, increasing competition, operators generally began to "customer-driven" management model. In recent years, data mining technology with its powerful data analysis functions are widely applied to telecommunication carriers customer relationship management, marketing and other activities.

This paper mainly studies the data mining in the analysis of telecom operates.After in-depth analysis of the way of constructing the Enterprise Data Warehouse,this paper offered a view of research of Data Mining in Telecommunication Industry,based on the predecessors.And provide an algorithm of the data mining in correlation analysis of customer call patterns especially for the specific characteristics of the telecommunications industry—Hash algorithm based on partition and Grid-based fuzzy clustering algorithm applied to the Customer Segmentation. Hash algorithm based on partition is a useful complement to the commonly used correlation analysis, achieved the design of the mass data partition, greatly reduced the number of database- scans,and successfully achieved the integration of hash technology and district technology, Not only shows the feasibility of the datamining-modular design, but also for improved the performance of the application of the various mining algorithms in telecommunications industry targeted to the characteristics of the telecommunications industry; Grid-based fuzzy clustering algorithm is the combination of Grid-based clustering and density-based clustering algorithm, realized in the applications of cluster to identify the characteristics of major clients in the telecommunications. Academic study of data mining in the massive are ascendant, and it hopes to provide valuable reference to the research of building and implementation of data warehouse in the telecommunications industry through the discussion of this paper.

In addition, " The Law of Gravity " thinking in the nature will be introduced into grid-like data space model in this article.that is , first of all, the data space is divided into a finite number of unit grid structure, all the processing faceing to a single target grid, however ,those data objects near this cell and have "a closer relationship" to this grid will be attracted under the "gravity" principle, so that those data near the border of the cell was re-assigned to the cells which has " the largest attractiveness " to them. this is equivalent to blurring the boundaries of the cells. So as to have solved the problem of the traditional mesh clustering in which not considered the relationship between the adjacent unit,and have overcomed the shortcomings of the result- border of the cluster or level or vertical, and there is no

Abstract

border on the angle. At the same time eliminated the grid border too strong to some extent, she will have important guiding significance to the construction of the Analysis and Decision Support System of telecom operators,and will plays an important role in the process of building the actual system.

Keywords: Analysis of telecom operators; Data mining; Correlation rules; Fuzzy cluster.

独创性声明

本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得成都理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的人员对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。

学位论文作者签名:

年月日

学位论文版权使用授权书

本学位论文作者完全了解成都理工大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权成都理工大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。

(保密的学位论文在解密后适用本授权书)

学位论文作者签名:

学位论文作者导师签名:

年月日

摘 要

电信运营分析中的数据挖掘研究

作者简介:欧阳喜德,男,1972年1月生,师从成都理工大学黄地龙教授,2009年6月毕业于成都理工大学计算机应用技术专业,获得工学硕士学位。

摘要

随着中国电信体制的改革与重组,中国电信市场环境发生了根本性的变化。中国电信服务市场逐步形成了从最初个别运营商垄断市场到数家大运营商竞争的新格局。而电信运营企业作为经营电信业务的服务商又有着自己独特的客户特性与市场特性:电信业的客户具有多元性;电信客户的需求特征具有多样性,表现出极大的行业特征及业务量特征;电信业的服务比重大,电信产品更新率高;另外,客户使用电信服务的随机性强,用户稳定性差,用户对电信业务运营商的选择权多了。面对一个全新的、更加激烈的、国际国内全方位的市场竞争环境,国内电信运营商迫切需要一个能为电信企业的资费、营销、规划等多个方面决策提供必要支持的有力利器—电信运营分析与决策支持系统。而这个利器又必须具备数据挖掘功能。

数据挖掘是近年来伴随着人工智能和数据库技术发展而出现的一门新兴技术。它的核心功能是从巨大的数据集或数据仓库中获取有用信息,以供企业分析和处理各种复杂的数据关系。随着电信市场竞争的日益加剧,运营商普遍开始向“客户驱动”管理模式转变。最近几年,数据挖掘技术以其强大的数据分析功能被普遍应用到电信运营商客户关系管理、营销等活动之中。

本文主要研究电信运营分析中的数据挖掘。在对企业数据仓库的构建方式进行了深入分析之后,在前人的基础上,提出了数据挖掘在电信行业中的应用研究的观点,并针对电信行业的具体特点提出了应用于电信行业中客户呼叫模式的关联分析的挖掘算法—基于分区的散列算法,和应用于客户细分的基于网格的模糊聚类算法。基于分区的散列算法是对常用的关联分析的有益补充,实现了对海量数据分区的设计,极大地减少了数据库的扫描次数,同时很好的实现了散列技术和分区技术的融合,既说明了数据挖掘模块设计的可行性,同时也针对电信行业的特点,有针对性地改进了电信行业中应用到的各种挖掘算法性能;基于网格的模糊聚类算法是基于网格聚类和基于密度的聚类算法的混合,是在电信客户特征的聚类识别应用中具体实现的,学术界对海量数据的挖掘研

第1章 引 言

第1章 引 言

1.1电信企业运营分析的数据挖掘研究背景

经过重组后的中国电信市场有中国电信、中国移动、中国联通三家电信运营企业。各企业在业务上互相交叉渗透,相互竞争,面临着前所未有的挑战:市场压力加大、客户对质量的要求提高、竞争成本增加、ARPU和收益下降、利润点转移……,国际化的市场环境要求国内的公众电信运营企业在经营管理上向国外先进的电信运营企业学习,以迎接电信运营业的国际化竞争。随着国内电信行业改革的深化,各运营商在企业大客户、长途业务、IP业务、移动业务等领域展开了激烈的竞争。各个运营商的网络质量逐渐趋同,营业范围的开放趋于一致。从直接降价、业务捆绑到服务内容、服务方式、服务质量、服务意识的改变,进而到内部运营管理机制的改进,都进行了一番激烈地角逐。企业已经很难再通过规模来维持竞争优势。这就要求各运营商积极探索在新的国内国际竞争环境下,完善和实践新的发展战略。在适当的时机做出正确的决策。从而职能部门的决策能力应相应提高,但是公司的现行系统中对决策起重要支持作用的数据分析功能相对欠缺,因此,决策活动在很大程度上仍然采用“靠经验”或“拍脑袋”的形式。没有充分利用电信企业中集累的丰富的数据资源。通过计算机辅助决策支持系统在企业中的应用,可以充分利用分散、孤立的数据资源,建立他们之间的内在联系,实现科学、合理的决策。电信企业迫切要求建立一套以数据整理、数据挖掘、信息传递为基础的商业智能系统【1】,以提高自己的竞争能力,增强竞争优势,支持企业市场战略。

我国的电信基础设施在硬件方面已达较高水平,固定电话用户数和移动电话用户数已经成为世界之最,而与其它国际化的电信运营商相比,国内的电信企业的管理水平和管理手段还相对落后,电信企业的业务支撑系统建设相对比较完善,但是与企业管理和市场营销相关的运营分析与决策支持系统的建设方面明显不足,这种状况已经成为制约电信企业业务进一步发展的瓶颈。随着业务的增长,电信运营商对运营分析系统应用系统的要求越来越多,随着各类新生的通信手段和通信方式不断涌现,各大运营商纷纷出台各种政策去争夺客户、抢占市场。由于未来通信市场发展具有很大的不确定性,短期内靠推出某种新技术或者新产品来获得产业高速发展的可能性越来越小。当外部环境优势得到充分利用和市场用户的饱和之后,对内部资源的深层次开发利用理所当然成为首选。于是,“内部挖潜”、“向管理要效益”、“打造核心竞争力”等越来越多地开始被电信行业人士提起。

成都理工大学硕士学位论文

电信运营商所追求的核心目标就是提高运营效率,降低成本,同时建立满足客户需求的市场营销能力。利用IT技术提高电信运营商对市场的快速反应能力无疑是最好的选择。这就要求各电信企业整合企业内部的运营支撑、网管、客户关系管理、财务管理等系统中的数据,然后经过抽取、转换和装载【2】,并在此基础上利用合适的查询工具、数据挖掘工具、OLAP(在线分析处理)【3】工具等进行分析和处理,最后将知识呈现给管理者,为管理者的决策过程提供支持。本文重点研究电信运营分析中的数据挖掘。

1.2国内外电信运营分析中数据挖掘的发展状况

数据挖掘是近年来伴随着人工智能和数据库技术发展而出现的一门新兴技术。它的核心功能是从巨大的数据集或数据仓库中获取有用信息,以供企业分析和处理各种复杂的数据关系。随着电信市场竞争的日益加剧,运营商普遍开始向“客户驱动”管理模式转变。最近几年,数据挖掘技术以其强大的数据分析功能被普遍应用到电信运营商客户关系管理、营销等活动之中。

在国外,数据挖掘的研究越来越受到人们的重视,相关学术活动十分活跃,新的学术团体、学术刊物不断涌现,研究和应用都取得了很大的进展。就电信行业来说,具有数据挖掘功能的电信决策支持系统在国外己经有了许多成功的例子。AT&T, MCI, South Western Bell, Bell South,Sprint, GTE、南新英格兰电信、比利时电信、法国电信、巴西BCP电信、新加坡电信客户关系管理和韩国LG电信等都有自己的决策支持系统。【4】【5】【6】

在国内,根据电信咨询统计,截至2006年12月底,各运营商在电信运营支撑系统上累计投入达到138.92亿元,同比增长23.54%。在2007年,中国电信运营商在电信运营支撑系统方面的投资将继续保持快速增长,预计各运营商在电信运营支撑系统上投入将达到156.34亿元。【7】今后相当长的一段时间内,运营分析与决策系统、客户关系管理系统等将成为国内电信运营商建设或规划的重点。而这些系统的核心功能是数据挖掘功能。

尽管许多地方的电信运营分析与决策支持系统一期已经基本建成,但事实上很多系统的建设效果离预期相去甚远。几乎每个省级运营商的管理人员对运营分析系统的应用都感到困惑,甚至遭遇了失败。主要原因是没有充分挖掘出运营支撑、网管、客户关系管理、财务管理等系统中的数据的内在联系和潜在的发展趋势。

第1章 引 言

1.3论文主要内容与创新点

针对市场竞争的日益激烈,电信公司迫切希望利用先进的计算机技术来辅

助市场决策,提高科学决策管理的水平,因此建立“电信决策支持系统”已经

成为当务之急。而建立电信决策支持系统的关键是采用最先进的信息技术和统

计分析方法,特别是数据挖掘技术,对电信部门的内部和外部数据进行综合分

析处理,对客户、账务、计费、网管、客服等电信运营商业务数据进行多层次、多角度、多种方式的分析和挖掘,揭示客户、业务的内在规律,精确地指出存

在的问题并发现对管理至关重要的变化趋势,形成极具管理决策价值的战略信息,决策者能始终把握大局,从容应对纷繁复杂、快速多变的电信竞争市场。

本文从电信行业中的企业数据仓库出发,系统地阐述了数据仓库和数据挖

掘技术及其相关的概念,分析了目前一些主要的研究手段和方法,并指出了其

中的优缺点;然后分别就客户呼叫模式的关联分析和电信客户细分的聚类识别

进行详细论述。并提出了基于分区的散列算法HPA和基于网格的模糊聚类算法,并通过实验来检验这两个模型的正确性和有效性。本文的主要创新点如下:

1) 在对企业数据仓库的构建方式进行了深入分析之后,本文在前人的基础上,提出了数据挖掘在电信行业中的应用研究的观点,并针对电信行业的具体

特点提出了应用于电信行业中客户呼叫模式的关联分析的挖掘算法—基于分区

的散列算法。这是对常用的关联分析的有益补充,针对海量数据,实现了对数

据分区的设计,极大地减少了数据库的扫描次数,同时很好的实现了散列技术

和分区技术的融合。既说明了数据挖掘模块设计的可行性,同时也针对电信行

业的特点,有针对性地改进了电信行业中应用到的各种挖掘算法性能。

2) 本文提出了基于网格的模糊聚类算法。这是基于网格聚类和基于密度的聚类算法的混合,是在电信大客户特征的聚类识别应用中具体实现的。学术界

对海量数据的挖掘研究方兴未艾,希望通过本论文的探讨可以为目前在电信行

业构建、实施数据仓库的研究提供有价值的参考。

3) 本文将自然界中的“万有引力”思想引入网格状数据空间模型即首先将数据空间划分为有限个单元的网格结构,所有的处理都以单个的单元格为对象,而在处理每个单元格之前先根据“万有引力”原理将周围单元格中的那些与本

单元格“关系更密切”的数据吸引过来,这样位于单元格边界附近的数据就被

重新分配到对它“吸引力大”的单元格中,这样相当于模糊了单元格的边界。

从而解决了传统网格聚类中没有考虑和其相邻单元的关系,结果簇的边界要么

是水平的,要么是竖直的,没有对角边界的缺点。从而消除了网格边界过硬的

问题。

成都理工大学硕士学位论文

1.4论文的具体组织结构

本文的内容具体组织如下:

第一部分说明了论文的背景、目的、意义、国内外的发展情况

第二部分数据挖掘与电信运营分析系统

第三部分数据挖掘的相关理论

第四部分客户呼叫模式的关联分析与实现

第五部分电信运营分析中客户细分的聚类识别

第六部分结论

1.5小结

本文主要阐述了电信运营分析中的数据挖掘研究背景;国内外电信运营分析中的数据挖掘发展现状;论文的主要内容与创新点;以及论文的组织结构。总之,关联规则的挖掘和聚类分析的数据挖掘是两个很重要的数据挖掘问题,对其挖掘算法的研究具有十分重要的意义。电信行业与我们日常生活密切相关,其相关技术不断成熟,充足的数据积累和强烈的现实需求,使得数据挖掘在电信行业中的应用拥有着广阔的前景。

第2章 数据挖掘与电信运营分析系统

第2章 数据挖掘与电信运营分析系统 随着信息资源的急剧增长,人们越来越多地关注如何开发和利用这些资源。然而,原有的信息处理与组织技术无法赶上这样的趋势,知识发现与数据挖掘(Knowledge Discovery in Database and Data Mining)的技术就是在这样的环境下应运而生的。

电信运营分析系统中的数据挖掘是建立在数据仓库基础上的。它的任务是从数据仓库中存储的大量的数据中利用一定的算法挖掘出隐含的,前所未知且可能有用的信息【8】。利用这些有用的信息再去构建知识库。所以,数据挖掘是电信运营分析系统中数据库和数据仓库无法替代的重要组成部分,是构建知识库、模型库的基本手段。

2.1电信运营分析系统的硬件结构

以湖南联通的固网为例,分布在全省各个地市的资源系统和全省集中的资源系统平台,通过全省DCN网与在省计费帐务中心的数据仓库局域网相连接。运营分析与决策支持系统的核心数据处理服务器用1000M光纤与光纤交换机

相连,有一台web服务器进行报表的发布,数据仓库的存储由13T的磁盘阵列组成,核心局域网是1000M光纤以太网组成,到各地市的业务系统的广域网是100M带宽。整个系统网络中从路由器到防火墙、千兆交换机、光纤交换机、运营分析与决策支持系统的核心数据处理服务器都采用主备结构,这样增加了系统的可靠性。本文讨论的数据挖掘是在运营分析与决策支持系统的核心数据处理服务器中进行的。具体网络结构如图2-1所示。

各地市计费营业系统负责本地市的计费营业等日常工作的运行。如:业务受理,数据制作,本地计费等。

DCN网是负责数据通信的网络。它具有分布式网络计算环境和多级分布式数据仓库,以电信总局的网管中心为网络中心,覆盖全国所有省、直辖市和自治区的省网管中心,共计32个主干节点,形成一个全国性的骨干网络。通过该网络,将把各省、市、自治区的7个不同专业的网管网络,如长途电话网管、移动通讯网管等连接到电信总局,使得每一个省网管中心专业网管的各种管理信息传送到国家网管中心,作为电信业务、营业、计费、网管数据传输、多媒体通信等系统的传输通道和通信平台,从而实现通信网络监控、管理、维护以及决策的信息化与自动化。

成都理工大学硕士学位论文

图 2-1 系统网络结构图

路由器的作用是连通不同的网络,和选择数据帧传送的线路。选择通畅快捷的近路,能大大提高通信速度,减轻网络系统通信负荷,节约网络系统资源,提高网络系统畅通率,从而让网络系统发挥出更大的效益来。

防火墙是设置在不同网络(如可信任的企业内部网和不可信的公共网)或网络安全域之间的一系列部件的组合。它可通过监测、限制、更改跨越防火墙的数据流,尽可能地对外部屏蔽网络内部的信息、结构和运行状况,以此来实现网络的安全保护。在逻辑上,防火墙是一个分离器,一个限制器,也是一个分析器,有效地监控了内部网和Internet之间的任何活动,保证了内部网络的安全。

交换机主要负责信息的交换工作。

Web服务器主要负责报表的发布。

磁盘阵列主要是负责数据仓库的存储。

决策2.2件开

及加运营分析策支持。其2电信运电信运营开发平台。

加载、数据析与决策支持其中数据挖掘运营分析系分析通常采系统在应用

存储、主题第2章 数持系统的核掘是其核心系统的软采用大型数用逻辑上基题分析及数图

2-2数据挖掘与电信核心数据处理心组成部分。软件结构数据仓库系统基本由五大部数据挖掘、前2

系统的逻辑信运营分析系统理服务器主

统和相应的部分组成,前端展现,

辑框架

主要负责通信的工具作为系即数据抽取如图2-2

所信运营分析系统的主要取、数据整所示:

析与要软整理

成都理工大学硕士学位论文

数据库是存储从营帐系统、客服系统、结算系统、网管系统中抽取的数据,是软件的底层数据来源。

数据采集和加载模块将对数据的抽取处理之后,进行数据的“净化提炼”处理。所谓数据的“净化提炼”就是对从多个不同业务数据库所抽取的数据,进行数据项名称的统一、位数的统一、编码的统一和形式的统一,消除重复数据。

数据仓库是对多个异构的数据源有效集成,集成后按照主题进行抽取、清理转换、重组、装载集成的一个面向主题的(Subject-oriented)、集成的(Integrated)、相对稳定的(Non-V olatile)、反映历史变化(Time-Variant)的数据集合。

数据挖掘、模型库、知识库是整个软件系统的核心,负责主题分析和数据挖掘形成一系列的有用的知识和业务分析模型。本文重点讨论该层中的数据挖掘。

应用服务器和前端浏览器负责前端展示。它通过问题综合与交互系统与知识库、模型库、数据仓库进行信息交换。

2.3小结

本章主要从硬件和软件角度阐述了电信运营分析系统的结构,以及数据挖掘在整个系统中的核心地位。数据挖掘功能实现的效率直接影响运营分析系统的工作质量。

第3章 相关理论

第3章 数据挖掘的相关理论 本章主要阐述电信运营分析系统中数据挖掘的相关理论—数据仓库和数据挖掘的有关知识。有人把数据仓库和数据挖掘的定义混淆在一起,其实数据仓库和数据挖掘是完全不同的两个概念。数据仓库用于存储数据,目的是建立一个全局一致的数据分析环境,把事务处理和分析处理分离开来,但数据仓库并没有把数据变为信息。数据仓库从事务型数据库中抽取并集成得到分析型数据后,需要各种决策分析工具对这些数据进行分析和挖掘,才能得到有用的决策信息。数据挖掘技术具备从大量数据中发现有用信息的能力,于是数据挖掘自然成为数据仓库中进行数据深层分析的一种必不可少的手段。毫无疑问,那些只建立数据仓库而不进行数据挖掘的机构并不能从对数据仓库的投资中得到较好的回报。

数据挖掘和数据仓库是相互补充、协同工作的。一方面,数据挖掘是数据仓库中进行数据深层分析的一种必不可少的手段。另一方面,数据挖掘往往依赖于经过良好组织和预处理的数据源,数据的好坏直接影响数据挖掘的效果,因此数据的前期处理准备是数据挖掘过程中一个非常重要的阶段。而数据仓库具有从各种数据源中抽取数据,并对数据进行清洗、聚集和转换等各种处理的能力,恰好为数据挖掘提供了良好的进行前期数据准备工作的环境。可以迎合和简化数据挖掘过程中的数据预处理步骤,提高数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性。

因此,数据仓库和数据挖掘技术的结合成为必然的趋势。

3.1数据仓库概述

数据仓库是对多个异构的数据源有效集成,集成后按照主题进行抽取、清理转换、重组、装载集成的一个面向主题的(Subject-oriented)、集成的(Integrated)、相对稳定的(Non-V olatile)、反映历史变化(Time-Variant)的数据集合。

(1)数据仓库的特点

根据数据仓库概念的含义,数据仓库有以下四个特点:

1) 面向主题

数据仓库中的数据是按照一定的主题进行组织的。主题是一个抽象概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。主题是一个在较高层次将数据归类的标准,每一个主题基本对应一个宏观的领域,基于主题组织的数据被划分为各自独立的领域,每一个领域都有自己的逻辑内涵互不交叉。传统的数据库是面向事务处理而设计的,

成都理工大学硕士学位论文

它的数据是为了具体应用而组织在一起的,而应用处理对于数据内容的划分未必适用于决策分析的需求。因此,在数据进入数据仓库之前,必然要经过加工和集成,将原始数据结构做一个从面向应用到面向主题的转变。

2) 集成数据

数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。操作型数据与分析型数据之间的差别甚大。在数据进入数据仓库之前,必然要经过加工与集成。这一步是数据仓库实施过程中最为关键、最为复杂的一步。首先,要统一原始数据中的所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致等等,还要将原始数据结构做一个从面向应用到面向主题的转变。

3) 相对稳定

数据仓库的数据主要是供企业进行决策分析的,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。虽然源数据库内的具体事务的处理过程是变化的,但进入数据仓库的数据则是相对稳定的。

4) 反映历史变化

联机事务处理系统经常只是包含当前的数据,然而,数据仓库中的数据通常还包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。存储在数据仓库中的数据一般表示过了一段比较长的时间的数据,一般是五年到十年。数据仓库存储了企业一段时间的快照形式。与此不同的是,业务数据库通常只保存有用事务数据30-180天。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个解决方案。在此也是数据挖掘的基础。

(2)数据仓库的核心在数据仓库的建设、维护将以元数据为核心。

所有数据都在元数据中进行存储、调用、管理。元数据是关于数据的数据。元数据涉及到数据仓库构造、运行、维护的整个生命周期。按照元数据的使用情况和面向对象的不同,可以将元数据分为业务元数据、技术元数据、操作元数据【9】【10】【11】。

第3章 相关理论

1) 业务元数据

业务元数据用业务名称、定义、描述和别名来表示数据仓库和业务系统中的各种属性,直接供最终用户使用。业务元数据使最终用户能够更好理解、使用数据仓库,成为最终用户在数据仓库中的业务地图【12】【13】。业务元数据在数据仓库中的体现是全方位的,例如,使用用户通过浏览元数据可以清晰地了解各指标代表什么业务、如何计算得出的等相关描述信息。

2) 技术元数据

技术元数据描述了源系统、数据转换、抽取过程、工作流、加载策略以及目标数据库的定义等。技术元数据可供信息系统人员和一部分最终用户使用,用来进行影响分析、变化管理、数据库优化、任务调度和安全管理等。业务系统和经营分析系统之间存在复杂、多方面的区别,因此,数据在业务系统和运营分析与决策支持系统之间的处理、加载也是复杂和涉及多方面的。技术元数据对数据在系统间处理、加载的规则、过程、相关策略进行了描述。虽然元数据依据具体应用特点分为业务元数据、技术元数据,但是,在实际应用中以上两类元数据是相互参照和关联的。只有业务、技术之间的协调和互补才能使有效数据进入数据仓库。在实际应用中,对业务的全面了解、描述、表达能够推动数据仓库的应用。

3) 操作元数据

操作元数据是数据仓库的使用、维护及数据更新策略等的操作的定义。元数据管理涉及到数据仓库构造、运行、维护的整个生命周期。庞大的企业级数据仓库涉及吉林省通信公司运行的众多业务处理系统和整个企业运行的各个环节,只有有效的元数据管理才能保证数据仓库与企业业务的运作保持同步并且根据市场和业务需求的变化随时做出调整。

(3)数据仓库的体系结构

一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP、DM引擎以及前端工具与应用四个部分。如图3-1所示:

数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于企业操作型数据库中(通常存放在RDBMS中)的各种业务数据和办公自动化(OA)系统包含的各类文档数据。外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等。

数据的存储与管理:是整个数据仓库系统的核心。在数据仓库构筑中,工作量最大是从业务数据库向数据仓库抽取、清洁、变换、集成数据的作业。原因是为了从各种不同种类和形式的业务应用抽取、变换、集成数据,并将其存储到数据仓库,要求要对数据的质量进行维护和管理。

谓数项名ETL 功能

支持

ETL 工具数据的“净名称的统一L 工具的功能和自动运持多种数据

其次是数具就是在数据净化提炼”就一、位数的统功能越来越高运行功能(包括源,能自动

数据中心构筑成都图3-1数据的抽取处就是对从多统一、编码高级。它具括处理过程动实现数据

筑方式的进都理工大学硕士据仓库系统体处理之后,进多个不同业务码的统一和形具有支持数据程的监控、调据抽取。

进展。数据仓士学位论文

体系结构

进行数据的务数据库所形式的统一据的“净化调度和外部

仓库是面对的“净化提炼所抽取的数据一,消除重复化提炼”功能部批处理作业

对整个企业的炼”处理。据,进行数复数据。现能、数据加业的启动等

的数据应用

所数据现在加工等),

用,

相关主题
文本预览
相关文档 最新文档