基于SQLSERVER2005的数据挖掘系统设计
- 格式:pdf
- 大小:193.09 KB
- 文档页数:3
基于SQLServer2005的数据挖掘系统优势分析[摘要]本文介绍了数据挖掘软件及工具的发展历史,提出基于SQL Server 2005的数据挖掘系统,阐述了SQL Server 2005平台的功能优势。
[关键词]SQL Server 2005;数据挖掘;数据仓库数据挖掘(Data Mining,DM))是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,是统计学、数据库技术和人工智能技术的综合。
数据挖掘的工具和软件已广泛应用于银行金融、零售与批发、制造、保险、公共设施、政府、教育、远程通讯、软件开发、运输等领域。
随着数据挖掘应用日渐广泛,人们发现有些工具只有精通数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型,所以迫切需要一类使用简单而又具有针对性、功能良好的数据挖掘软件。
因此,本文结合数据挖掘软件的发展,提出一种基于SQL Server 2005的纵向数据挖掘解决方案,并阐述了SQL Server 2005平台的功能优势。
1 数据挖掘软件及其开发工具的发展状况及趋势1. 1数据挖掘软件的发展状况及趋势在对数据挖掘技术和数据挖掘软件的探索和开发过程中,很多学者提出了自己独特的观点,Robert Grossman认为,数据挖掘软件的发展将经历4个时代[1]:第一代数据挖掘软件。
支持一个或少数几个数据挖掘算法,挖掘向量数据,数据一般一次性调进内存进行处理。
如果数据足够大,并且频繁变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。
第二代数据挖掘软件。
与数据库管理系统集成、支持数据库和数据仓库,和它们具有高性能的接口具有高的可扩展性。
能够挖掘大数据集以及更复杂的数据集,通过支持数据挖掘模式和数据挖掘查询语言增加系统的灵活性。
虽然注重模型的生成,但如何与预测模型系统集成导致了第三代数据挖掘系统的开发。
一、绪论数据挖掘(DM data mining)是从大量的,不完全的,有噪声的,模糊的,随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在的有用的信息和知识的过程。
而我们的图书馆的数据库中积累了大量的读者借阅历史数据,这些数据中隐藏着大量重要信息,利用这些信息我们可以挖掘出读者对图书资源的借阅偏好模式。
于是我们便利用微软SQL SERVER 2005中的数据挖掘关联规则模块建立一个在线书目推荐服务系统,以提高图书馆的服务水平。
二、问题分析关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。
在SQL SERVER 2005 中的关联规则用的是优先关联族算法,即FP-树频集算法[HPY00]。
该算法在从大数据量中寻找频繁项集非常有效,在效率上较之Apriori算法有巨大的提高。
具体运作时分两步分析:第一步通过已过精确计算的表达式寻找出项集;第二步是基于频繁项集产生规则。
第二步需要的时间会明显少于第一步。
下面我们了解下该算法涉及的一些关键指标:三、数据准备我们收集了兰州商学院图书馆2002年到2005年的读者借阅数据,数据库具体关系如下:“一次借阅标识”意义在于形成用户借阅的项集,举例说:甲乙(单次借阅标识分别是1和2)两人一次都借了3本书丙(单次借阅标识分别是3)一次借了两本,得到如下表所示记录:如此我们便只要通过“单次借阅标识”即可区分不同用户的单次借阅。
因为在每次借阅书籍时会先在单次借阅标识表中插入自增标识码,当借阅历史表增加新记录时便使用刚插入的自增标识码作为“单次借阅标识”,这样两张表便形成一对多的关系。
之所以要有上面两张表,是因为SQL SERVER 2005在训练关联规则模型时要有事例表和嵌套表。
所谓事例表即存放鉴定一次事务的标识信息的表,用户完成他的一次借阅(当然可以不止借一本)就是一次事务,一次事务只用一个标识。
SQL Server 2005数据挖掘与商业智能完全解决方案·1.1 企业经营管理活动对商业智能的需求·1.2 商业智能的技术构成·1.3 部署商业智能·2.2 设计和使用ETL·2.3 创建OLAP数据立方·2.4 创建和使用报表本章导读:“工欲善其事,必先利其器”。
信息技术在商业领域应用的卓越成效在经过近20年的信息化建设已经初步显现。
企业通过MIS(管理信息系统)快速收集和处理商业信息,通过ERP(企业资源计划系统)准确监控信息流,从而对企业经营的各个方面进行管理。
这些系统除了本身的应用外,还积累了大量的数据,如来自业务系统的订单、库存、交易账目、客户和供应商资料,来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据,这是一笔宝贵的财富。
信息系统应该具备把这些庞大的数据转化为知识,进而辅助企业经营决策,甚至自动生成商业决策的能力,这就是商业智能。
信息系统正在经历着“MIS →ERP→BI”的演变过程。
本章将对于商业智能涉及到的相关技术,如数据仓库(DW)、数据挖掘(DM)等进行概要地分析,同时从理论上明确商业智能在企业经营决策过程中的价值发挥原理。
本章先简单地说明企业经营管理活动对商业智能的需求,从而明确实施BI的原因,解决W hy的问题;再阐述商业智能的技术构成,大概了解如何实现商业智能,解决What和How 的问题;最后列举一些实际部署的部署商业智能项目结果,解决What Effect的问题。
1.1 企业经营管理活动对商业智能的需求信息系统在企业管理中的应用不仅随着管理理念的更新而发展,还在很大程度上依赖于企业商业信息的存储量。
随着社会节奏的加快,企业信息积累越来越多,而商业知识的需求却得不到满足,于是就提出了商业智能的概念。
这一节将对商业智能系统应用的深层原因进行探讨。
1.1.1 企业经营活动面临的挑战企业经营活动包括采购、生产、销售、商贸磋商、价格比较、经营决策、营销策略、推销促销、公关宣传、售前/售后服务、客户关系和咨询服务等。
基于SQL SERVER 2005的数据挖掘系统设计
张波;陈定方;祖巧红
【期刊名称】《湖北工业大学学报》
【年(卷),期】2007(022)003
【摘要】介绍了数据挖掘软件的发展,并针对第3代数据挖掘软件的系统设计,提出了一种基于SQL SERVER 2005的纵向数据挖掘系统的设计框架.
【总页数】3页(P29-31)
【作者】张波;陈定方;祖巧红
【作者单位】武汉理工大学智能制造与控制研究所,湖北,武汉,430081;武汉理工大学智能制造与控制研究所,湖北,武汉,430081;武汉理工大学智能制造与控制研究所,湖北,武汉,430081
【正文语种】中文
【中图分类】TP311.131
【相关文献】
1.基于SQL Server 2005的数据挖掘技术在高校教学评价中的应用研究 [J], 王可安;贾存良;李质勇
2.构建基于SQL Server2005的数据挖掘模型 [J], 陈绿苗
3.基于SQL Server 2005的数据挖掘的研究 [J], 黄兴荣;李昌领
4.基于SQL Server 2005的数据挖掘系统设计方案 [J], 刘军
5.基于SQL SERVER 2005的电子商务网站数据挖掘探析 [J], 陈桂鸿
因版权原因,仅展示原文概要,查看原文内容请购买。
第22卷第3期湖 北 工 业 大 学 学 报2007年06月V ol.22N o.3 Journal of H ubei U niversity of T echnology Jun.2007[收稿日期]2007-03-20[作者简介]张 波(1981-),男,湖北当阳人,武汉理工大学硕士研究生,研究方向:物流系统的自动化与智能化.[文章编号]1003-4684(2007)0320029203基于SQL SERV ER 2005的数据挖掘系统设计张 波,陈定方,祖巧红(武汉理工大学智能制造与控制研究所,湖北武汉430081)[摘 要]介绍了数据挖掘软件的发展,并针对第3代数据挖掘软件的系统设计,提出了一种基于SQL SERV ER 2005的纵向数据挖掘系统的设计框架.[关键词]数据挖掘;SQL SERV ER 2005;数据仓库;OL A P ;商业智能[中图分类号]TP311.131[文献标识码]A 数据仓库(Data Warehouse )是伴随着决策支持系统的发展而产生的,是人们对信息需求从简单到复杂,从基本的事务处理和业务管理到信息分析和战略决策的体现.而数据挖掘(Data Mining )就是应用一系列技术从大型数据库或数据仓库的数据中提取人们感兴趣的信息和知识,是统计学、数据库技术和人工智能技术的综合.但一方面,随着数据挖掘工具的使用日渐广泛,人们发现有些工具只有精通数据挖掘算法的专家才能熟练使用.如果对算法不了解,难以得出好的模型.所以迫切需要一类使用简单而又具有针对性、功能良好的数据挖掘软件.另一方面,国内对数据挖掘方面的算法和理论研究较多,而对数据挖掘软件和工具的设计与实现方面的研究相对较少.因此,本文结合数据挖掘软件的发展,针对第3代数据挖掘系统的设计,提出一种基于SQL Server 2005的纵向数据挖掘解决方案的设计框架.1 数据挖掘软件的发展1.1 数据挖掘软件经历的4个时代在对数据挖掘技术和数据挖掘软件的探索和开发过程中,很多学者提出了自己独特的观点.对于数据挖掘软件的发展,Robert Grossman 认为,数据挖掘软件经历了或即将经历的时代有4个[1],如表1所示.表1 数据挖掘软件经历的4个时代代特征数据挖掘算法集成分布计算模型数据模型1作为一个独立的应用支持一个或多个算法独立的系统单个机器向量数据2和数据库以及数据仓库集成多个算法,能挖掘一次不能进入内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集有些系统支持对象,文本和连续的媒体数据3和语言模型系统集成多个算法数据管理系统Intranet/extranet 网络计算支持半结构化和Web 数据4和移动数据以及各种计算设备的数据联合多个算法数据管理系统移动和各种计算设备普遍存在的计算模型1.2 数据挖掘工具经历的3个阶段目前在整个数据挖掘技术的发展过程中,数据挖掘工具一共经历了3个阶段,分别是:1)独立的数据挖掘软件.该阶段对应第一代数据挖掘系统,出现在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件.这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作.2)横向的数据挖掘工具集.此类工具集的特点是提供多种数据挖掘算法,包括数据的转换和可视化.由于此类工具并非面向特定的应用,是通用的算法集合,所以称之为横向的数据挖掘工具.3)纵向的数据挖掘解决方案.此类工具的特点是,针对特定的应用提供完整的数据挖掘方案,所以称之为纵向的数据挖掘解决方案.2 SQ L Server2005简介2.1 数据挖掘的范围及其在SQ L Server2005中的功能实现SQL Server2005不仅是一个成熟的数据库管理系统(DBMS),而且更是一个高度集成的功能强大的商业智能平台.下面结合商务智能的范围来介绍SQL Server2005所提供的相关组件.图1 数据挖掘在SQL Server2005中的功能实现图1所示的就是数据挖掘的三个重要的方面,即数据报表、数据分析和数据挖掘.其中,数据报表模块为企业解决了“它现在是什么样”的问题,数据分析,也就是人们经常说的OL A P模块为企业解释了“它为什么是这样”的原因,而数据挖掘模块则为企业提供“它以后会是什么样”的预测.而SQL Server2005作为商业智能解决方案,则分别提供了相应的功能模块和组件,即数据挖掘、分析服务和报表服务.其中,数据挖掘功能的组件主要包括集成服务( SQL Server Integration Services,SSIS)和分析服务(Analysis Services,AS).集成服务可用于数据预处理阶段,完成数据的转换、清洗和加载(ETL)过程;而分析服务用于完成模式发现功能.两者具体功能介绍如下.2.2 SSIS功能介绍SQL Server2005中的集成服务提供的数据抽取、转换、下载等功能,大大简化数据预处理阶段的工作.SSIS基于工作流环境,提供了控制流(Con2 t rol Flow)和数据流(Data Flow)两种工作流.一个SSIS项目中最基本的部署和执行单位被称为“包”,“包”就是装载SSIS工作流的容器[2].2.3 分析服务功能介绍分析服务是SQL Server2005的另一个重要组件,采用开放的体系结构,无缝集成了多种符合OL E DB for DM的数据挖掘算法,提供了数据挖掘解决方法.1)OL E DB for DM介绍 OL E DB for DM是微软于2000年提出的一种数据挖掘规范,基于OL E DB的实现原理,旨在为数据挖掘界提供一种类似SQL语言的行业标准语言,它定义了强大的可用于模型建设、模型训练以及预测的数据挖掘语言,同时定义了一套模式的行集合用于存储挖掘模型和挖掘算法的元数据,允许应用程序自动发现挖掘模式和挖掘服务[3].2)数据挖掘模型介绍 在SQL Server2005的数据挖掘平台中,数据挖掘模型类似于一个关系型的表,其中包括关键字、输入、预测3个属性.每个模型跟一个数据挖掘算法相关联.模型构建可以基于DMX,也可以直接在SQL Server2005中操作实现.模型的构建包括模型建立、模型训练、模型预测3个步骤3)数据挖掘算法介绍 SQL Server2005的分析服务给用户提供了9种常用的数据挖掘算法,分别是:决策树算法、聚类算法、贝叶斯算法、时间序列算法、关联算法、序列聚类算法、神经网络算法、线性回归算法、逻辑回归算法、除了这9种算法以外,用户还可以根据自己的需要嵌入其他的算法.当然,各种算法应该结合数据挖掘系统的要求来选择合适的挖掘模型.3 基于SQ L Server2005的数据挖掘解决方案设计 借助SQL Server2005在数据挖掘平台上的优势,分析了客户关系管理中的客户分类系统与客户流失、科技计划项目管理系统中科技计划项目的分析与处理等相关数据挖掘系统研究,本文提出一个纵向数据挖掘系统的原型方案,其框架图如图2所示.图2 基于SQL Server2005的数据挖掘解决方案本文提出的基于SQL Server2005的数据挖掘解决方案主要包括以下几个部分,各部分简要介绍如下:03湖 北 工 业 大 学 学 报2007年第3期 1)源系统 数据挖掘的基础就是基于大量的历史数据.这里的源系统可以是企业内部的任何业务系统,即各种管理信息系统,其数据存储类型也可以为多种,如文本文件、各种关系型数据库等等.这些业务系统中的数据可以经过数据清洗、转换和加载(ETL ),为数据挖掘做准备.2)数据仓库 该部分的功能就是为数据挖掘提供多维数据集(Cube )和数据集(DataSet ),用于数据挖掘的Cube 也可以根据用户的要求作相应的更改.SQL Server 2005提供了自动创建Cube 的功能,用户只需要设置好相应的维度表和量度组,通过一些简单的命令就能实现Cube 的自动生成和重新生成.因此,数据仓库的设计主要在于维度表和量度组,以及两者之间关系的设计.3)联机分析处理(OL A P ) 任何数据挖掘系统都离不开OL A P 部分,它为用户提供强大的数据分析功能.在数据仓库建立好后,输入测试数据,测试建立好的数据仓库、测试模型.如果分析结果显示创建的模型有问题,则可以通过OLA P 提供的功能重新创建模型,并且按照用户喜好的方式显示数据分析的结果.直到模型没有问题之后,就可以将ETL 处理过的真实数据来做相应的数据分析.4)数据挖掘 数据挖掘模型的建立以MDX 语句为基础,同时SQL Server 2005也支持手工操作.模型建立好后,就需要对选择数据挖掘的模型进行测试和训练.用于训练的数据源可以来自于数据仓库生成的Cube ,也可以直接使用其他的数据集,如文本文件.模型训练的结果可以浏览也可以生成报表在客户端展示.5)客户端 即数据挖掘模型、报表和OL A P 的分析结果前端展现,即用户与系统交互界面.目前比较流行的方式是基于Web 的B/S 结构.由此看来,数据仓库以及数据挖掘的功能均能在SQL Server 2005中快速实现,而本文提出的解决方案充分利用了这个特点,将数据仓库和数据挖掘、OL A P 等相结合,为企业级的数据挖掘系统的设计提供了一种原型设计方案.4 结束语SQL Server2005为数据挖掘解决方案提供了强大的设计和开发平台,为第三代企业级的数据挖掘系统的设计和实现带来极大的便利.同时,用户只需要在客户端浏览模型和报表,不用对数据挖掘技术和数据挖掘算法有太多了解.采用本文提出的数据挖掘软件设计模型,可以充分利用SQL Server 2005提供的功能,结合具体的应用,快速实现纵向的数据挖掘解决方案.因此,利用SQL Server 2005来设计和实现数据挖掘平台具有广泛的应用前景.[ 参 考 文 献 ][1] 吴 婕.浅析数据挖掘软件的发展[J ].情报理论与实践,2004(2):212-214.[2] Y ike Guo ,Robert Grossman.High Performance DataMining :Scaling Algorithms ,Applications and Systems [Z].Germany :Springer ,2001:1-56.[3] Zhao Hui Tang ,Jamie MacLennan.Data Mining withSQL Server 2005[M ].北京:清华大学出版社,2007.Data Mining System Design B ased on SQ L SERVER 2005ZHAN G Bo ,CH EN Ding 2fang ,ZU Qiao 2hong(Research I nst.of I ntelli gent M anu f .and Cont rol ,W uhan Uni v.of Tech.,W uhan 430081,Chi na;)Abstract :The develop ment of t he data mining software is reviewed ,and a f ramework of designing a verti 2cal data mining system based on SQL Server 2005is presented ,which aims at t he system design for a data mining software in t he t hird era.K eyw ords :data mining ;SQL SERV ER 2005;data warehouse ;OL A P ;business intelligence[责任编辑:张培炼]13 第22卷第3期 张 波等 基于SQL SERV ER 2005的数据挖掘系统设计。