基于SQLSERVER2005的数据挖掘系统设计
- 格式:pdf
- 大小:193.09 KB
- 文档页数:3
基于SQLServer2005的数据挖掘系统优势分析[摘要]本文介绍了数据挖掘软件及工具的发展历史,提出基于SQL Server 2005的数据挖掘系统,阐述了SQL Server 2005平台的功能优势。
[关键词]SQL Server 2005;数据挖掘;数据仓库数据挖掘(Data Mining,DM))是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,是统计学、数据库技术和人工智能技术的综合。
数据挖掘的工具和软件已广泛应用于银行金融、零售与批发、制造、保险、公共设施、政府、教育、远程通讯、软件开发、运输等领域。
随着数据挖掘应用日渐广泛,人们发现有些工具只有精通数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型,所以迫切需要一类使用简单而又具有针对性、功能良好的数据挖掘软件。
因此,本文结合数据挖掘软件的发展,提出一种基于SQL Server 2005的纵向数据挖掘解决方案,并阐述了SQL Server 2005平台的功能优势。
1 数据挖掘软件及其开发工具的发展状况及趋势1. 1数据挖掘软件的发展状况及趋势在对数据挖掘技术和数据挖掘软件的探索和开发过程中,很多学者提出了自己独特的观点,Robert Grossman认为,数据挖掘软件的发展将经历4个时代[1]:第一代数据挖掘软件。
支持一个或少数几个数据挖掘算法,挖掘向量数据,数据一般一次性调进内存进行处理。
如果数据足够大,并且频繁变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。
第二代数据挖掘软件。
与数据库管理系统集成、支持数据库和数据仓库,和它们具有高性能的接口具有高的可扩展性。
能够挖掘大数据集以及更复杂的数据集,通过支持数据挖掘模式和数据挖掘查询语言增加系统的灵活性。
虽然注重模型的生成,但如何与预测模型系统集成导致了第三代数据挖掘系统的开发。
一、绪论数据挖掘(DM data mining)是从大量的,不完全的,有噪声的,模糊的,随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在的有用的信息和知识的过程。
而我们的图书馆的数据库中积累了大量的读者借阅历史数据,这些数据中隐藏着大量重要信息,利用这些信息我们可以挖掘出读者对图书资源的借阅偏好模式。
于是我们便利用微软SQL SERVER 2005中的数据挖掘关联规则模块建立一个在线书目推荐服务系统,以提高图书馆的服务水平。
二、问题分析关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。
在SQL SERVER 2005 中的关联规则用的是优先关联族算法,即FP-树频集算法[HPY00]。
该算法在从大数据量中寻找频繁项集非常有效,在效率上较之Apriori算法有巨大的提高。
具体运作时分两步分析:第一步通过已过精确计算的表达式寻找出项集;第二步是基于频繁项集产生规则。
第二步需要的时间会明显少于第一步。
下面我们了解下该算法涉及的一些关键指标:三、数据准备我们收集了兰州商学院图书馆2002年到2005年的读者借阅数据,数据库具体关系如下:“一次借阅标识”意义在于形成用户借阅的项集,举例说:甲乙(单次借阅标识分别是1和2)两人一次都借了3本书丙(单次借阅标识分别是3)一次借了两本,得到如下表所示记录:如此我们便只要通过“单次借阅标识”即可区分不同用户的单次借阅。
因为在每次借阅书籍时会先在单次借阅标识表中插入自增标识码,当借阅历史表增加新记录时便使用刚插入的自增标识码作为“单次借阅标识”,这样两张表便形成一对多的关系。
之所以要有上面两张表,是因为SQL SERVER 2005在训练关联规则模型时要有事例表和嵌套表。
所谓事例表即存放鉴定一次事务的标识信息的表,用户完成他的一次借阅(当然可以不止借一本)就是一次事务,一次事务只用一个标识。
SQL Server 2005数据挖掘与商业智能完全解决方案·1.1 企业经营管理活动对商业智能的需求·1.2 商业智能的技术构成·1.3 部署商业智能·2.2 设计和使用ETL·2.3 创建OLAP数据立方·2.4 创建和使用报表本章导读:“工欲善其事,必先利其器”。
信息技术在商业领域应用的卓越成效在经过近20年的信息化建设已经初步显现。
企业通过MIS(管理信息系统)快速收集和处理商业信息,通过ERP(企业资源计划系统)准确监控信息流,从而对企业经营的各个方面进行管理。
这些系统除了本身的应用外,还积累了大量的数据,如来自业务系统的订单、库存、交易账目、客户和供应商资料,来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据,这是一笔宝贵的财富。
信息系统应该具备把这些庞大的数据转化为知识,进而辅助企业经营决策,甚至自动生成商业决策的能力,这就是商业智能。
信息系统正在经历着“MIS →ERP→BI”的演变过程。
本章将对于商业智能涉及到的相关技术,如数据仓库(DW)、数据挖掘(DM)等进行概要地分析,同时从理论上明确商业智能在企业经营决策过程中的价值发挥原理。
本章先简单地说明企业经营管理活动对商业智能的需求,从而明确实施BI的原因,解决W hy的问题;再阐述商业智能的技术构成,大概了解如何实现商业智能,解决What和How 的问题;最后列举一些实际部署的部署商业智能项目结果,解决What Effect的问题。
1.1 企业经营管理活动对商业智能的需求信息系统在企业管理中的应用不仅随着管理理念的更新而发展,还在很大程度上依赖于企业商业信息的存储量。
随着社会节奏的加快,企业信息积累越来越多,而商业知识的需求却得不到满足,于是就提出了商业智能的概念。
这一节将对商业智能系统应用的深层原因进行探讨。
1.1.1 企业经营活动面临的挑战企业经营活动包括采购、生产、销售、商贸磋商、价格比较、经营决策、营销策略、推销促销、公关宣传、售前/售后服务、客户关系和咨询服务等。
基于SQL SERVER 2005的数据挖掘系统设计
张波;陈定方;祖巧红
【期刊名称】《湖北工业大学学报》
【年(卷),期】2007(022)003
【摘要】介绍了数据挖掘软件的发展,并针对第3代数据挖掘软件的系统设计,提出了一种基于SQL SERVER 2005的纵向数据挖掘系统的设计框架.
【总页数】3页(P29-31)
【作者】张波;陈定方;祖巧红
【作者单位】武汉理工大学智能制造与控制研究所,湖北,武汉,430081;武汉理工大学智能制造与控制研究所,湖北,武汉,430081;武汉理工大学智能制造与控制研究所,湖北,武汉,430081
【正文语种】中文
【中图分类】TP311.131
【相关文献】
1.基于SQL Server 2005的数据挖掘技术在高校教学评价中的应用研究 [J], 王可安;贾存良;李质勇
2.构建基于SQL Server2005的数据挖掘模型 [J], 陈绿苗
3.基于SQL Server 2005的数据挖掘的研究 [J], 黄兴荣;李昌领
4.基于SQL Server 2005的数据挖掘系统设计方案 [J], 刘军
5.基于SQL SERVER 2005的电子商务网站数据挖掘探析 [J], 陈桂鸿
因版权原因,仅展示原文概要,查看原文内容请购买。
SQL Server™ 2005: 数据挖掘内容列表SQL Server 2005:数据挖掘3实验设置4练习1:创建维度树和Naïve Bayes数据挖掘模型潜力 6练习2:查看挖掘精度图表 17练习3:创建一个预测查询 21SQL Server 2005: 数据挖掘目标: 在完成了此实验手册中的实验后,你将能够: 创建决策树和Naïve Bayes 数据挖掘模型 查看挖掘精度图表 创建一个预测查询 了解模型时间系列实验室设置在这一部份,你将创建一个在剩下的实验部份中将要使用的视图任务详细步骤1.登录 1.使用Administrator帐户进行登录,密码是Pass@word12.创建视图 2.从Windows任务栏上选择Start | All Programs| Microsoft SQL Server 2005 | SQL ServerManagement Studio.3.在Connect to Server 对话框中,确保在Servertype 下拉列表中,Database Engine 已被选中.在Server name 文本框中输入localhost并且在Authentication 下拉列表中选择WindowsAuthentication, 如图表1所示. 单击Connect.图表1:连接到服务对话框4.选择File | Open | File.5.浏览到C:\SQL Labs\Lab Projects\DataMining Lab\DM Setup 目录并且选中文件ViewCreation.sql file. 单击Open.6.在Connect to Server 对话框单击Connect.7.通过按下F5键或者通过在工具栏上点击Execute 图标执行脚本, 如图表2所示图表2:执行脚本8.当脚本已经成功执行, 选择File | Exit 菜单项来关闭SQL Server Management Studio.练习1创建维度树和Naïve Bayes数据挖掘模型Adventure Works公司的管理层想使用统计学的方法对消费者的数据进行分析,并且基于分析结果进行采购。
SQL Server 2005 Data Mining 简介作者:Craig Utley发布日期:2005 年 4 月摘要:Microsoft SQL Server 2005 引入了大量新的数据挖掘功能。
本文将详细讨论数据挖掘可以解决的各种问题,并介绍 SQL Server 2005 处理这些问题的方式。
本文中包括对典型数据挖掘问题的概述,并对 SQL Server 2005 中可用于解决这些问题的工具和模型进行了介绍。
Microsoft 非常荣幸地推出了多款数据挖掘工具,可在数据的整个生命周期(从集成到分析,再到报告)使用这些工具。
现在可在任意阶段使用数据挖掘技术,而这为数据分析、应用程序开发、数据捕获和报告活动整个过程带来了新的机遇。
版权本文为初步文档,在文中所述软件的最终商业版本发布之前,可能会有重大改变。
本文所含信息代表了Microsoft 公司在本文发布时的观点。
因为Microsoft 必须顺应不断变化的市场条件,这些信息不应被视为Microsoft 方面的承诺,同时Microsoft 也不能保证本文发布之后其他任何信息的准确性。
本白皮书仅供参考。
MICROSOFT 对本文档中的信息不提供任何形式的(包括明示或暗示的)保证。
用户有责任遵守所有适用的版权法。
在版权法所赋予权利的前提下,未经 Microsoft Corporation 明确的书面许可,任何人不得将本文复制、存储或引入可检索系统,或是以任何形式或通过任何方式(电子、机械、影印、录制或其他方式)传播本文的任何部分。
本文主题可能涉及 Microsoft 的专利、专利申请、商标、版权或其他知识产权。
除非获得 Microsoft Corporation 明确的书面许可,否则提供本文档并不代表许可您使用这些专利、商标、版权或其他知识产权。
2005 Microsoft Corporation。
保留所有权利。
Microsoft、ActiveX、SharePoint、Visual Basic、Visual C#、Visual Studio、Windows、Windows Server 是 Microsoft Corporation 在美国和/或其他国家的注册商标或商标。
SQLServer2005数据库应用技术课程设计一、课程设计背景在互联网时代,各行业对于数据的存储、处理和分析需求越来越大,数据的重要性显而易见。
而在企业级应用系统中,SQLServer2005数据库是一款非常重要的数据管理工具。
本课程设计旨在通过学生对SQLServer2005数据库的应用学习,提高其对于企业级应用系统数据管理方面的能力。
二、课程设计内容本课程设计的主要内容包括以下方面:2.1 SQLServer2005数据库概述•SQLServer2005数据库的定义和作用•SQLServer2005数据库管理工具的介绍•SQLServer2005数据库的架构和组件2.2 SQLServer2005数据库的基本操作及数据类型•SQLServer2005数据库的建立、删除、备份和恢复•SQLServer2005数据库的基本操作语句•SQLServer2005数据库的数据类型及其使用2.3 SQLServer2005数据库的高级操作及存储管理•SQLServer2005数据库的高级操作语句•SQLServer2005数据库的存储管理机制•SQLServer2005数据库的索引原理和使用2.4 SQLServer2005数据库的安全管理和性能优化•SQLServer2005数据库的安全管理•SQLServer2005数据库的性能优化•SQLServer2005数据库的监控和调整2.5 SQLServer2005数据库的应用实例•SQLServer2005数据库在企业级ERP系统中的应用•SQLServer2005数据库在电商平台中的应用•SQLServer2005数据库在金融系统中的应用三、教学方法本课程设计采取“理论讲解+案例分析+操作实验”的教学方法,其中理论讲解主要针对SQLServer2005数据库的基本操作和高级操作等内容,案例分析主要针对SQLServer2005数据库在企业级ERP系统、电商平台、金融系统等领域中的应用案例进行讲解,操作实验主要是针对SQLServer2005数据库的学习和操作实践。
基于SQL的大数据分析与挖掘系统设计与开发一、引言随着互联网和信息技术的快速发展,大数据已经成为当今社会中不可或缺的重要资源。
大数据分析与挖掘系统的设计与开发变得愈发重要,而基于SQL的系统在这一领域中扮演着至关重要的角色。
本文将探讨基于SQL的大数据分析与挖掘系统的设计与开发过程。
二、系统架构设计在设计基于SQL的大数据分析与挖掘系统时,首先需要考虑系统架构。
典型的架构包括数据采集模块、数据存储模块、数据处理模块、数据分析模块和用户界面模块。
其中,SQL作为结构化查询语言,被广泛应用于数据存储和处理模块中,能够高效地进行数据查询和操作。
三、数据采集与清洗数据采集是大数据分析的第一步,而数据清洗则是确保数据质量的关键环节。
在基于SQL的系统中,可以利用各种ETL工具(Extract-Transform-Load)来实现数据的抽取、转换和加载,保证数据的准确性和完整性。
四、数据存储与管理对于大规模的数据集,高效的存储和管理是至关重要的。
SQL数据库(如MySQL、PostgreSQL等)提供了强大的数据存储和管理功能,能够支持复杂的查询和事务处理,同时也具备较高的可靠性和稳定性。
五、数据处理与分析在基于SQL的大数据分析系统中,SQL语句可以帮助用户快速地进行数据处理和分析。
通过编写复杂的SQL查询语句,用户可以从海量数据中提取出所需信息,并进行统计、聚合、筛选等操作,为后续的挖掘和分析提供有力支持。
六、数据挖掘与建模数据挖掘是大数据分析中的重要环节,通过各种算法和技术从海量数据中发现隐藏的模式和规律。
在基于SQL的系统中,可以结合机器学习算法(如决策树、聚类分析等)来进行数据挖掘和建模,实现对数据更深层次的理解和利用。
七、可视化与报告最终阶段是将分析结果以直观形式呈现给用户。
通过可视化工具(如Tableau、Power BI等),用户可以生成各种图表、报表和仪表盘,直观地展示分析结果,并为决策提供参考依据。
SQLServer2005数据库应用与开发课程设计一、课程概述SQL Server 数据库是由微软公司开发的一种关系型数据库管理系统,被广泛应用于企业级应用中。
本课程旨在介绍 SQL Server 数据库的基本概念、设计和应用,使学生了解 SQL Server 数据库的应用及其在企业级应用中的开发。
本课程分为如下几个部分:•SQL Server数据库基础概念•SQL Server 数据库设计•SQL Server 数据库应用开发技术在本课程中,学生将学习SQL Server数据库的基本概念,包括数据库结构、存储结构、查询语言等;学习SQL Server 数据库的设计过程,包括数据库建模、表结构设计、视图设计、索引设计等;学习SQL Server 数据库应用开发技术,包括SQL Server集成服务(SSIS)、SQL Server报表服务(SSRS)、SQL Server分析服务(SSAS)、SQL Server数据挖掘等。
二、教学大纲第一章 SQL Server数据库基础概念1.1 SQL Server 数据库介绍•介绍 SQL Server 数据库的基本概念•介绍SQL Server 的历史和发展1.2 SQL Server 数据库安装与配置•安装 SQL Server 数据库•配置 SQL Server 数据库1.3 SQL Server 数据库结构•介绍SQL Server数据库的逻辑结构和物理结构•介绍 SQL Server 数据库对象1.4 SQL Server 存储结构•存储引擎•数据页•索引结构1.5 SQL Server查询语言•基本查询语句•聚合函数•分组查询•多表查询第二章 SQL Server 数据库设计2.1 数据库建模•实体与关系•ER图2.2 表结构设计•表设计的基本原则•表设计的规范化2.3 视图设计•什么是视图•视图的作用•视图的创建2.4 索引设计•什么是索引•索引的原理•索引的优化策略第三章 SQL Server 数据库应用开发技术3.1 SQL Server集成服务(SSIS)•SSIS 简介•SSIS 工作流程•SSIS 的应用3.2 SQL Server报表服务(SSRS)•SSRS 简介•SSRS 工作流程•SSRS的应用3.3 SQL Server分析服务(SSAS)•SSAS 简介•SSAS 工作流程•SSAS 的应用3.4 SQL Server数据挖掘•数据挖掘的基本概念•SQL Server 中的数据挖掘•数据挖掘的应用三、教学方式本课程采用理论讲解和实践相结合的教学方式,教学内容按照章节划分和重点难点部分讲解实践。
第22卷第3期湖 北 工 业 大 学 学 报2007年06月V ol.22N o.3 Journal of H ubei U niversity of T echnology Jun.2007[收稿日期]2007-03-20[作者简介]张 波(1981-),男,湖北当阳人,武汉理工大学硕士研究生,研究方向:物流系统的自动化与智能化.[文章编号]1003-4684(2007)0320029203基于SQL SERV ER 2005的数据挖掘系统设计张 波,陈定方,祖巧红(武汉理工大学智能制造与控制研究所,湖北武汉430081)[摘 要]介绍了数据挖掘软件的发展,并针对第3代数据挖掘软件的系统设计,提出了一种基于SQL SERV ER 2005的纵向数据挖掘系统的设计框架.[关键词]数据挖掘;SQL SERV ER 2005;数据仓库;OL A P ;商业智能[中图分类号]TP311.131[文献标识码]A 数据仓库(Data Warehouse )是伴随着决策支持系统的发展而产生的,是人们对信息需求从简单到复杂,从基本的事务处理和业务管理到信息分析和战略决策的体现.而数据挖掘(Data Mining )就是应用一系列技术从大型数据库或数据仓库的数据中提取人们感兴趣的信息和知识,是统计学、数据库技术和人工智能技术的综合.但一方面,随着数据挖掘工具的使用日渐广泛,人们发现有些工具只有精通数据挖掘算法的专家才能熟练使用.如果对算法不了解,难以得出好的模型.所以迫切需要一类使用简单而又具有针对性、功能良好的数据挖掘软件.另一方面,国内对数据挖掘方面的算法和理论研究较多,而对数据挖掘软件和工具的设计与实现方面的研究相对较少.因此,本文结合数据挖掘软件的发展,针对第3代数据挖掘系统的设计,提出一种基于SQL Server 2005的纵向数据挖掘解决方案的设计框架.1 数据挖掘软件的发展1.1 数据挖掘软件经历的4个时代在对数据挖掘技术和数据挖掘软件的探索和开发过程中,很多学者提出了自己独特的观点.对于数据挖掘软件的发展,Robert Grossman 认为,数据挖掘软件经历了或即将经历的时代有4个[1],如表1所示.表1 数据挖掘软件经历的4个时代代特征数据挖掘算法集成分布计算模型数据模型1作为一个独立的应用支持一个或多个算法独立的系统单个机器向量数据2和数据库以及数据仓库集成多个算法,能挖掘一次不能进入内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集有些系统支持对象,文本和连续的媒体数据3和语言模型系统集成多个算法数据管理系统Intranet/extranet 网络计算支持半结构化和Web 数据4和移动数据以及各种计算设备的数据联合多个算法数据管理系统移动和各种计算设备普遍存在的计算模型1.2 数据挖掘工具经历的3个阶段目前在整个数据挖掘技术的发展过程中,数据挖掘工具一共经历了3个阶段,分别是:1)独立的数据挖掘软件.该阶段对应第一代数据挖掘系统,出现在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件.这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作.2)横向的数据挖掘工具集.此类工具集的特点是提供多种数据挖掘算法,包括数据的转换和可视化.由于此类工具并非面向特定的应用,是通用的算法集合,所以称之为横向的数据挖掘工具.3)纵向的数据挖掘解决方案.此类工具的特点是,针对特定的应用提供完整的数据挖掘方案,所以称之为纵向的数据挖掘解决方案.2 SQ L Server2005简介2.1 数据挖掘的范围及其在SQ L Server2005中的功能实现SQL Server2005不仅是一个成熟的数据库管理系统(DBMS),而且更是一个高度集成的功能强大的商业智能平台.下面结合商务智能的范围来介绍SQL Server2005所提供的相关组件.图1 数据挖掘在SQL Server2005中的功能实现图1所示的就是数据挖掘的三个重要的方面,即数据报表、数据分析和数据挖掘.其中,数据报表模块为企业解决了“它现在是什么样”的问题,数据分析,也就是人们经常说的OL A P模块为企业解释了“它为什么是这样”的原因,而数据挖掘模块则为企业提供“它以后会是什么样”的预测.而SQL Server2005作为商业智能解决方案,则分别提供了相应的功能模块和组件,即数据挖掘、分析服务和报表服务.其中,数据挖掘功能的组件主要包括集成服务( SQL Server Integration Services,SSIS)和分析服务(Analysis Services,AS).集成服务可用于数据预处理阶段,完成数据的转换、清洗和加载(ETL)过程;而分析服务用于完成模式发现功能.两者具体功能介绍如下.2.2 SSIS功能介绍SQL Server2005中的集成服务提供的数据抽取、转换、下载等功能,大大简化数据预处理阶段的工作.SSIS基于工作流环境,提供了控制流(Con2 t rol Flow)和数据流(Data Flow)两种工作流.一个SSIS项目中最基本的部署和执行单位被称为“包”,“包”就是装载SSIS工作流的容器[2].2.3 分析服务功能介绍分析服务是SQL Server2005的另一个重要组件,采用开放的体系结构,无缝集成了多种符合OL E DB for DM的数据挖掘算法,提供了数据挖掘解决方法.1)OL E DB for DM介绍 OL E DB for DM是微软于2000年提出的一种数据挖掘规范,基于OL E DB的实现原理,旨在为数据挖掘界提供一种类似SQL语言的行业标准语言,它定义了强大的可用于模型建设、模型训练以及预测的数据挖掘语言,同时定义了一套模式的行集合用于存储挖掘模型和挖掘算法的元数据,允许应用程序自动发现挖掘模式和挖掘服务[3].2)数据挖掘模型介绍 在SQL Server2005的数据挖掘平台中,数据挖掘模型类似于一个关系型的表,其中包括关键字、输入、预测3个属性.每个模型跟一个数据挖掘算法相关联.模型构建可以基于DMX,也可以直接在SQL Server2005中操作实现.模型的构建包括模型建立、模型训练、模型预测3个步骤3)数据挖掘算法介绍 SQL Server2005的分析服务给用户提供了9种常用的数据挖掘算法,分别是:决策树算法、聚类算法、贝叶斯算法、时间序列算法、关联算法、序列聚类算法、神经网络算法、线性回归算法、逻辑回归算法、除了这9种算法以外,用户还可以根据自己的需要嵌入其他的算法.当然,各种算法应该结合数据挖掘系统的要求来选择合适的挖掘模型.3 基于SQ L Server2005的数据挖掘解决方案设计 借助SQL Server2005在数据挖掘平台上的优势,分析了客户关系管理中的客户分类系统与客户流失、科技计划项目管理系统中科技计划项目的分析与处理等相关数据挖掘系统研究,本文提出一个纵向数据挖掘系统的原型方案,其框架图如图2所示.图2 基于SQL Server2005的数据挖掘解决方案本文提出的基于SQL Server2005的数据挖掘解决方案主要包括以下几个部分,各部分简要介绍如下:03湖 北 工 业 大 学 学 报2007年第3期 1)源系统 数据挖掘的基础就是基于大量的历史数据.这里的源系统可以是企业内部的任何业务系统,即各种管理信息系统,其数据存储类型也可以为多种,如文本文件、各种关系型数据库等等.这些业务系统中的数据可以经过数据清洗、转换和加载(ETL ),为数据挖掘做准备.2)数据仓库 该部分的功能就是为数据挖掘提供多维数据集(Cube )和数据集(DataSet ),用于数据挖掘的Cube 也可以根据用户的要求作相应的更改.SQL Server 2005提供了自动创建Cube 的功能,用户只需要设置好相应的维度表和量度组,通过一些简单的命令就能实现Cube 的自动生成和重新生成.因此,数据仓库的设计主要在于维度表和量度组,以及两者之间关系的设计.3)联机分析处理(OL A P ) 任何数据挖掘系统都离不开OL A P 部分,它为用户提供强大的数据分析功能.在数据仓库建立好后,输入测试数据,测试建立好的数据仓库、测试模型.如果分析结果显示创建的模型有问题,则可以通过OLA P 提供的功能重新创建模型,并且按照用户喜好的方式显示数据分析的结果.直到模型没有问题之后,就可以将ETL 处理过的真实数据来做相应的数据分析.4)数据挖掘 数据挖掘模型的建立以MDX 语句为基础,同时SQL Server 2005也支持手工操作.模型建立好后,就需要对选择数据挖掘的模型进行测试和训练.用于训练的数据源可以来自于数据仓库生成的Cube ,也可以直接使用其他的数据集,如文本文件.模型训练的结果可以浏览也可以生成报表在客户端展示.5)客户端 即数据挖掘模型、报表和OL A P 的分析结果前端展现,即用户与系统交互界面.目前比较流行的方式是基于Web 的B/S 结构.由此看来,数据仓库以及数据挖掘的功能均能在SQL Server 2005中快速实现,而本文提出的解决方案充分利用了这个特点,将数据仓库和数据挖掘、OL A P 等相结合,为企业级的数据挖掘系统的设计提供了一种原型设计方案.4 结束语SQL Server2005为数据挖掘解决方案提供了强大的设计和开发平台,为第三代企业级的数据挖掘系统的设计和实现带来极大的便利.同时,用户只需要在客户端浏览模型和报表,不用对数据挖掘技术和数据挖掘算法有太多了解.采用本文提出的数据挖掘软件设计模型,可以充分利用SQL Server 2005提供的功能,结合具体的应用,快速实现纵向的数据挖掘解决方案.因此,利用SQL Server 2005来设计和实现数据挖掘平台具有广泛的应用前景.[ 参 考 文 献 ][1] 吴 婕.浅析数据挖掘软件的发展[J ].情报理论与实践,2004(2):212-214.[2] Y ike Guo ,Robert Grossman.High Performance DataMining :Scaling Algorithms ,Applications and Systems [Z].Germany :Springer ,2001:1-56.[3] Zhao Hui Tang ,Jamie MacLennan.Data Mining withSQL Server 2005[M ].北京:清华大学出版社,2007.Data Mining System Design B ased on SQ L SERVER 2005ZHAN G Bo ,CH EN Ding 2fang ,ZU Qiao 2hong(Research I nst.of I ntelli gent M anu f .and Cont rol ,W uhan Uni v.of Tech.,W uhan 430081,Chi na;)Abstract :The develop ment of t he data mining software is reviewed ,and a f ramework of designing a verti 2cal data mining system based on SQL Server 2005is presented ,which aims at t he system design for a data mining software in t he t hird era.K eyw ords :data mining ;SQL SERV ER 2005;data warehouse ;OL A P ;business intelligence[责任编辑:张培炼]13 第22卷第3期 张 波等 基于SQL SERV ER 2005的数据挖掘系统设计。