SQLServer2005数据挖掘与商业智能完全解决方案
- 格式:doc
- 大小:2.06 MB
- 文档页数:161
基于SQLServer2005的数据挖掘系统优势分析[摘要]本文介绍了数据挖掘软件及工具的发展历史,提出基于SQL Server 2005的数据挖掘系统,阐述了SQL Server 2005平台的功能优势。
[关键词]SQL Server 2005;数据挖掘;数据仓库数据挖掘(Data Mining,DM))是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,是统计学、数据库技术和人工智能技术的综合。
数据挖掘的工具和软件已广泛应用于银行金融、零售与批发、制造、保险、公共设施、政府、教育、远程通讯、软件开发、运输等领域。
随着数据挖掘应用日渐广泛,人们发现有些工具只有精通数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型,所以迫切需要一类使用简单而又具有针对性、功能良好的数据挖掘软件。
因此,本文结合数据挖掘软件的发展,提出一种基于SQL Server 2005的纵向数据挖掘解决方案,并阐述了SQL Server 2005平台的功能优势。
1 数据挖掘软件及其开发工具的发展状况及趋势1. 1数据挖掘软件的发展状况及趋势在对数据挖掘技术和数据挖掘软件的探索和开发过程中,很多学者提出了自己独特的观点,Robert Grossman认为,数据挖掘软件的发展将经历4个时代[1]:第一代数据挖掘软件。
支持一个或少数几个数据挖掘算法,挖掘向量数据,数据一般一次性调进内存进行处理。
如果数据足够大,并且频繁变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。
第二代数据挖掘软件。
与数据库管理系统集成、支持数据库和数据仓库,和它们具有高性能的接口具有高的可扩展性。
能够挖掘大数据集以及更复杂的数据集,通过支持数据挖掘模式和数据挖掘查询语言增加系统的灵活性。
虽然注重模型的生成,但如何与预测模型系统集成导致了第三代数据挖掘系统的开发。
用SQL Server 2005 Analysis Services解决商务难题作者:Craig Utley出版时间: 2005年4月摘要:本文考查了商务上的一些棘手的问题,并展示了SQL Server 2005 Analysis Services是如何的简单而又高效的解决它们的。
这些商务难题包括提供简单而完整的数据视图、数据市场和局部应用程序的整合、智能数据视图、本地化问题和实时商业智能数据。
这些商务难题常常是其它数据仓库产品难以解决或不可能解决的。
而现在,微软公司用一个简单而功能强大的软件包使企业拥有了解决这些难题的新能力。
版权在这篇文章中所包含的信息代表了从发布日起微软对所讨论的问题的当前观点。
因为微软必须对市场的变换做出响应,它不应该被理解为微软所必须承担的任务的一部分,微软也不能保证在发布日之后所提出的信息的精确性。
这个白皮书仅仅是为了信息的目的,微软对本文中的信息不做任何授权、表示、暗含或规定。
依从所有可适用的版权法是用户的责任。
没有限制权利在版权之下,这个文档的部分不允许被再生产,存放或介绍入检索系统, 或被以任何形式传送或通过任何手段(电子, 机械, 影印, 记录, 或其他) 或为任何目的,没有微软的明确书面允许微软对于在这篇文章中所包含的主题拥有专利、专利申请、商标、版权或其他的一些知识产权。
除了微软明确提供的一些书面的特许契约,这个文档的并不提供给您任何专利、商标、版权或其他知识产权的执照。
版权所有2005 Microsoft Corporation。
Microsoft 和Visual Studio在美国或其他国家都有注册商标或微软的商标。
在这里的实际的公司和产品的名字可能是他们各自的商标。
目录简介 (1)商业难题的考查 (2)问题1:简单而完整的数据视图 (2)解决方案:分离的语义视图 (2)问题2:数据市场和局部应用程序的整合 (3)数据市场整合 (3)处理局部应用程序 (3)问题3:智能商业数据视图 (4)解决方案:高级维度建模 (5)问题4:本地化分析技术 (5)解决方案:内置的数据和元数据翻译及币种换算 (5)问题5:实时BI (6)解决方案:恰当的信息,恰当的格式,恰当的时机 (7)总结 (7)简介大多数情况下,厂商们发现他们对顶层应用软件的投资通常导致信息井变得难以集成和解析。
SQL Server 2005终于在2005年底震撼推出,面对这款微软有史以来最强大的数据库平台,您是否想急于了解她在那些方面有了长足的进步,那些新的特性又正是您企业所期待的关键功能?通过这个课程系列,我们将随您一起走近SQL Server 2005,了解她在可管理性、可用性、安全性、可伸缩性、集成性以及商业智能方面的强大功能和诸多特性,为您熟悉SQL Server 2005,并在企业中构建基于SQL Server 2005的商业解决方案提供实用的参考。
本次课程将会是一场规模宏大的盛宴,历时半年通过3大分系列的46次课程,从“技术概览”、“基础应用”、“高级应用”三个方面逐级递进,带您领略SQL Server 2005的无上技术美味。
下面是课程美食地图,助您了解此系列的课程分布。
点击选择每个模块,您将了解各个分系列课程的详细内容。
从2006年3月30日开始,至2006年4月28日,我们将为您送上SQL Server 2005盛宴系列的第一个分系列课程“数据库管理技术概览”,并将在今后的每月为您奉上1-2个模块,让您能够循序渐进的深入了解SQL Server 2005。
更多精彩课程,期待您的品尝!。
SQL Server 2005数据挖掘与商业智能完全解决方案·1.1 企业经营管理活动对商业智能的需求·1.2 商业智能的技术构成·1.3 部署商业智能·2.2 设计和使用ETL·2.3 创建OLAP数据立方·2.4 创建和使用报表本章导读:“工欲善其事,必先利其器”。
信息技术在商业领域应用的卓越成效在经过近20年的信息化建设已经初步显现。
企业通过MIS(管理信息系统)快速收集和处理商业信息,通过ERP(企业资源计划系统)准确监控信息流,从而对企业经营的各个方面进行管理。
这些系统除了本身的应用外,还积累了大量的数据,如来自业务系统的订单、库存、交易账目、客户和供应商资料,来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据,这是一笔宝贵的财富。
信息系统应该具备把这些庞大的数据转化为知识,进而辅助企业经营决策,甚至自动生成商业决策的能力,这就是商业智能。
信息系统正在经历着“MIS →ERP→BI”的演变过程。
本章将对于商业智能涉及到的相关技术,如数据仓库(DW)、数据挖掘(DM)等进行概要地分析,同时从理论上明确商业智能在企业经营决策过程中的价值发挥原理。
本章先简单地说明企业经营管理活动对商业智能的需求,从而明确实施BI的原因,解决W hy的问题;再阐述商业智能的技术构成,大概了解如何实现商业智能,解决What和How 的问题;最后列举一些实际部署的部署商业智能项目结果,解决What Effect的问题。
1.1 企业经营管理活动对商业智能的需求信息系统在企业管理中的应用不仅随着管理理念的更新而发展,还在很大程度上依赖于企业商业信息的存储量。
随着社会节奏的加快,企业信息积累越来越多,而商业知识的需求却得不到满足,于是就提出了商业智能的概念。
这一节将对商业智能系统应用的深层原因进行探讨。
1.1.1 企业经营活动面临的挑战企业经营活动包括采购、生产、销售、商贸磋商、价格比较、经营决策、营销策略、推销促销、公关宣传、售前/售后服务、客户关系和咨询服务等。
这些活动的背后实际上有3种“流”在支持着整个企业的运转:物流、资金流和信息流。
“物流”是从原材料和零配件到成品整个物资流通的过程。
它将运输、仓储、加工、整理和配送等整个物资流通过程通过信息有机结合,形成完整的供应和需求链。
“资金流”是资金在企业内部和企业之间的流动过程。
它包括融资、应收账款和应付账款的管理等,涉及财务的各个方面。
“信息流”是企业管理的各个环节产生的信息的规律性流动。
如业务运作过程产生的单据及其处理过程;经营管理过程中的成本、收入、利润报表及其相互关联;战略决策规划过程中的产品结构及市场定位信息;企业的经营目标和策略信息等。
实际上,每个时期的企业经营活动过程都可以抽象出这“三流”。
只不过传统企业管理由于企业规模和经营过程产生的信息量等还不是十分庞大,所以对这“三流”没有进行深入的研究和给予更多的重视。
然而,信息时代的企业经营活动在这3个方面却面临着两个很大的挑战。
1.商务工具的变迁技术总是不断地影响着商务模式。
自从人类社会有商业活动以来,采用新进有效的商业工具往往能在竞争中先发制人。
这里不讨论生产工具和交通工具,只着眼于和商业智能关联的信息工具来看现代企业在这方面面临的这一挑战。
每一次科学技术的进步,总是会在很短的时间内在商业领域得到普遍的应用。
图1-1的上面部分展示了从电报到互联网在不同阶段有代表性的商业工具,伴随着商业工具的变迁,人们处理信息的能力在工具的帮助下变得越来越强大,信息量的增长也越来越快。
在此图的下半部分是与商业工具的发展相对应的信息量的增长。
可以说,对商业活动影响最大的工具是计算机在商业领域的应用,它标志着商业活动真正进入信息化的时代,这时候的信息处理方式以数据库为主。
现阶段企业的很多商业活动的信息化都还属于这个阶段。
互联网在商业活动中的应用不仅从某种程度上改变了传统的商业模式,在信息增长和信息处理方式上也发生了前所未有的变化。
在这个阶段,伴随着网络的使用,商业信息呈爆炸状增长,企业从以前使用的系统中继承了相当多的数据,如从ERP中继承的生产运作相关信息、从CRM中继承的客户信息和从HR系统中继承得到的员工信息等,这些信息只有共同作用才能发挥其效益,故信息处理方式以数据仓库和数据集市等为主。
图1-1 商业工具的发展及其相对应的信息量正是由于信息工具的变化和信息量的不断增长,人们针对这些不同时期的不同信息类型一直在探索管理好它们的方法,也伴随着产生了一些工具。
在使用电报、电话和传真等商业工具的阶段,信息量还不是很庞大,人们自身的能力还可以处理它们,这段时间出现的都是手工处理信息的方法,如文件的编目和文件系统的管理等。
计算机的商业应用出现后,信息处理的方式发生了革命性的变化,先是商业单据的电子化,即EDI(电子数据交换),然后是M IS(管理信息系统)的广泛应用。
随着信息的持续增长,一些新的商业信息处理方式被提了出来,如企业资源规划、供应链管理、客户关系管理和人力资源管理等,对应的商业信息处理工具分别有ERP、SCM、CRM和HR等。
这一过程如图1-2所示。
图1-2 信息管理工具的演变在这个变化的时代,能适应变化并趋利避害者才能在竞争中取得胜利。
对于企业经营管理来说,这既是机遇又是威胁。
新的商业工具在成本和效率等方面都有优势,如何使新的商业工具得到使用并使企业快速适应使用这种工具的环境,扬其长避其短,这是企业经营活动面临的一个重要挑战。
2.信息囚笼、信息孤岛和信息对抗的问题企业里有大量的分布于各个计算机系统的数据,人们使用信息处理工具的目的就是希望把这些数据进行整理和分析,找到其中有价值的信息,为企业的经营决策提供依据。
但是实际情况往往和这个愿望大相径庭,在现有的信息传统中,存在着信息化系统与传统业务系统脱节、信息化各子系统脱节、信息化整合传统资源脱节的“三脱节”现象,这直接导致了企业信息囚笼、信息孤岛和信息对抗的问题。
在信息化过程中,企业积累了大量的数据,包括生产运作、客户、产品和销售等方面,但这些数据却被深埋在单独的计算机系统中未加以或难以运用,其潜力也不能发挥出来。
而另一方面,企业在维护这些计算机设备和数据库系统上进行了可观的投资,很多管理者甚至不无感慨地说:“在信息系统上的投资就像一个黑洞,花了很多钱,却不见成效”。
不仅丰富的数据被深埋着,企业自身好像也被这些系统套着,这就是信息的囚笼现象。
系统间的相互交互、兼容和集成问题是另一个重要的问题。
信息化有一个从初级阶段到中级阶段,再到高级阶段的发展过程。
在计算机应用的初级阶段,人们容易从文字处理、报表打印开始使用计算机,进而围绕一项项业务工作,开发或引进一个个应用系统。
这些分散开发或引进的应用系统,一般不会统一考虑数据标准或信息共享问题,如某企业财务管理用“管家婆”,生产运作用“用友”,销售管理用“金蝶”,客户关系管理和人力资源管理自己开发,这样,各个系统之间的数据很难进行交换。
信息系统往往被其所属的部门隔绝,决策者很难得到一个基于对大量数据进行运算后得到的企业经营运作总体图景,这种现象就称为“信息孤岛”。
企业中的信息流、资金流和物流应该能够相互验证,协调一致,但由于数据的分散和不兼容性,不同部门也有各自不同的体制,这样导致信息流所反映的资金流和物流的情况在很多时候还存在矛盾,这必然会导致信息之间的相互对抗。
如何解决信息囚笼、信息孤岛和信息对抗的问题是现代企业经营管理中面临的又一个挑战。
虽然进行信息系统建设非常麻烦,但却不能放弃。
正如不能因为火车压死过人就不使用火车一样,决不能因为存在缺陷就拒绝新思想新技术的使用,应该想办法去消除信息孤岛、信息囚笼和信息对抗,趋利避害方能有所成。
实际上在本书的姐妹篇《SQL Server 2005数据库管理与应用高手修炼指南》中的最后一章,已经简单地阐述了从数据到智能的相关理论,那么在这里,需要解决的问题就是从现有系统中的数据出发,如何得到能真正辅助商业活动的智能,进而转化为利润,也就是完成信息系统的“数据→信息→知识→利润”转化过程。
在《SQL Server 2005数据库管理与应用高手修炼指南》一书中,笔者详细地论述了3个相关问题:数据、信息、知识和智慧有何区别;一般情况下数据如何经由信息和知识生成智慧;基于数据库系统的智慧是如何产生的。
本书将在以上问题的基础上进一步探讨由数据转化为商业智能后如何发挥其作用,即商业活动决策中的信息需求问题,在此基础上才能明确一个提供商业智能的系统到底应该包含哪些功能。
1.1.2 企业决策实现过程的信息需求管理就是决策,决策需要信息。
决策过程实际上就是一个信息输入、信息输出及信息反馈的循环过程。
原来的决策支持系统,现在流行的商业智能,其目的都是为了辅助决策,让管理者从拍脑袋做决策到依据数据和事实做决策。
这些依赖的数据和事实来源于两个方面,一是来源于竞争环境,这包括内部信息源(主要是存在于决策主体的经验信息)和外部信息源(主要是决策主体和咨询机构从社会中通过各种渠道获取的信息),另一方面来源于企业多年信息化建设中积累的数据库信息。
对于第1个方面,信息的非结构化特征决定了其随意性和不确定性,这是决策理论中研究的问题,而对于第2个方面的信息,即使用存在于数据库中的信息来辅助决策的问题,就是可以通过商业智能从技术上来得到很大程度的解决。
要基于计算机辅助决策的软件系统(商业智能系统就是其中最典型的代表)进行决策,需要经过5个步骤:1.决策信息请求(商务查询需求)的发起。
例如,现在某公司的决策层次年度在不同的地区投资的力度,需要知道本年度和前5年华中、华北、华东和华南等区域的销售量和销售额,并且要有很美观的界面和直观的图示来表达这些来源于数据库中的数据,这就为此决策发出了信息请求。
2.调用商业智能应用程序。
决策者可以直接使用原来的系统,如ERP和CRM等来访问相关的销售数据,但是,这些数据往往分散在不同的数据库中,原来的系统也可能并没有提供十分富有个性化的查询需求。
比如,在上述的决策中,原系统可能只提供了所有年度的销售数据,而不会具体到某一年甚至某一个月,那么这时候要满足决策信息需求就必须使用基于数据仓库技术的商业智能应用程序。
3.基于已发布的模型、规则或是策略确定适当的决策。
这一步是用计算机辅助决策的重要步骤。
也是智能化体现的地方。
决策(特别是结构化决策)是有一定规律的,这些规律可以从以往的决策过程或者从以往的数据中抽象获得,把抽象得到的这些规律放在经过特别组织的库中,可以构成模型库、规则库和策略库,智能决策可以在这些库的基础上获得。
4.发布决策。
决策最终是人的行为,计算机辅助了决策过程中信息的提取和规律性决策的结果,但最终的决策行为还是掌握在决策者自己的手中。