数据挖掘与商务智能复习资料
- 格式:pdf
- 大小:605.88 KB
- 文档页数:11
1.了解商务智能的定义与大数据的四个基本特征;答:商务智能是企业利用数据仓库DW、数据挖掘DM、在线分析处理OLAP、决策支持系统DSS等现代信息技术对企业生产、经营过程中产生的大量结构化和非结构化数据进行收集、整理、分析;形成知识或情报;以辅助企业做出正确的决策、采取有效的商务行动、优化商务流程、全面提升商务绩效的工具、方法和技术的统称..大数据特征: 4个V2.理解商务智能系统的5层结构商务智能系统结构大致分为五层:①数据源层:也可称作操作型数据层;是整个数据仓库的基础;提供了整个系统最原始的数据②数据获取层:也可称作数据转换层;主要是把数据源层的数据通过ETCL过程转换到数据仓库中③数据存取层:该层是按主题进行分析和对相关的数据进行挖掘的数据源;包括每一个按主题进行分类的数据集市或专门用于数据挖掘的数据仓库④数据分析服务层:该层是数据存储和前端分析工具的桥梁⑤前端展现层:用户界面3.理解操作型与分析型系统分离的必要性以及他们的特征4.理解维度爆炸给数据挖掘带来的困难数据过高的维度会给计算带来麻烦;在数据挖掘处理时;它会耗费很多的处理时间和内存容量..数据的高维度还使得数据间的关系也不容易察觉;增加了数据的无关属性和噪音点..5.掌握数据仓库的定义并理解其四个方面的特征数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境..数据仓库研究和解决从数据库中获取信息的问题..数据仓库是为支持管理决策建立的;面向主题的、集成的、随时间变化的、相对稳定的数据集合..滔注:我觉得写括号里的会好一点四方面特征:①面向主题:主题是指用户使用数据仓库进行决策时所关心的重点忙面..②集成性:在数据进入数据仓库之前;要进过统一于综合;将多个异源数据集成在一起..这一步是数据仓库建设中最关键、最复杂的一步..③时变性:数据仓库随时间变化不断增加新的数据..④相对稳定性:数据仓库反映的是历史的内容;而不是联机数据;主要供企业决策分析之用..6.掌握数据挖掘的定义并描述其主要特征数据挖掘定义从大量的、不完全的、有噪声的、模糊的、随机的数据中;提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程..数据挖掘是从大量数据中寻找其规律的技术..主要步骤1数据准备:从各种数据源中选取和集成用于数据挖掘的数据;2规律寻找:用某种方法将数据中的规律找出来;3规律表示:用尽可能符合用户习惯的方式将找出的规律表示出来..7.掌握Minkowski距离;并熟练计算l1;l2;l无穷normL1norm当r=1;城市街区也称曼哈顿、出租车、L1范数距离;L2norm当r=2;欧几里得距离;L∞norm当r=∞;上确界距离;这是对象属性之间的最大距离..8.理解Hunt’s算法的基本过程通过将训练记录相继划分成较纯的子集;以递归方式建立决策树..设Dt是与节点t相关联的训练记录集;而Y={ y1;y2;…;y c}是类标号;Hunt算法的递归定义如下:1如果Dt中所有记录都属于同一个类yt;则t是叶节点;用yt标记..2如果Dt中包含属于多个类的记录;则选择一个属性测试条件;将记录划分成较小的子集..对于测试条件的每个输出;创建一个子女节点;并根据测试结果将Dt中的记录分布到子女节点中..然后;对于每个子女节点;递归地调用该算法..9.掌握吉尼系数、熵的定义;会计算其最大值与最小值;理解信息增益在构造决策树时的意义基尼系数、熵是度量不纯度的方法GINI系数和熵都是越小;代表所分的节点属性越纯;最小可取到0;表示这个节点中只有一个类..当一个节点中有n个父节点;而且能分出n个子节点;GINI系数取到最n 滔注:那个2是角标;不是log2n 大值;为1-1/n. 熵也取到最大值 log2基尼值的性质:越大越不纯;越小越纯;0最纯;1-1/n最不纯..b.子节点基尼值c.最大值、最小值最小值表示最纯;最大值表示最不纯熵在信息领域熵被用来衡量一个随机变量出现的期望值..熵是对信息的不确定性的度量..熵越低;意味着传输的信息越少..熵的性质:熵是衡量节点一致性的函数..熵大于等于0;当且仅当p1=p2=……pn时;熵最大;纯的节点熵是0.信息增益当选择熵作为公式的不纯性度量时;熵的差就是所谓的信息增益..信息增益描述了当使用Q进行编码时;再使用P进行编码的差异..通常P代表样本或观察值的分布;也有可能是精确计算的理论分布..Q 代表一种理论;模型;描述或者对P的近似..当纯度高达1时即只有一种数据类型;熵最小;为0;当其中的各类数据均匀分布时;熵最大;为-log2pj|t..10.理解了解最邻近分类的基本思想;邻近分类的前提条件与分类过程近邻分类法是基于类比学习;即通过将给定的检验元组与和它相似的训练元组进行比较来学习..训练元组用n个属性描述..每个元祖代表n维空间的一个点..这样;所有的训练元组都存放在n维模式空间中..当给定一个未知元组时;近邻分类法搜索模式空间;找出最接近未知元组的k个训练元组..这k个训练元组是未知元组的k个“最近邻”..一句话概述:点x的k-最近邻分类就是离点x的欧式距离最近的k个点的集合..三个前提条件:训练集存在内存中;给定距离度量指标;给定K值分类过程:1 计算未知点与其他训练集的距离2找到K个最邻近的邻近组3用邻近组的分类标签来决定未知点所在组的标签..11.了解分类中的过拟合及产生的原因过度拟合数据当决策树变大时;测试误差会越来越小;而训练误差会越来越大;测试集产生的决策树与实际会不符..产生的原因(1)噪声导致的过分拟合(2)决策树的复杂程度超过了需要的程度;会产生过度拟合(3)训练误差的减小已经对结果没有更多意义但却依然在计算;会产生过度拟合(4)没有更多的属性来减小样本误差;会产生过度拟合12.理解关联规则及支持与置信度的定义;并熟练计算支持度与置信度关联规则关联规则是形如X→Y的蕴涵式;其中;X和Y都是事务数据集..关联规则的强度可以用它的支持度和置信度度量..支持度Support事务数据库中既包含X又包含Y某个项集的事务占事务总数的比例;置信度Confidence在所有包含X的事务中包含Y的事务所占比例.. 13.理解Apriori性质及其意义Apriori如果一个项集是频繁的;那么它的所有子集都是频繁的..相反;如果一个项集是非频繁的;则它的所有超集也一定是非频繁的..意义利用该性质;通过减少搜索空间;来提高频繁项集逐层产生的效率..14.理解FP-Growth算法克服了Apriori算法的那些不足1.减少了扫描数据库的次数;只用扫描两次2.候选项变少;不会产生那么大的候选项集15.给定一个交易数据库与支持度阈值;能熟练运用Apriori算法与FP-Growth算法挖掘频繁项集Apriori算法计算频繁项集步骤1、第一次扫描;列出一项集;并计数..2、去除低于阈值的项集;组合出二项集;扫描计数..3、重复步骤2;依次组合出N项集;直至项集计数小于阈值;结束..注意Apriori定义:如果一个项集是非频繁的;则它的所有超集也一定是非频繁的..所以在组合项集时一定要注意;新组合出的项集不应包含已经被“淘汰”的项集..FP-Growth算法计算频繁项集步骤一、扫描一次数据集;确定每个项的支持度计数..丢弃非频繁项;将频繁项按照支持度的递减排序;生成频繁项集头表..注意事项:1、降序排列..2、MinSup的存在步骤二、第二次扫描投影;按照{f;c;a;b;m;p}的顺序逐条对应写出剔除非频繁项后的频繁集;注意:{f;c;a;b;m;p}的顺序确定后就不在变动;这在下面的步骤中起关键作用步骤三、并开始构建FP树..按照事务ID号的顺序;将处理好的频繁项集映射创建FP树;并在对应节点计数..步骤四、构建每个对象的条件模式基;建议从频率低的节点开始..注意:不要忘了f对应的{}..步骤五、列出下表;对照MinSup剔除低于阈值的项..步骤六、针对每一项建立条件FP树..下面用m项作例子;如下..步骤七、找出频繁项集..16.理解关联规则产生时所采取的优化策略老师说直接距离就可以比如;L = {A;B;C;D}:cABC→ D≥ cAB→ CD ≥ cA→ BCD为什么分子不变;都是ABCD;分母越来越大17.理解K-means算法的内容并讨论该算法之不足K-means K均值算法流程1、随机选择K个对象;每个对象代表一个簇的初始均值或中心2、对剩余的每个对象;根据它与簇均值的距离;将他指派到最相似的簇..3、计算每个簇的新均值4、回到步骤2;循环;直到准则函数收敛..不足之处1、只有当簇均值有定义的情况下;K-means方法才能够使用..2、用户必须首先给定簇数目3、不适合发现非凸形状的簇;或者大小差别很大的簇..4、对噪声和离群点数据敏感..18.理解凝聚聚类算法的基本过程;并分析算法时间与空间复杂度步骤:1计算距离矩阵2 让每个数据点成为一个群集3;循环开始4; 合并两个距离最近的群集5; 更新距离矩阵6;直到只剩下一个群集时间复杂度:N2倍空间复杂度:N3倍19.理解DBSCAN算法将待聚类的点分为哪几类;分解解释之三类:中心点:中心点领域范围内的点的个数≥临界值MinPts边界点:边界点领域范围内的点个数小于临界值;但是它在中心点邻域范围的边界上..噪音点:既不是中心点又不是边界点的点..噪音点领域范围内的点个数小于临界点..20.理解DBSCAN算法的思想及它克服了K-means算法的哪些不足基于密度的聚类只要一个区域中的点的密度大于某个域值;就把它加到与之相近的聚类中去..克服基于距离的算法只能发现“类圆形”的聚类的缺点;可发现任意形状的聚类;且对噪声不敏感..但是;其计算密度短语的计算复杂度大;需要建立空间索引来降低计算量;且对数据维数的伸缩性较差..DBSCAN Density-Based Spatial Clustering of Applications with Noise具有噪声的基于密度的聚类应用..算法步骤1、通过检查数据集中每个对象的ε-邻域可以理解为半径来寻找聚类2、如果一个点P的ε-邻域包含多于MinPts最少包含点数个对象;则创建一个P作为核心对象的新簇..3、反复地寻找从这个核心对象直接密度可达的对象;这个过程可能涉及一些密度可达簇的合并..4、当没有新的点可以被添加到任何簇时;过程结束..评价1、适合发现任意形状的簇..2、易于发现噪声..3、无需设置K 值..4、需要输入ε、MinPts..对照着14题理解两种算法21.理解SSE指标对聚类的意义..SSE即Sum of Squared Error ;错误的平方和..意义1、SSE可以很好的用于比较两个聚类或两个簇..2、也可以用于估计簇的数目..观察增加K即簇的数目即可降低SSE..。
东软商务智能数据挖掘考试题库商务智能复习题一、名词释义1.数据仓库:是一种新的数据处理体系结构,是面向主题的、集成的、不可更新随时间(不同时间)变化的(稳定性)和数据集为企业决策支持系统提供了所需的综合信息。
2.olap:olap是在oltp的基础上发展起来的,以数据仓库为基础的数据分析处该理论是对共享多维信息的快速分析。
它是专门为支持复杂的分析操作而设计的,重点是为分析师和高级管理人员提供决策支持。
3.粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度影响存数据仓库中的数据量会影响数据仓库能够回答的查询问题的详细程度。
4.数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐包含人们事先不知道的潜在有用信息和知识的过程。
5.OLTP:OLTP是在线事务处理的缩写,OLAP是在线分析处理的缩写。
前者的数量很大据库为基础的,面对的是操作人员和低层管理人员,对基本数据进行查询和增、删、改等处理。
6.ROLAP:基于关系数据库的存储模式。
在这种结构中,多维数据被映射到二维关系表,通常采用星型或雪花型架构,由一个事实表和多个维度表构成。
7.聚类:是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得同一簇中的对象具有很高的相似性,而不同簇中的对象则有很大的差异。
8.决策树:它是一种树结构,使用样本的属性作为节点,属性的值作为分支。
一分钟类规则挖掘的典型方法,可用于对新样本进行分类。
9.频繁项集:指满足最低支持的项集。
这是挖掘关联规则的基本条件之一。
10.支持:规则a的支持→ B指a和B在所有事件中发生在同一地点的概率,即p(a∪b),是ab同时发生的次数与事件总次数之比。
支持度是对关联规则重要性的衡量。
11.可信度:规则a的可信度→ B指同时包含a项目集和B项目集的条件概率p(b|a),是ab同时发生的次数与a发生的所有次数之比。
可信度是对关联规则的准确度的衡量。
第一章绪论什么是数据挖掘,什么是商业智能从大型数据库中提取有趣的(非平凡的、蕴涵的、先前未知的且是潜在有用的)信息或模式。
商业智能是要在必须的时间段内,把正确有用的信息传递给适当的决策者,以便为有效决策提供信息支持。
分类算法的评价标准召回率recall =系统检索到的相关文件数/相关文件总数准确率precision(查准率)= 系统检索到的相关文件数/系统返回的文件总数第二章数据仓库什么是数据仓库是运用新信息科技所提供的大量数据存储、分析能力,将以往无法深入整理分析的客户数据建立成为一个强大的顾客关系管理系统,以协助企业制定精准的运营决策。
数据仓库的基本特征1面向主题2整合性 3长期性 4稳定性第三章数据挖掘简介数据挖掘的一般功能1分类2估计3 预测4关联分类5聚类数据挖掘的完整步骤1理解数据与数据所代表的含义2获取相关知识与技术3整合与检查数据4取出错误或不一致的数据5建模与假设6数据挖掘运行7测试与验证所挖掘的数据8解释与使用数据数据挖掘建模的标准CRISP-CM跨行业数据挖掘的标准化过程第四章数据挖掘中的主要方法基于SQL Server 2005 SSAS的十种数据挖掘算法是什么1.决策树2.聚类3.Bayes分类4.有序规则5. 关联规则6.神经网络7.线性回归8. Logistic回归9. 时间序列10. 文本挖掘第五章数据挖掘与相关领域的关系数据挖掘与机器学习、统计分析之间的区别与联系(再看看书整理下)32页处理大量实际数据更具优势,并且使用数据挖掘工具无需具备专业的统计学背景。
数据分析的需求和趋势已经被许多大型数据库所实现,并且可以进行企业级别的数据挖掘应用。
相对于重视理论和方法的统计学而言,数据挖掘更强调应用,毕竟数据挖掘目的是方便企业用户的使用。
第六章SQL Server 2005中的商业智能商业智能(BI)的核心技术是什么数据仓库和数据挖掘第七章SQL Server 2005中的数据挖掘Microsoft SQL Server Management Studio提供了两个用于管理数据库项目(如脚本、查询、数据连接和文件)的容器是什么?1项目 2解决方案第八章SQL Server 2005的分析服务什么是UDM?统一维度模型第九章SQL Server 2005的报表服务什么是报表服务,其功能是一个基于服务器的完整平台,可创建、管理和交付传统报表和交互式报表。
1、联机分析处理(on line analytical processing ,OLAP)从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。
2、数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。
3、数据仓库的特点:(1)数据仓库是面向主题的(2)数据仓库的整合性(3)数据仓库数据的集成性(4)数据仓库的稳定性(5)数据仓库的长期性(6)数据仓库是随时间变化的(7)数据仓库的数据量很大(8)数据仓库软、硬件要求较高4、数据库与数据仓库的关系:5、数据集市(data marts)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。
为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject data)。
数据集市的两种架构:(1)、从属数据集市:它的数据直接来自于中央数据仓库。
一般为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可以很好地提高查询的反应速度。
(2)独立数据集市:它的数据直接来源于各生产系统。
许多企业在计划实施数据仓库时,往往出于投资方面的考虑,最后建成独立数据集市,用来解决个别部门比较迫切的决策问题。
6、数据挖掘是在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法。
7、数据挖掘与OLAP的差异:(1)、OLAP是决策支持领域的一部分。
OLAP分析师是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。
(2)、数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。
商务智能考点内容一、商务智能内容●数据仓库、数据挖掘、OLAP二、数据挖掘内容●算法、数据库技术、可视化技术、其他、机器学习、模式识别、统计分析三、知识包括什么●显性:规范化、系统化●隐性:个人思想和经验四、OTAP和OLAP区别●特征、面向、关注、功能五、数据仓库的特点●时变性、稳定性、决策支持、集成性、面向主题●主题以表存储,采用同一套编码规则、定时增加删除、实时捕捉快照、决策支持六、数据仓库流程●获取、管理、分析、展现七、数据仓库可运用于●投资组合分析、利润成本分析、资产分析八、元数据概念●是对于源数据的说明,包括名称、定义、来源、创建时间等九、数据仓库模型及联系和区别●物理模型、逻辑模型、概念模型●物理模型是逻辑模型在数据仓库中的实现十、粒度概念●粒度说明数据仓库中数据综合程度的高低。
●粒度越小,综合程度越小,可查询的种类越多;粒度越大,综合程度越高,查询的效率越高●粒度小的数据存储在低速存储器,粒度大的数据存储在高速存储器十一、OLAP概念●OLAP是针对特点问题的数据的联机访问和分析,它通过信息的可能的观察形式来进行快速的、稳定一致的、交互性的存取。
允许管理决策人员对数据进行深入观察。
十二、OLAP特点●快速性,5秒内对请求做出回应●可分析性,系统必须能够处理和应用有关的逻辑分析和统计分析●多维性,系统必须提供对数据的多维视图及分析●信息性,获得信息和管理信息十三、OLAP操作●对二维数据切片,三维数据切块●钻取,包括下钻和上卷●旋转十四、MOLAP特点●对数据进行预处理,性能好十五、MOLAP和ROLAP比较●MOLAP把多维实视图在概念上看成一个超立方体,物理上为一个多维数组,而ROLAP以表的形式存储实视图。
ROLAP更加灵活、节省空间,MOLAP在性能和管理上更加优越。
十六、数据仓库和数据库中数据的比较●数据仓库:长期框架、静态、定期更新、数据驱动●数据库:短期框架、快速变化、实时更新、事件驱动十七、BP神经网络训练步骤●分析业务问题●选择训练样本集,对输入值和输出值进行预处理●利用经验确定网络的拓扑结构,对神经元的权值和偏置进行初始化●利用反向传播等算法训练网络,逐渐缩小网络权值误差以达到最佳值●用测试集检查网络分类或预测质量●预测未知样本的分类十八、二元变量相异度计算●对称性:d(X1,X2)=b+c/a+b+c+d●非对称性:d(X1,X2)=b+c/a+b+c十九、支持度和置信度●多大可能购买集X中商品的顾客同时也购买集Y中商品二十、回归分析的步骤●确定自变量和因变量●绘制散点图,观察大致关系●求回归系数,建立回归模型●检验回归模型●预测未来情况二十一、Web挖掘概念●主要是处理文本、图形、图像等半结构化、非机构化数据。
商务智能复习纲要第1章 商务智能概述1.1 商业决策需要商务智能一、数据、信息和知识1、数据:符号、事实和数字 信息:有用的数据 关系:信息是经过某种加工处理后的数据,是反映客观事物规律的一些数据。
数据是信息的载体,信息是对数据的解释。
知识:对信息内容进行提炼、比较、挖掘、分析、概括、判断和推论。
2、决策离不开信息、知识①决策需要信息,更离不开知识;知识更多地表现为经验--学习的结晶;学习的过程是不断地对信息加工处理;信息的收集、加工、传输与利用贯穿着决策各阶段的工作过程。
②信息已成为企业经营中重要性仅次于人才的第二大要素。
③决策=信息+经验+冒险④商务智能是对企业信息的科学管理。
3、商务智能支持商业决策商务智能如何创造知识和价值1.2 商务智能简介商务智能这一术语1996年由 Gartner 公司的分析师Howard Dresner 首次提出,他提出商务智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。
一、商务智能概念事物运动 数据 信息记录解释商务智能是整合了先进信息技术与创新管理理念的结合体,集成了企业内外的数据,进行加工并从中提取能够创造商业价值的信息,面向企业战略并服务于管理层、业务层,指导企业经营决策,提升企业竞争力,涉及企业战略、管理思想、业务整合和技术体系等层面,促进信息到知识再到利润的转变,从而实现更好的绩效。
①先进信息技术:商务智能是多项技术的综合应用;②集成了企业内外的数据,进行加工并从中提取能够创造商业价值的信息:商务智能的层次;③企业战略:商务智能服务于企业战略;④管理层、业务层:商务智能用户多样性;⑤更好的绩效:商务智能提升企业绩效。
二、商务智能的价值1、在商务智能背后有一些商业驱动力,如:①增加收入,减少费用和更有效地竞争的需求。
②管理和模拟当前商业环境复杂性的需求。
③减少IT费用和利用已有公司业务信息的需求。
2、商务智能的价值①制定合适的市场营销策略;②改善顾客智能;③经营成本与收入分析;④提高风险管理能力;⑤改善业务洞察力;⑥提高市场响应能力。
商务智能复习资料第一章商务智能概述1、4C(1)信息技术是指获取、传递、处理和存储、以及利用信息的技术。
(2)4C内容:感测技术(是信息的采集技术,对应于人的感觉器官);通讯技术(是信息的传递技术,对应于人的神经系统);计算机技术(是信息的处理和存储技术,对应于人的思维器官);控制技术(是信息的使用技术,对应于人的执行器官)。
(3)信息技术工具:信息处理技术和通信技术是最重要的两种。
2、定义商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累积商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升个方面商务绩效,增强综合竞争力的智慧和能力。
3、商务智能的基本功能:个性化的信息分析;预测;辅助决策。
5、商务智能的作用:理解业务;衡量绩效;改善关系;创造获利机会。
6、商务智能的体系结构:是指通过识别和理解数据在系统中的流动过程和数据在企业中的应用过程来提供商务智能系统的主框架。
7、BI与交易系统的关系:系统设计的区别数据类型的区别8、数据、信息、知识、智能之间的关系(1)数据:孤立的客观事实、文字、符号,适合保存、传递和处理。
TO知识:是知识的表现形式,是知识的来源。
TO信息:数据的价值通过其携带的信息表现。
(2)信息:人们对数据进行系统的采集、组织、整理、分析的结果,目的是使数据结构化、有序化。
TO数据:信息是数据的含义,是对数据的解释。
TO知识:信息是知识的表现形式。
(3)知识:是人们对自认识而总结出来的规律、经验。
第二章数据仓库导论1、什么是数据仓库数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。
2、数据仓库的特点:面向主题;集成;稳定;随时间而变化;数据量大;软硬件要求高。
3、数据仓库与传统数据库的区别4、OLTP与OLAP的区别5、数据仓库的用户包括(1)信息使用者的数据仓库应用:以一种可以预测的、重复的方式使用。
闭卷考试,时间120分钟,五种题型:选择题(10分)、判断题(10分)、名词解释题(30分)、简答题(30分)、论述题(20分)第1章商务智能基本知识(1)商务智能的概念、价值、驱动力。
概念:商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力-王茁专著《三位一体的商务智能》. IBM商务智能解决方案远远不只是数据和技术的组合,BI帮助用户获得正确的数据,发现它的价值,并共享价值.价值:To support decision making at all levels of business management based on the facts and (scientific)predictions of current and future business situations that are obtained from intelligent analysis of historical business data。
支持各级决策基于事实和商业管理的(科学)的预测当前和未来的业务情况下获得历史业务数据的智能分析。
Business decisions made with BI support are more—Correct 恰当—Accurate 准确-Objective 客观-Timely 及时驱动力:在商务智能背后有一些商业驱动力,例如:增加收入,减少费用和更有效地竞争的需求。
管理和模拟当前商业环境复杂性的需求。
减少IT费用和利用已有公司业务信息的需求。
(2)商务智能系统的功能、主要工具.功能:在商务智能背后有一些商业驱动力,例如:增加收入,减少费用和更有效地竞争的需求。
管理和模拟当前商业环境复杂性的需求。
减少IT费用和利用已有公司业务信息的需求.主要工具:第2章商务智能核心技术(1)商务智能系统的架构如何?(2)什么是数据仓库?数据仓库用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一用户接口,完成数据查询和分析。
《商务智能与数据挖掘》简答题部分答案--《商务智能与方法应用》(刘红岩编著)P9●1、什么是商务智能?答:商务智能指用现代数据仓库技术、联机分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。
●4、商务智能系统的主要组成要素有哪些?答:一个商务智能系统通常包含6个主要组成部分:数据源、数据仓库、在线分析处理、数据探查、数据挖掘以及业务绩效管理。
P15●2、商务智能系统成功的关键因素有哪些?答:商务智能系统成功的关键因素主要有5个:业务驱动、高层支持、业务人员和IT人员的合作、循序渐进、培训。
●4、OLTP和OLAP分别代表什么?比较二者之间的不同之处。
答:在线事务处理(OLTP),是数据库管理系统的主要功能,用于完成企业内部各个部门的日常业务操作。
在线分析处理(OLAP)是数据库系统的主要应用,提供数据的多维分析以支持决策过程。
OLTP和OLAP二者的不同之处有:面向的用户;功能的作用;数据库中存储的数据;数据库设计(包括数据库的数据处理方式、使用方式、执行单元、性能指标、事务特性)。
P103●3、构建数据仓库系统的主要阶段?答:数据库项目的开发可以分为6个阶段:项目规划、需求分析、概念设计、ETL 设计、逻辑和物理设计、实现与培训。
1.项目规划阶段主要目的是了解总体需求,界定项目实施的范围,评估项目的必要行和可行性,撰写数据仓库项目的规划文档。
2.需求分析阶段,可进一步详细了解需求,确定分析主题以及相关的维度和度量,了解已有信息系统的功能、结构和模型,确定数据仓库中应该包含的数据,以及相关的数据来源,撰写需求分析说明书。
3.概念设计阶段,可利用概念模型描述数据仓库包含的主要及其关系。
4.ETL设计阶段,包括数据抽取、转换和加载设计三部分。
5.逻辑和物理设计阶段,用于设计数据仓库的逻辑模型和物理模型。
6.实现与培训阶段,包括数据仓库系统的实现和用户使用的培训。
●4、简要说明数据仓库和数据集市的区别和联系。
1、联机分析处理(on line analytical processing ,OLAP)从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。
2、数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。
3、数据仓库的特点:(1)数据仓库是面向主题的(2)数据仓库的整合性(3)数据仓库数据的集成性(4)数据仓库的稳定性(5)数据仓库的长期性(6)数据仓库是随时间变化的(7)数据仓库的数据量很大(8)数据仓库软、硬件要求较高4、数据库与数据仓库的关系:5、数据集市(data marts)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。
为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject data)。
数据集市的两种架构:(1)、从属数据集市:它的数据直接来自于中央数据仓库。
一般为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可以很好地提高查询的反应速度。
(2)独立数据集市:它的数据直接来源于各生产系统。
许多企业在计划实施数据仓库时,往往出于投资方面的考虑,最后建成独立数据集市,用来解决个别部门比较迫切的决策问题。
6、数据挖掘是在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法。
7、数据挖掘与OLAP的差异:(1)、OLAP是决策支持领域的一部分。
OLAP分析师是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。
(2)、数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。
他在本质上是一个归纳的过程。
(3)、数据挖掘和OLAP具有一定的互补性。
8、实施数据挖掘建模的六个阶段及四个层次阶段:(1)、定义商业问题:针对企业问题和企业需求进行了解和确认,针对不同的需求做深入的了解,将其转化为数据挖掘的问题,并拟定逐步构想。
(2)、数据理解:建立数据库和分析数据库(3)、数据预处理:同第二步为数据处理的核心(4)、建立模型:分析已经筛选和净化的数据,采用各种定性和定量技术方法,对既有数据构建模式和模型,替企业解决问题。
(5)、评价和解释:对建立模型的结果进行解释,并对这一模型所带来的商业效果加以评价。
(6)、实施:两种使用方法,第一,提供给分析人员作参考,由他通过察看和分析这个模型之后提出行动方案建议,第二,把此模型应用到不同的数据集上,并不断地检测效果。
层次:阶段、泛化任务、具体任务、操作实例每个阶段由若干泛化任务组成,每个泛化实施若干具体任务,每个具体任务由若干过程实例来完成。
上二层独立于具体数据挖掘方法。
9、商务智能是数据仓库、联机分析处理和数据挖掘等相关技术走向商业应用后形成的一种应用技术。
该技术收集、汇总了与商务活动有关的各种数据,将其集成到数据仓库中。
采用联机分析技术对商务活动进行实时的监控、分析,便于及时采取有效的商务决策,提升商务活动的绩效。
应用数据挖掘技术对描述商务活动的数据进行挖掘,以获取有效的商务信息,从中提取商务知识,为企业商业发展寻找新的机遇。
10、星型模型与雪花模型的比较:本质相同,都由事实表、维表构成大多数的数据仓库都采用“星型模型”。
星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。
“事实表”中存放大量关于企业的事实数据(数量数据)。
雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。
雪花模型将维表按层次进行了规范化,可以节省空间,使结构清晰,但在查询时涉及更多的连接操作。
星型模型的优点:星型模型存取数据速度快,主要是由于它针对各个维做了大量的预处理,如按照维进行预先的统计、分类、排序等;另外,星型模型比较直观,便于用户理解。
星型模型的缺点:当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。
由于事实表的主键由所有的维表的主键组成,这种维的变化带来数据变化将是非常复杂、非常耗时的。
并且,星型模型的数据冗余量很大。
雪花模型的优点:在一定程度上减少了数据存储量,规范化的结构更容易更新和维护。
雪花模型的缺点:它比较复杂,用户不易理解;浏览内容相对困难;额外的连接降低了查询的性能。
在数据仓库中,通常不推荐使用雪花模型,因为数据仓库对查询性能的要求更高。
Apriori算法:使用候选项集找频繁项集Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。
Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。
首先,找出频繁1-项集的集合。
该集合记作L1。
L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。
找每个Lk需要一次数据库扫描。
该算法利用了一个基本性质:一个频繁项目集的任一子集必定也是频繁项目集,一个非频繁项目集的任一超集必定也是非频繁项目集。
Apriori算法:使用候选项集找频繁项集例一个Apriori的具体例子。
该例基于图6.2的AllElectronics的事务数据库。
数据库中有9个事务,即|D|=9。
Apriori假定事务中的项按字典次序存放。
我们使用图6.3解释Apriori算法发现D中的频繁项集。
Apriori算法:使用候选项集找频繁项集“如何将Apriori性质用于算法?”为理解这一点,我们必须看看如何用Lk-1找Lk。
下面的两步过程由连接和剪枝组成。
1.连接步:为找Lk,通过Lk-1与自己连接产生候选k-项集的集合。
该候选项集的集合记作Ck。
2.剪枝步:Ck是Lk的超集;即,它的成员可以是,也可以不是频繁的,但所有的频繁k-项集都包含在Ck中。
注意,Apriori算法使用逐层搜索技术,给定k-项集,我们只需要检查它们的(k-1)-子集是否频繁。
由频繁项集产生关联规则一旦由数据库D中的事务找出频繁项集,由它们产生强关联规则是直接了当的(强关联规则满足最小支持度和最小置信度)。
对于置信度,可以用下式,其中条件概率用项集支持度计数表示。
其中,support_count(A∪B)是包含项集A∪B的事务数,support_count(A)是包含项集A的事务数。
根据该式,关联规则可以产生如下:(1)对于每个频繁项集l,产生l的所有非空子集。
(2)对于l的每个非空子集s,如果,则输出规则“s=> (l-s)”。
其中,min_conf是最小置信度阈值。
由频繁项集产生关联规则例它基于图6.2中AllElectronics事务数据库。
假定数据包含集l={I1,I2,I5},可以由l产生哪些关联规则?l的非空子集有{I1,I2},{I1,I5},{I2,I5},{I1},{I5}。
结果关联规则如下,每个都列出置信度。
如果最小置信度阈值为70%,则只有2、3和最后一个规则可以输出,因为只有这些是强的。
例:apriori_gen(Lk-1, supmin)算法has_infrequent_subset(c, Lk-1)算法对于气候分类问题进行具体计算有:⒈信息熵的计算信息熵:类别出现概率:|S|表示例子集S的总数,|ui|表示类别ui的例子数。
对9个正例和5个反例有:P(u1)=9/14 P(u2)=5/14H(U)=(9/14)log(14/9)+(5/14)log(14/5)=0.94bit⒉条件熵计算条件熵:属性A1取值vj时,类别ui的条件概率:A1=天气取值 v1=晴,v2=多云,v3=雨在A1处取值晴的例子5个,取值多云的例子4 个,取值雨的例子5 个,故:P(v1)=5/14 P(v2)=4/14 P(v3)=5/14取值为晴的5 个例子中有2 个正例、3个反例,故:P(u1/v1)=2/5, P(u2/v1)=3/5同理有:P(u1/v2)=4/4, P(u2/v2)=0P(u1/v3)=2/5, P(u2/v3)=3/5H(U/V)=(5/14)((2/5)log(5/2)+(3/5)log(5/3))+(4/14)((4/4)log(4/4) +0)+ (5/14)((2/5)log(5/2)+(3/5)log(5/3)) = 0.694bit⒊互信息计算对 A1=天气处有:I(天气)=H(U)- H(U|V)= 0.94 - 0.694 = 0.246 bit 类似可得:I(气温)=0.029 bitI(湿度)=0.151 bitI(风)=0.048 bit⒋建决策树的树根和分枝ID3算法将选择互信息最大的特征天气作为树根,在14个例子中对天气的3个取值进行分枝,3 个分枝对应3 个子集,分别是:F1={1,2,8,9,11},F2={3,7,12,13},F3={4,5,6,10,14}其中F2中的例子全属于P类,因此对应分枝标记为P,其余两个子集既含有正例又含有反例,将递归调用建树算法。
⒌递归建树分别对F1和F3子集利用ID3算法,在每个子集中对各特征(仍为四个特征)求互信息.(1)F1中的天气全取晴值,则H(U)=H(U|V),有I(U|V)=0,在余下三个特征中求出湿度互信息最大,以它为该分枝的根结点,再向下分枝。
湿度取高的例子全为N类,该分枝标记N。
取值正常的例子全为P类,该分枝标记P。
(2)在F3中,对四个特征求互信息,得到风特征互信息最大,则以它为该分枝根结点。
再向下分枝,风取有风时全为N类,该分枝标记N。
取无风时全为P类,该分枝标记P。
这样就得到决策树。