商务智能理论与应用7-关联规则
- 格式:ppt
- 大小:3.40 MB
- 文档页数:35
1 数据挖掘概述1.1数据挖掘的概念数据挖掘(Data Mining) 是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。
它是一个多步骤的对大量数据进行分析的过程,它在自身发展的过程中,吸收了数据库、数理统计和人工智能中的大量技术,是一种利用信息资源的有效方法。
数据挖掘的功能用于指定数据挖掘任务中要找的模式类型。
一般来说数据挖掘任务可被分成描述和预测两类:“描述性挖掘任务刻划数据库中数据的一般特性;预测性任务则在当前数据上进行推断,以进行预测。
”一般通过概念分类描述、关联分析、分类和预测、聚类分析等方法去实现。
1.2 数据挖掘的方法利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。
1.2.1 分类分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。
它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。
1.2.2 回归分析回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。
它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。
1.2.3 聚类分析聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。
它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。
一、选择题(本题共5道小题,每小题2分,共10分)1. 数据仓库是随着时间变化的,下面的描述不正确的是( C )。
A. 数据仓库随时间的变化不断增加新的数据内容B. 捕捉到的新数据会覆盖原来的快照C. 数据仓库随事件变化不断删去旧的数据内容D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合2. 有关数据仓库的开发特点,不正确的描述是( B )。
A. 数据仓库使用的需求在开发初期就要明确B. 数据仓库开发要从数据出发C. 数据仓库的开发是一个不断循环的过程,是启发式的开发D. 在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式3. 在有关数据仓库测试,下列说法不正确的是( D )。
A. 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试。
测试工作中要包括单元测试和系统测试。
B. 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试。
C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试。
D. 在测试之前没必要制定详细的测试计划。
4. 关于基本数据的元数据是指( D )。
A. 基本元数据与数据源、数据仓库、数据集市和应用程序等结构相关的信息B. 基本元数据包括与企业相关的管理方面的数据和信息C. 基本元数据包括日志文件和简历执行处理的时序调度信息D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息6. 下面关于数据粒度的描述不正确的是( C )。
A. 粒度是指数据仓库小数据单元的详细程度和级别B. 数据越详细,粒度就越小,级别也就越高C. 数据综合度越高,粒度也就越大,级别也就越高D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量6. 关于OLAP的特性,下面正确的是:( D )(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)7. 关于OLAP和OLTP的区别描述,不正确的是:( C )A. OLAP主要是关于如何理解聚集的大量不同的数据,它与OTAP应用程序不同。
商务智能复习纲要第1章 商务智能概述1.1 商业决策需要商务智能一、数据、信息和知识1、数据:符号、事实和数字 信息:有用的数据 关系:信息是经过某种加工处理后的数据,是反映客观事物规律的一些数据。
数据是信息的载体,信息是对数据的解释。
知识:对信息内容进行提炼、比较、挖掘、分析、概括、判断和推论。
2、决策离不开信息、知识①决策需要信息,更离不开知识;知识更多地表现为经验--学习的结晶;学习的过程是不断地对信息加工处理;信息的收集、加工、传输与利用贯穿着决策各阶段的工作过程。
②信息已成为企业经营中重要性仅次于人才的第二大要素。
③决策=信息+经验+冒险④商务智能是对企业信息的科学管理。
3、商务智能支持商业决策商务智能如何创造知识和价值1.2 商务智能简介商务智能这一术语1996年由 Gartner 公司的分析师Howard Dresner 首次提出,他提出商务智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。
一、商务智能概念事物运动 数据 信息记录解释商务智能是整合了先进信息技术与创新管理理念的结合体,集成了企业内外的数据,进行加工并从中提取能够创造商业价值的信息,面向企业战略并服务于管理层、业务层,指导企业经营决策,提升企业竞争力,涉及企业战略、管理思想、业务整合和技术体系等层面,促进信息到知识再到利润的转变,从而实现更好的绩效。
①先进信息技术:商务智能是多项技术的综合应用;②集成了企业内外的数据,进行加工并从中提取能够创造商业价值的信息:商务智能的层次;③企业战略:商务智能服务于企业战略;④管理层、业务层:商务智能用户多样性;⑤更好的绩效:商务智能提升企业绩效。
二、商务智能的价值1、在商务智能背后有一些商业驱动力,如:①增加收入,减少费用和更有效地竞争的需求。
②管理和模拟当前商业环境复杂性的需求。
③减少IT费用和利用已有公司业务信息的需求。
2、商务智能的价值①制定合适的市场营销策略;②改善顾客智能;③经营成本与收入分析;④提高风险管理能力;⑤改善业务洞察力;⑥提高市场响应能力。
商务智能洪志令大纲1、关联规则简介2、关联规则的挖掘原理3、关联规则的挖掘过程4、关联规则的兴趣度5、Apriori算法的基本思想6、Apriori算法程序7、Apriori算法的缺陷8、基于FP-tree的关联规则挖掘算法9、关联规则的可视化1、关联规则简介•集合论原理用于关联规则挖掘时,是计算数据项(如商品)集在整个集合中和相关集合中所占的比例,大于阈值(支持度和可信度)时构成数据项之间关联规则。
•关联规则(Association Rule)挖掘是发现大量数据库中项集之间的关联关系。
•从大量商业事务中发现有趣的关联关系,可以帮助许多商业决策的制定,如分类设计、交叉购物等。
•Agrawal等人于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题。
2、关联规则的挖掘原理•关联规则是发现交易数据库中不同商品(项)之间的联系,这些规则找出顾客购买行为模式。
–例1:在购买铁锤的顾客当中,有70%的人同时购买了铁钉。
–例2:年龄在40 岁以上,工作在A区的投保人当中,有45%的人曾经向保险公司索赔过。
•基本原理:设I={i1,i2,…,i m}是项(Item)的集合。
记D为事务(Transaction)的集合(事务数据库),事务T是项的集合,并且T⊆I。
定义1:关联规则是形如A →B的蕴涵式,这里A ⊂I,B ⊂I,并且A ∩B=Φ。
定义2:规则的支持度规则A →B在数据库D中具有支持度S,表示S是D中事务同时包含AB的百分比,它是概率P(AB),即:其中|D|表示事务数据库D的个数,表示A、B两个项集同时发生的事务个数。
定义3:规则的可信度规则A →B具有可信度C,表示C是包含A项集的同时也包含B项集,相对于包含A 项集的百分比,这是条件概率P(B|A),即:其中表示数据库中包含项集A的事务个数。
|D ||AB |P(AB)B) (A ==→S |A ||AB |)|()B A (==→A B P C定义4:阈值在事务数据库中找出有用的关联规则,需要由用户确定两个阈值:最小支持度(min_sup)和最小可信度(min_conf)。
《商务智能方法与应用》课程教学大纲课程代码:040642711课程英文名称:Business intelligence methods and Applications课程总学时:32 讲课:24 实验:8 上机:0适用专业:信息管理与信息系统大纲编写(修订)时间:2017.06一、大纲使用说明(一)课程的地位及教学目标商务智能方法与应用是信息管理与信息系统专业开设的一门培养学生商务智能能力的专业必修课,主要讲授商务智能基本理论、常用的商务智能方法、数据预处理技术、数据仓库概念和技术、多维数据模型技术及OLAP理论及工具,结合实例,介绍了商业智能在行业中的应用状况、案例与主流工具。
本课程在教学内容方面除基本知识、基本理论和基本方法的教学外,通过实例介绍、讨论和实验,着重培养信息时代下学生的商务智能能力。
通过本课程的学习,学生将达到以下要求:1. 掌握商务智能基本理论2. 掌握数据仓库概念和技术3. 掌握常用的商务智能方法4. 掌握多维数据模型技术及OLAP理论及工具5. 熟悉商务智能领域主流产品及工具6. 能够运用本课所学知识,使用商务智能技术辅助业务分析(二)知识、能力及技能方面的基本要求本课程要求学生掌握商务智能的最基本内容,包括商务智能内涵、数据仓库模型、在线分析处理、决策树、聚类、关联分析等知识,初步具备利用商务智能技术进行业务分析的技能。
(三)实施说明1.教学方法:课堂讲授中要重点对基本概念、基本方法的讲解;采用启发式教学、案例教学,培养学生思考问题、分析问题和解决问题的能力;引导和鼓励学生通过实践和自学获取知识,培养学生的自学能力和动手能力;通过实验巩固理论知识。
2.教学手段:在教学中采用电子教案、商务智能系统等先进教学手段,以确保在有限的学时内把课程最基本的内容介绍给学生。
(四)对先修课的要求考虑到商务智能的跨学科性(统计学、人工智能和数据库),学习本课程前需要有一定的统计学、数据库系统等课程基础。
填空题(5*2,10分)
1.商务智能涉及企业战略、组织、功能、技术、业务五个层面。
2.商务智能的价值体现在它应用于管理过程,并对企业的日常运营产生积极的影响。
3.数据仓库是一个面向主题的、集成的、时变得、不可更新的用于进行管理决策的数据集合。
4.数据进入数据仓库主要分为3个步骤提取、清洗和转换、装载。
5.OLAP技术有两个主要的特点:在线性、多维分析。
6.聚类和分类都是对数据进行分组,不同的是分类是有指导的学习,而聚类是无指导的学习。
7.关联规则挖掘是指发现大量数据中的项集之间有趣的关联,它被大量应用于购物篮分析。
8.商务智能的分析应该是自顶向下的。
9.商务智能的实施是为了实现企业的商业目标,所以应该针对企业的关键商业问题来实施。
10.商务智能产品选择的原则是适用性优先、考虑总成本、服务与产品同等重要。