第八章 关联规则(1)
- 格式:ppt
- 大小:1.04 MB
- 文档页数:29
《大数据商业分析》课程教学大纲一、课程基本信息英文名称Big Data and Business Analytics 课程代码课程性质专业选修课授课对象管理科学与工程学分 2.0 学时36主讲教师修订日期2021年9月9日指定教材张瑾,翁张文著《大数据商业分析》,中国人民大学出版社,2021年版二、课程目标(一)总体目标:本课程将围绕商业数据分析这一核心问题介绍三部分内容:一、以目前进行商业数据分析最主要的编程语言Python为主,介绍Python编程语法;二、介绍进行商业数据分析的主要算法和模型,包括统计方法、数据挖掘方法、机器学习方法以及深度学习方法;三、以商业管理中常见的应用问题为例,介绍4-5个商业数据分析案例,包括市场营销方面的消费者细分、在线社区中虚假评论的识别、房地产经济分析、金融投资领域中的行业研究报告分析等。
(二)课程目标:课程目标1:能掌握Python编程基本概念;课程目标2:能掌握商业数据分析主要方法,包括数据挖掘方法、机器学习方法和深度学习方法;课程目标3:能将数据分析方法应用于实践。
三、教学内容第一章Python简介1.教学目标:了解Python发展历程和Python在不同系统安装方法2.教学重难点:Python在不同系统安装方法3.教学内容:3.1. 发展历程3.2. 特点3.3. 语言标准3.4. Python 安装与运行4.教学方法:讲授5.教学评价:以课堂问答方式来评价教学效果。
第二章数据类型1.教学目标:了解Python数据类型相关概念2.教学重难点:Python不同数据类型3.教学内容:3.1. 概述3.2. 数字类型3.3. 列表与元组3.4. 字符串3.5. 字典3.6. 集合3.7. 基本运算符4.教学方法:讲授5.教学评价:以课堂问答方式来评价教学效果。
第三章条件与循环1.教学目标:了解Python条件与循环语句2.教学重难点:列表推导与其他语句3.教学内容:3.1. 条件3.2. 循环3.3. 列表推导与其他语句4.教学方法:讲授5.教学评价:以课堂问答方式来评价教学效果。
1 引言关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。
它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。
关联规则挖掘的一个典型例子是购物篮分析。
关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。
分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。
Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题[AIS93b],以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。
他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。
最近也有独立于Agrawal的频集方法的工作[HPY00],以避免频集方法的一些缺陷,探索挖掘关联规则的新方法。
也有一些工作[KPR98]注重于对挖掘到的模式的价值进行评估,他们提出的模型建议了一些值得考虑的研究方向。
2 基本概念设I={i1,i2,..,i m}是项集,其中i k(k=1,2,…,m)可以是购物篮中的物品,也可以是保险公司的顾客。
设任务相关的数据D是事务集,其中每个事务T是项集,使得T⊆I。
设A是一个项集,且A⊆T。
关联规则是如下形式的逻辑蕴涵:A⇒ B,A⊂I, A⊂I,且A∩B=Φ。
关联规则具有如下两个重要的属性:支持度: P(A∪B),即A和B这两个项集在事务集D中同时出现的概率。
置信度: P(B|A),即在出现项集A的事务集D中,项集B也同时出现的概率。
同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。
给定一个事务集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则,也就是产生强规则的问题。
3 关联规则种类1) 基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。
布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系。
关联规则基本概念设I={i 1,i 2,…i m }是项的集合。
设任务相关的数据D 是数据库事务的集合,其中每个事务T 是项的集合,使得I T ⊆。
每个事务有一个标识符,称作TID 。
设A 是一个项集,事务T 包含A 当且仅当T A ⊆。
关联规则是诸如A ⇒B 的蕴涵式,其中I A ⊂,I B ⊂,并且φ=⋂B A 。
(1)支持度与置信度规则的支持度和置信度是两个规则兴趣度量值,它们分别表示发现规则的有用性和确定性。
规则A ⇒B 在事务级中D 中成立,具有支持度s ,其中s 是D 中事务包含B A ⋃(即A 和B 二者)的百分比,它是概率)(B A P ⋃。
规则A ⇒B 在事务集中具有置信度c ,其中D 中包含A 的事务同时也包含B 的百分比是c 。
这是条件概率)(A B P 。
即是)()(sup B A P B A port ⋃=⇒ (7.21)即:关联模式的支持度是模式为真的任务相关的元组(或事务)所占的百分比。
对于关联规则 A ⇒B (其中A 和B 是项目的集合),支持度定义为:元组总数的元组数和包含)支持度(B A =⇒B A )()(A B P B A confidence =⇒ (7.22)即:每个发现模式都应当由一个表示其有效性或“值得信赖性”的确定性度量。
对于关联规则A ⇒B (其中A 和B 是项目的集合),其确定性度量置信度定义为:()的元组数包含的元组数和包含置信度A B A B A =⇒ 同时满足最小支持度阈值(min_sup )和最小置信度阈值(min_conf )的规则称作强规则,我们用0%和100%之间的值而不是用0到1之间的值表示支持度和置信度。
如果我们想象全域是商品的集合,则每种商品有一个布尔变量,表示该商品的有无。
每个篮子则可用一个布尔向量表示。
可以分析布尔向量,得到反映商品频繁关联或同时购买的购买模式。
这些模式可以用关联规则的形式表示。
例如,购买计算机也趋向于同时购买财务管理软件可以用以下关联规则表示:computer ⇒financial_management_software[support=2%,confidence=60%]上面关联规则的支持度2%意味分析中的全部事务的2%同时购买计算机和购买财务管理软件,置信度60%以为购买计算机的顾客60%也购买财务管理软件。
在数据挖掘的知识模式中,关联规则模式是比较重要的一种。
关联规则的概念由Agrawal、Imielinski、Swami 提出,是数据中一种简单但很实用的规则。
关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。
一、关联规则的定义和属性考察一些涉及许多物品的事务:事务1 中出现了物品甲,事务2 中出现了物品乙,事务3 中则同时出现了物品甲和乙。
那么,物品甲和乙在事务中的出现相互之间是否有规律可循呢?在数据库的知识发现中,关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。
更确切的说,关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响。
现实中,这样的例子很多。
例如超级市场利用前端收款机收集存储了大量的售货数据,这些数据是一条条的购买事务记录,每条记录存储了事务处理时间,顾客购买的物品、物品的数量及金额等。
这些数据中常常隐含形式如下的关联规则:在购买铁锤的顾客当中,有70 %的人同时购买了铁钉。
这些关联规则很有价值,商场管理人员可以根据这些关联规则更好地规划商场,如把铁锤和铁钉这样的商品摆放在一起,能够促进销售。
有些数据不像售货数据那样很容易就能看出一个事务是许多物品的集合,但稍微转换一下思考角度,仍然可以像售货数据一样处理。
比如人寿保险,一份保单就是一个事务。
保险公司在接受保险前,往往需要记录投保人详尽的信息,有时还要到医院做身体检查。
保单上记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工资水平等。
这些投保人的个人信息就可以看作事务中的物品。
通过分析这些数据,可以得到类似以下这样的关联规则:年龄在40 岁以上,工作在A 区的投保人当中,有45 %的人曾经向保险公司索赔过。
在这条规则中,“年龄在40 岁以上”是物品甲,“工作在A 区”是物品乙,“向保险公司索赔过”则是物品丙。
可以看出来,A 区可能污染比较严重,环境比较差,导致工作在该区的人健康状况不好,索赔率也相对比较高。
关联规则关联规则是形如X→Y的蕴涵式,其中且, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。
从啤酒与尿布的故事说起在描述有关关联规则的一些细节之前,先来看一个有趣的故事: "尿布与啤酒"的故事。
在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。
但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。
这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。
沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。
沃尔玛数据仓库里集中了其各门店的详细原始交易数据。
在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。
一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。
产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对海量交易数据进行挖掘和分析,沃尔玛是不可能发现数据内在这一有价值的规律的。
数据关联关联规则的定义根据韩家炜等观点,关联规则定义为:假设I是项的集合。
给定一个交易数据库,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。
关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。
关联规则分析近年来,数据挖掘技术越来越受到业界的关注,其中具有代表性的一项技术就是关联规则分析。
关联规则分析是一种可以挖掘数据中存在的关联关系的技术,通过挖掘数据中的规律,从而为企业的决策制定提供支持。
本文将对关联规则分析技术进行深入的阐述,并探讨其在实际应用中的意义和价值。
一、关联规则分析的原理关联规则分析的核心就是寻找数据集中项之间存在的频繁集合和规则。
所谓频繁集合,就是指出现频率达到一定阈值的项组合。
在寻找频繁项时,通常需要依靠支持度和置信度来作为衡量指标。
支持度是指该项集在整个数据集中出现的频率,而置信度则是指该项集中的某些项出现时,另一项也很可能出现的概率。
举个例子,假设我们有一组销售记录,其中有许多顾客购买了商品A,并且部分顾客还购买了商品B。
为了进一步挖掘数据集中的关联关系,我们可以通过关联规则分析来寻找商品A和商品B之间的关联关系。
我们可以设置一个支持度的阈值(比如说10%),并且只分析那些出现频率超过这一阈值的数据集合。
这样就可以找到所有同时购买A和B的顾客,也就是频繁项集。
在这个过程中,我们可以计算A和B同时出现的置信度,即出现A 就很可能会出现B的概率,这可以为我们后续的销售战略制定做出重要贡献。
二、关联规则分析的应用领域关联规则分析在实际应用中有着广泛的应用领域,其中最为显著的一个应该就是电子商务领域。
在电子商务平台中,很多商家会通过关联规则分析技术来寻找不同商品之间的关联关系,从而制定出更为有效的销售策略。
例如通过寻找数据中的频繁项集,我们可以找到顾客们在购买某件商品时,最可能还需要购买哪些其他商品,进而为顾客提供更加便捷的购物体验。
除此之外,在金融领域、医疗领域以及网络推荐系统等领域中,也都可以使用关联规则分析技术来寻找业务中的关联关系。
例如在医疗领域,我们可以通过关联规则分析找出不同疾病之间的关联关系,这对于医生的诊疗决策具有重要帮助。
三、关联规则分析技术的局限性虽然关联规则分析技术在应用中具有很大的价值,但是它也存在着一定的局限性。