- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
E-MAIL:BXXHS@
6.3 数据挖掘的关联算法
6.3.2 简单形式的关联规则算法(单维、单层和 简单形式的关联规则算法(单维、 布尔关联规则) 布尔关联规则) 1.简单形式的关联规则的核心算法 .
找到所有支持度大于最小支持度的项集,即频集 有 个数据 找到所有支持度大于最小支持度的项集 即频集,有k个数据 即频集 频集称为k项频集 找出所有的频集由apriori算法实现。 项频集.找出所有的频集由 算法实现。 频集称为 项频集 找出所有的频集由 算法实现 Apriori性质具有一个频集的任一非空子集都是频集。 性质具有一个频集的任一非空子集都是频集。 性质具有一个频集的任一非空子集都是频集 使用第1步找到的频集产生期望的规则 使用第 步找到的频集产生期望的规则 apriori算法的详细介绍见课本。 算法的详细介绍见课本。 算法的详细介绍见课本
ID3算法应用如下:
信息量计算公式:I(s1,s2,…sm)=∑ pi log 2( pi) (6.1) i =1 其中,pi为si占整个类别的概率 利用属性A划分当前样本集合所需要的信息(熵)的计算公式为: m E(A)= ∑ ((s1 j + s 2 j + .. + smj ) / s )I (s1 j,.., smj) (6.2) j =1 信息增益公式:Gain(A)= I(s1,s2,…sm)-E(A) (6.3) 例如:一个销售的顾客数据库(训练样本集合),对购买计算机的人员进行分类: 字段为:(年龄(取值:<30,30~40,>40>);收入(高,中,低);学生否(Y,N);信用(一般, 很好);购买计算机否(Y,N)) 记录为14个,具体数据如下: X1=(<30, 高,N, 一般,N);X2=(<30, 高,N, 很好,N) X3=(30~40, 高,N, 一般,Y);X4=(>40, 中,N, 一般,Y) X5=(>40, 低,Y, 一般,Y);X6=(>40, 低,Y, 很好,N) X7=(<30-40, 低,Y, 高,Y);X8=(<30, 中,N, 一般,N) X9=(<30, 低,Y, 一般,Y);X10=(>40, 中,Y, 一般,Y) X11=(<30,中,Y, 很好,Y);X12=(30~40,中,N, 很好,Y) X13=(30~40,高,Y, 一般,Y);X14=(>40,中,N, 很好,N)
E-MAIL:BXXHS@
6.1 分类规则挖掘
6.1.2 决策树 1.决策树的构造过程 .
决策树的构造算法:
决策树的构造算法可通过训练集T完成,其中T={<x,cj>},而 x=(a1,a2,…,an)为一个训练实例,它有n个属性,分别列于属性表 (A1,A2,…,An)中,其中ai表示属性Ai的取值。Cj∈C={C1,C2,…,Cm}为x 的分类结果。从属性表中选择属性Ai作为分类属性;若属性Ai的取值有ki 个,则将T划分为ki个子集,T1,…,Tki,其中Tij={<x,C>|<x,C>}∈T,且x 的属性取值A为第i个值;接下来从属性表中删除属性Ai;对于每一个 Tij(1≤j≤K1),令T=Tij;如果属性表非空,返回第1步,否则输出。
外界
边缘
no
图6.3 简单的贝叶斯网图
E-MAIL:BXXHS@
6.1 分类规则挖掘
6.1.3 贝叶斯分类 2.贝叶斯定理与朴素贝叶斯分类 .
贝叶斯定理: P(H|X)=P(X|H)P(H)/P(X) 其中,P(H|X)表示 条件X下H的概率,也称为条件概率或称为后验概率 (posteriori probabilities)。 朴素贝叶斯分类: 假定有m个类C1, … Cm,对于数据样本X,分类法将预测X属于类 Ci,当且仅当 P(Ci|X)> P(Cj|X),
E-MAIL:BXXHS@
6.1 分类规则挖掘
6.1.2 决策树 2.分类器 .
定义:输入的数据含有千万个记录,每个记录又有很多个 属性,其中有一个特别的属性叫做类(例如信用程度的高, 中,低)。 具体步骤 : 1)树的建立。 2)树的修剪,SLIQ采用了MDL(最小叙述长度)的方法来修 剪树。
E-MAIL:BXXHS@
6.2预测分析与趋势分析规则 预测分析与趋势分析规则
6.2.1 预言的基本方法
预言(prediction)是一门掌握对象变化动态的科学,它是对 对象变动趋势的预见、分析和判断,也是一种动态分析方法。 预测的基本步骤:
确定预测目标,包括预测对象、目的、对象范围; 收集分析内部和外部资料; 数据的处理及模型的选择; 预测模型的分析、修正; 确定预测值。
E-MAIL:BXXHS@
6.1 分类规则挖掘
6.1.1分类与估值 分类与估值 1 分类
为了理解事物特征并做出预测使用历史数据建立 一个分类模型(即分类器)的过程 。 应用于信用卡系统中的信用分级、市场调查、疗 效诊断、寻找店址等 实践应用参照课本
E-MAIL:BXXHS@
数据仓库与数据挖掘技术
Electronic Commerce
夏火松
E-MAIL:BXXHS@
E-MAIL:BXXHS@
Istitute Of MIS And LMS,wuse ()
第6章 数据挖掘基本算法
本章内容: 6.1 分类规则挖掘 6.2 预测分析与趋势分析规则 6.3 数据挖掘的关联算法 6.4 数据挖掘的聚类算法 6.5 数据挖掘的统计分析算法 6.6 数据挖掘的品种优化算法 6.7 数据挖掘的进化算法
相反的预测结果 胜出裕度 成本收益分析
E-MAIL:BXXHS@
6.2 预测分析与趋势分析规则
6.2.4 趋势分析挖掘 分析时间序列数据需要注意以下方面 :
长时间的走向 周期的走向与周期的变化 季节性的走向与变化 不规则的随机走向
E-MAIL:BXXHS@
6.3 数据挖掘的关联算法
近分类、基于案例的推理、遗传算法、粗糙集和模糊集方法
。
步骤:模型创建、模型使用
E-MAIL:BXXHS@
6.1 分类规则挖掘
6.1.1分类与估值 分类与估值 4 评估分类方法
要考虑的指标:预测准确率、速度、创建速度、 使用速度、鲁棒性、处理噪声和丢失值、伸缩 性、对磁盘驻留数据的处理能力、可解释性、 对模型的可理解程度、规则好坏的评价、决策 树的大小和分类规则的简明性。
E-MAIL:BXXHS@
6.1 分类规则挖掘
6.1.2 决策树 3.决策树的可扩展性 . 4.基于决策树方法的数据挖掘工具 .
KnowledgSEEKER
E-MAIL:BXXHS@
6.1 分类规则挖掘
6.1.3 贝叶斯分类 1.贝叶斯信任网络如何工作 .
主区域 服务区域 手机呼叫 yes
E-MAIL:BXXHS@
6.1 分类规则挖掘
6.1.2 决策树
子节点 父节点 根节点 父节点 子节点 叶节点 子节点 叶节点 子节点 子节点 图6.1 一般决策树结构
E-MAIL:BXXHS@
m
∑ p log
i i =1
2
( pi )
6.1 分类规则挖掘
6.1.2 决策树 •1.决策树的构造过程
E-MAIL:BXXHS@
6.2 预测分析与趋势分析规则
6.2.2 定量分析预测 时间序列法 回归预测 非线性模型 灰色预测模型GM(1,1) 组合预测
E-MAIL:BXXHS@
6.2 预测分析与趋势分析规则
6.2.3预测的结果分析 预测的结果分析 预测的结果分析要考虑到的因素:
6.3 数据挖掘的关联算法
6.3.3 多层和多维关联规则的挖掘 多层关联规则 多维关联规则 关联规则价值衡量的方法 6.3.4 货篮子分析存在的问题 详见课本
6.1 分类规则挖掘
6.1.1分类与估值 分类与估值 2 估值
估值(estimation)与分类类似,不同之处在于,分类 描述的是离散型变量的输出,而估值处理连续值的输出; 分类的类别是确定的数目,估值的量是不确定的。
3 分类方法与步骤
方法:决策树归纳、贝叶斯分类、贝叶斯网络、神经网络。还有K-最临
E-MAIL:BXXHS@
6.3 数据挖掘的关联算法
6.3.2 简单形式的关联规则算法(单维、单层和 简单形式的关联规则算法(单维、 布尔关联规则) 布尔关联规则) 2 频集算法的几种优化方法
基于划分的方法 基于hash的方法 基于采样的方法 减少交易的个数
E-MAIL:BXXHS@
6.3.1 关联规则的概念及分类 1.关联规则的概念 .
定义1 是由m个不同的数据项目组成的集合 定义 设I={i1、i2、i3,…,im}是由 个不同的数据项目组成的集合,其中的元素称 、 、 , 是由 个不同的数据项目组成的集合, 为项(item),项的集合称为项集,包含 个项的项集称为 项集 给定一个事务(交 个项的项集称为k项集 给定一个事务( 为项 ,项的集合称为项集,包含k个项的项集称为 项集,给定一个事务 易)D,即交易数据库,其中的每一个事务(交易)T是数据项 的一个子集,即, ,即交易数据库,其中的每一个事务(交易) 是数据项I的一个子集, 是数据项 的一个子集 T有一个惟一的标积符 有一个惟一的标积符TID;当且仅当时,称交易 包含项集 ;那么关联规则就 包含项集X; 有一个惟一的标积符 ;当且仅当时,称交易T包含项集 形如“ 的蕴涵式; ,,,Ф,即表示满足X中条件的记录也一定满足 中条件的记录也一定满足Y。 形如“X=>Y”的蕴涵式;其中,,, ,即表示满足 中条件的记录也一定满足 。 的蕴涵式 其中,,, 关联规则X=>Y在交易数据库中成立 具有支持度s和具有置信度 。 关联规则 在交易数据库中成立, 具有支持度 和具有置信度c 在交易数据库中成立 和具有置信度 这也就是交易数据集D中具有支持度 中具有支持度s, 中至少有s%的事务包含 这也就是交易数据集 中具有支持度 ,即D中至少有 的事务包含 描述 中至少有 的事务包含,描述 为:support(X=>Y)= 比如Support(X=>Y )=同时购买商品 和Y的交易数÷总交易数 同时购买商品X和 的交易数 的交易数÷ 比如 同时购买商品 同时交易数据集D中具有置信度 中具有置信度c, 中包含X的事务至少有 同时也包含Y,描述 同时交易数据集 中具有置信度 ,即D中包含 的事务至少有 同时也包含 描述 中包含 的事务至少有c%同时也包含 为:confidence(X=>Y)= 比如购买了商品X,同时购买商品Y可信度 可信度, 同时购买商品X和 比如购买了商品 ,同时购买商品 可信度,confidence(X=>Y)=同时购买商品 和Y 同时购买商品 的交易数÷购买了商品X的交易数 的交易数÷购买了商品 的交易数 一般称满足一定要求的规则为强规则。 一般称满足一定要求的规则为强规则。通常称满足最小支持度和最小置信度的关联 规则为强关联规则( )。一般将最小支持度简记为 规则为强关联规则(strong)。一般将最小支持度简记为 )。一般将最小支持度简记为minsup和最小置信度 和最小置信度 简记为minconf。 简记为 。