数据仓库与数据挖掘基础第8章(关联规则)

格式：ppt
大小：1.36 MB
文档页数：117

下载文档原格式

关联规则挖掘

▪ 兴趣度I不小于0。
例
▪ 设交易集D，经过对D的分析，得到表格:
买牛奶不买牛奶
合计
买咖啡 20 70 90
不买咖啡
合计
5
25
5
75
10
100
所有可能的关联规则
Rules
S
C
1
买牛奶→买咖啡
0.2
0.8
2
买咖啡→买牛奶
0.2
0.22
3
买牛奶→不买咖啡
0.05
0.2
4
不买咖啡→买牛奶
0.05
0.5
▪ 定义2：规则的支持度。
Customer buys beer
▪ 支持度描述了A 和B 这两个物品集在所有的事务中同时出现的概率有多大。
▪ 规则AB在数据库D中具有支持度S，即概
率P(AB)，即：S(A B) P(AB) | AB |
▪
|D|
▪ 其中|D|表示事务数据库D的个数，表示A、 B两个项集同时发生的事务个数。
２关联规则挖掘
▪ 在关联规则的三个属性中，支持度和可信度能够比较直接形容关联规则的性质
▪ 事实上，人们一般只对满足一定的支持度和可信度的关联规则感兴趣。
▪ 因此，为了发现有意义的关联规则，需要由用户给定两个阈值：
最小支持度（min_sup）和最小可信度（min_conf）
频繁项集
▪ 如果项集满足最小支持度，则它称之为频繁项集（Frequent Itemset）。
▪ 更确切的说，关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响
现实中，这样的例子很多。
例如超级市场利用前端收款机收集存储了大量的售货数据，这些数据是一条条的购买事务记录，每条记录存储了

数据挖掘中的关联规则算法使用方法教程

数据挖掘中的关联规则算法使用方法教程数据挖掘是一门通过从大量数据中发现隐藏模式、关系和信息的技术。

关联规则算法是数据挖掘中的重要工具，用于发现数据集中的关联关系和规律。

本教程将介绍关联规则算法的基本概念、使用方法和常见问题。

一、关联规则算法概述关联规则算法主要用于发现数据集中的关联关系和规律，它可以帮助我们了解事物之间的相互关系，并通过这些关系进行预测和推断。

常见的应用场景包括购物篮分析、市场篮子分析、推荐系统等。

关联规则算法通过分析频繁项集和支持度，找到频繁项集之间的关联规则。

频繁项集是指在数据集中频繁出现的组合项集，支持度是指某个项集在数据集中出现的频率。

通过计算支持度和置信度，可以找到具有较高置信度的关联规则。

常用的关联规则算法包括Apriori算法、FP-Growth算法和Eclat算法。

接下来将逐一介绍这些算法的使用方法。

二、Apriori算法1. Apriori算法基本原理Apriori算法是关联规则算法中最常用的一种算法。

它通过迭代的方式逐步生成频繁项集，然后根据频繁项集生成关联规则。

Apriori算法的基本原理如下：- 生成频繁1项集；- 循环生成候选k项集，并计算支持度；- 剪枝：删除支持度低于阈值的项集，得到k频繁项集；- 生成关联规则，并计算置信度。

2. Apriori算法使用步骤使用Apriori算法进行关联规则挖掘的步骤如下：- 输入数据集：准备一份包含项集的数据集；- 设置支持度和置信度的阈值；- 生成频繁1项集；- 根据频繁1项集生成2频繁项集；- 通过剪枝操作得到k频繁项集；- 根据频繁项集生成关联规则，并计算置信度；- 输出频繁项集和关联规则。

三、FP-Growth算法1. FP-Growth算法基本原理FP-Growth算法是一种高效的关联规则挖掘算法，它通过构建频繁模式树来快速发现频繁项集和关联规则。

FP-Growth算法的基本原理如下：- 构建FP树：将数据集构造成FP树，每个节点表示一个项，每个路径表示一条事务；- 构建条件模式基：从FP树中抽取频繁1项集，并构建条件模式基；- 通过条件模式基递归构建FP树；- 根据FP树生成关联规则。

数据挖掘方法——关联规则(自己整理)

小结：Apriori算法可以分为频繁项集的生成和关联规则的生成两大步骤；FP-Growth算法可以分成FP-Tree的生成，频繁项集的生成和关联规则的生成3大步骤。
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
9
五、关联规则挖掘的相关算法
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
7
五、关联规则挖掘的相关算法
1.Apriori算法：使用候选项集找频繁项集 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递推的方法。 Apriori算法可以产生相对较小的候选项目集，扫描数据库的次数由最大频繁项目集的项目数决定。因此，该算法适合于最大频繁项目集相对较小的数据集中的关联规则挖掘问题。 Apriori算法的两大缺点:1.可能产生大量的候选集；2.可能需要重复扫描数据库。
关联分析的目的：找出数据库中隐藏的关联网。一般用Support(支持度)和Confidence(可信度)两个阀值来度量关联规则的相关性，引入 lift(提高度或兴趣度）、相关性等参数，使得所挖掘的规则更符合需求。

数据挖掘原理、算法及应用章 (8)

第8章复杂类型数据挖掘 1）以Arc/info基于矢量数据模型的系统为例，为了将空间
数据存入计算机，首先，从逻辑上将空间数据抽象为不同的专题或层，如土地利用、地形、道路、居民区、土壤单元、森林分布等，一个专题层包含区域内地理要素的位置和属性数据。其次，将一个专题层的地理要素或实体分解为点、线、面目标，每个目标的数据由空间数据、属性数据和拓扑数据组成。
第8章复杂类型数据挖掘 2. 空间数据具体描述地理实体的空间特征、属性特征。空
间特征是指地理实体的空间位置及其相互关系；属性特征表示地理实体的名称、类型和数量等。空间对象表示方法目前采用主题图方法, 即将空间对象抽象为点、线、面三类，根据这些几何对象的不同属性，以层（Layer）为概念组织、存储、修改和显示它们，数据表达分为矢量数据模型和栅格数据模型两种。
第8章复杂类型数据挖掘图Fra bibliotek-5 综合图层
第8章复杂类型数据挖掘
图8-4 栅格数据模型
第8章复杂类型数据挖掘
3. 虽然空间数据查询和空间挖掘是有区别的，但是像其他数据挖掘技术一样，查询是挖掘的基础和前提，因此了解空间查询及其操作有助于掌握空间挖掘技术。
由于空间数据的特殊性，空间操作相对于非空间数据要复杂。传统的访问非空间数据的选择查询使用的是标准的比较操作符： “>”、 “<”、 “≤ ”、 “≥ ”、 “≠ ”。而空间选择是一种在空间数据上的选择查询，要用到空间操作符.包括接近、东、西、南、北、包含、重叠或相交等。
不同的实体之间进行空间性操作的时候，经常需要在属性之间进行一些转换。如果非空间属性存储在关系型数据库中，那么一种可行的存储策略是利用非空间元组的属性存放指向相应空间数据结构的指针。这种关系中的每个元组代表的是一个空间实体。

《数据仓库与数据挖掘》第8章(关联规则)

┊┊┊┊┊┊┊┊┊┊┊┊┊装┊┊┊┊┊订┊┊┊┊┊线┊┊┊┊┊┊┊┊┊┊┊┊┊第8章关联规则挖掘主要内容●关联规则挖掘的基本概念●关联规则挖掘的过程●Apriori算法●Apriori算法的变形●频繁模式增长（FP－增长）算法●其他关联规则挖掘算法●关联规则价值衡量的方法●关联规则挖掘的应用┊┊┊┊┊┊┊┊┊┊┊┊┊装┊┊┊┊┊订┊┊┊┊┊线┊┊┊┊┊┊┊┊┊┊┊┊┊8.1关联规则挖掘的基本概念1. 购物篮分析－引发关联规则挖掘的例子问题：“什么商品组或集合顾客多半会在一次购物中同时购买？”购物篮分析：设全域为商店出售的商品的集合（即项目全集），一次购物购买（即事务）的商品为项目全集的子集，若每种商品用一个布尔变量表示该商品的有无，则每个购物篮可用一个布尔向量表示。

通过对布尔向量的分析，得到反映商品频繁关联或同时购买的购买模式。

这些模式可用关联规则描述。

〖例〗购买计算机与购买财务管理软件的关联规则可表示为：computer financial_management_softwar[support=2%,confidence=60%]support为支持度，confidence为置信度。

该规则表示：在所分析的全部事务中，有2％的事务同时购买计算机和财务管理软件；在购买计算机的顾客中60％也购买财务管理软件。

2. 关联规则关联（Associations）分析的目的是为了挖掘隐藏在数据间的相互关系，即对于给定的一组项目和一个记录集，通过对记录集的分析，得出项目集中的项目之间的相关性。

项目之间的相关性用关联规则来描述，关联规则反映了一组数据项之间的密切程度或关系。

┊┊┊┊┊┊┊┊┊┊┊┊┊装┊┊┊┊┊订┊┊┊┊┊线┊┊┊┊┊┊┊┊┊┊┊┊┊〖定义8－1〗令I={i1，i2，…,in}是项目集，D是全体事务的集合。

事务T是I上的一个子集，集合T⊆I，每个事务用唯一的标志TID来标识。

关联规则是形如X⇒Y的蕴含式，其中X⊆I，Y⊆I 且X⋂Y=∅，X称为规则的条件，Y称为规则的结果。

数据挖掘关联规则

一、数据挖掘中的关联规则是什么：所谓关联规则，是指数据对象之间的相互依赖关系，而发现规则的任务就是从数据库中发现那些确信度(Conk一dente)和支持度(Support)都大于给定值的强壮规则。

从数据库中发现关联规则近几年研究最多。

目前，已经从单一概念层次关联规则的发现发展到多个概念层次的关联规则的发现。

在概念层次上的不断深人，使得发观的关联规则所提供的信息越来越具体，实际上这是个逐步深化所发现知识的过程。

在许多实际应用中，能够得到的相关规则的数目可能是相当大的，而且，用户也并不是对所有的规则感兴趣，有些规则可能误导人们的决策，所以，在规则发现中常常引人”兴趣度”(指一则在一定数据域上为真的知识被用户关注的程度)概念。

而基于更高概念层次上的规则发现研究(如一般化抽象层次上的规则和多层次上的规则发现)则是当前研究的重点之一。

二、关联规则数据挖掘中最经典的案例：关联规则数据挖掘中最经典的案例就是沃尔玛的啤酒和尿布的故事。

沃尔玛拥有世界上最大的数据仓库系统，为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。

沃尔玛数据仓库里集中了其各门店的详细原始交易数据。

在这些原始交易数据的基础上，沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。

一个意外的发现是：“跟尿布一起购买最多的商品竟是啤酒！”经过大量实际调查和分析，揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式：在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%～40%的人同时也为自己买一些啤酒。

产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。

三、关联规则的一些定义与属性：考察一些涉及许多物品的事务：事务1 中出现了物品甲，事务2 中出现了物品乙，事务 3 中则同时出现了物品甲和乙。

那么，物品甲和乙在事务中的出现相互之间是否有规律可循呢？在数据库的知识发现中，关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。

数据挖掘关联规则-推荐下载

2 ．支持度(Support)
对全部高中资料试卷电气设备，在安装过程中以及安装结束后进行高中资料试卷调整试验；通电检查所有设备高中资料电试力卷保相护互装作置用调与试相技互术关，系电通，力1根保过据护管生高线产中0不工资仅艺料可高试以中卷解资配决料置吊试技顶卷术层要是配求指置，机不对组规电在范气进高设行中备继资进电料行保试空护卷载高问与中题带资2负料2，荷试而下卷且高总可中体保资配障料置各试时类卷，管调需路控要习试在题验最到；大位对限。设度在备内管进来路行确敷调保设整机过使组程其高1在中正资，常料要工试加况卷强下安看与全22过，22度并22工且22作尽22下可护都能1关可地于以缩管正小路常故高工障中作高资；中料对资试于料卷继试连电卷接保破管护坏口进范处行围理整，高核或中对者资定对料值某试，些卷审异弯核常扁与高度校中固对资定图料盒纸试位，卷置编工.写况保复进护杂行层设自防备动腐与处跨装理接置，地高尤线中其弯资要曲料避半试免径卷错标调误高试高等方中，案资要，料求编试技5写、卷术重电保交要气护底设设装。备备置管4高调、动线中试电作敷资高气，设料中课并技3试资件且、术卷料中拒管试试调绝路包验卷试动敷含方技作设线案术，技槽以来术、及避管系免架统不等启必多动要项方高方案中式；资，对料为整试解套卷决启突高动然中过停语程机文中。电高因气中此课资，件料电中试力管卷高壁电中薄气资、设料接备试口进卷不行保严调护等试装问工置题作调，并试合且技理进术利行，用过要管关求线运电敷行力设高保技中护术资装。料置线试做缆卷到敷技准设术确原指灵则导活：。。在对对分于于线调差盒试动处过保，程护当中装不高置同中高电资中压料资回试料路卷试交技卷叉术调时问试，题技应，术采作是用为指金调发属试电隔人机板员一进，变行需压隔要器开在组处事在理前发；掌生同握内一图部线纸故槽资障内料时，、，强设需电备要回制进路造行须厂外同家部时出电切具源断高高习中中题资资电料料源试试，卷卷线试切缆验除敷报从设告而完与采毕相用，关高要技中进术资行资料检料试查，卷和并主检且要测了保处解护理现装。场置设。备高中资料试卷布置情况与有关高中资料试卷电气系统接线等情况，然后根据规范与规程规定，制定设备调试高中资料试卷方案。

数据仓库与数据挖掘中的关联规则

数据仓库与数据挖掘中的关联规则数据是当今社会中最重要的资源之一，每天，我们都在不知不觉中产生大量的数据，例如浏览网页、使用社交媒体、进行购物、使用手机等等。

这些数据是非常有价值的，因为它们可以被用来揭示用户的行为与偏好，帮助企业更好地理解他们的客户、预测市场趋势和做出更准确的商业决策。

然而，这种大规模的数据分析是一项极为复杂的任务，需要运用一系列的技术和工具来帮助用户快速、准确地发现有用的信息。

数据仓库是一种用于存储和管理大量数据的系统，它是数据挖掘技术的基础。

数据仓库通常是一个基于数据库的系统，它可以从多个数据来源中抽取、转换和加载数据，并将其存储在一个单独的、集中的存储器中。

这些数据可以是来自各种不同的数据源，如企业资源计划（ERP）系统、客户关系管理（CRM）系统、人力资源管理（HRM）系统等。

数据仓库具有高度的灵活性和可扩展性，可以随着企业的数据需求而不断增加。

与数据仓库紧密相关的技术是数据挖掘。

数据挖掘是一种从数据库中挖掘知识、信息和模式的技术，它能够帮助用户发现隐藏在数据背后的规律，从而使企业更好地理解其客户行为和市场趋势。

数据挖掘技术包括分类、聚类、关联规则发现等，其中关联规则发现是数据挖掘的一个重要技术，在数据挖掘中有着广泛的应用。

关联规则发现是一种发现事物关联性的技术，主要是为了找出输入数据之间的共同关系。

通俗理解就是发现购物清单中购买了A商品，很可能会购买B商品的规律。

关联规则在购物篮分析、市场策略、天气预报、医学等领域都有广泛的应用。

在数据挖掘领域，关联规则发现可以用来分析大量的数据，以了解哪些数据项一起出现的可能性最大。

这种技术可以为广告定位、生产预测、金融风险评估等提供有效的决策支持。

关联规则算法的核心思想是：在给定数据集中，发现各种项之间的关系。

数据集通常包含很多事务，每个事务由一些项组成。

例如，在一个购物清单数据集中，每件商品可以表示为一个“项”，而单个购物车可以表示为一个“事务”。

挖掘多关系关联规则

挖掘多关系关联规则
什么是数据挖掘？
挖掘多关系关联规则
广义的数据挖掘的定义：数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、WEB、其他信息存储库或者动态地流入系统的数据。
挖掘多关系关联规则
关联规则
关联规则是数据挖掘中的一项重要和基础的技术, 已进行了多方面的深入研究,有着广泛的应用。
挖掘多关系关联规则
一个查询,如果其支持度符合用户定义的最小支持度则称为一个频繁查询.对于两个查询Q1=?−l1,…,lm和Q2=?−l1,…,lm,lm+1,…,ln,如果对于Q1的每个替换,用常数替换后的每个原子均出现在Q2的某个替换对应的替换后的原子中,则称Q1θ-包含Q2,即Q1是比Q2更一般的查询,Q2是比Q1更具体的查询. 例如,若Q1=?−Kids(KID), Likes(KID,X),Has(KID,Y),而 Q2=?−Kids(KID),Likes(KID,X),Has(KID,Y),Prefer(KID,X,Y),则Q1θ-包含Q2, 也称Q2是Q1的特殊化(specialization).
挖掘多关系关联规则
2.3 信息丢失问题
将多关系转换为单关系的另外一种方法是创建一些新的属性,将来自其他表的信息通过汇总和聚集集成在一个关系中,从而将多关系数据库转化为单一关系, 在ILP领域,这种方法称为命题化(prepositionalization).例如,对于图1中的3个表,可以通过该方法生成如表2所示的单个表Student1.
挖掘多关系关联规则
定义2(连接表)：将一个数据库中的所有表进行连接构成一个泛关系表,称为连接表(join table). 表1所示的泛关系表就是图1中的3个表的连接表.

数据挖掘关联规则

数据挖掘关联规则简介数据挖掘是一种通过对大量数据进行分析和挖掘，发现其中隐藏的有价值信息的过程。

在数据挖掘的过程中，关联规则是其中一种重要的技术。

关联规则分析可以帮助我们发现数据集中不同项之间的相关性，从而帮助我们做出更好的业务决策。

关联规则挖掘的核心目标是发现数据集中的频繁项集和关联规则。

频繁项集指的是数据集中经常出现在一起的项的集合，而关联规则所描述的是这些项之间的关系，例如”如果买了A商品，那么也可能买B商品”。

关联规则的基本概念关联规则由两部分组成：前项和后项。

前项和后项分别是一个或多个项的集合。

•支持度（support）：支持度是指某个项集在数据集中出现的频率。

支持度越高表示该项集出现的频率越大。

•置信度（confidence）：置信度是指规则的前项和后项同时出现的概率，即在前项出现的情况下，后项也出现的概率。

根据支持度和置信度，可以使用以下公式计算关联规则的重要度：•支持度：support(A->B) = (出现A和B的次数) / (总事务数)•置信度：confidence(A->B) = (出现A和B的次数) / (出现A的次数)如何挖掘关联规则挖掘关联规则的过程通常分为以下几个步骤：1. 数据预处理在进行关联规则挖掘之前，需要对数据进行预处理。

预处理的步骤包括数据清洗（去除重复项、缺失值等），数据转换（将数据转换为适合关联规则挖掘的形式）等。

2. 挖掘频繁项集频繁项集指的是在数据集中出现频率较高的项集。

挖掘频繁项集的常用算法有Apriori算法和FP-growth算法。

Apriori算法是一种生成候选项集的算法。

它从频繁的1项集开始，通过逐层连接和剪枝的方式生成候选项集，最后得到频繁项集。

Apriori算法的思想是基于Apriori原理：如果一个项集是频繁的，那么它的所有子集也是频繁的。

FP-growth算法是一种利用频繁模式树进行挖掘的算法。

它通过构建一个树状结构（FP树）来存储频繁项集的信息，并利用树的性质来高效挖掘频繁项集。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

关联规则的形式
R: X=> Y 其中，X及Y是两个不相交的集合，即X,YI且X Y= 关联规则可以理解为一个命题，即如果一个交易支持项集X，则它也以一定的可能性支持项集Y，这一可能性称之为规则的可信度，记为conf(R)或C (R)

举例
Body ead [support, confidence] buys(x, ―diapers‖) buys(x, ―beers‖) [0.5%, 60%] major(x, ―CS‖) ^ takes(x, ―DB‖) grade(x, ―A‖) [1%, 75%]
第一节关联规则挖掘
1、购物篮分析
牛奶面包谷类牛奶面包糖鸡旦顾客2 糖鸡旦市场分析员
顾客1 牛奶面包黄油
顾客3
顾客4
第一节关联规则挖掘
问题：什么商品组或集合顾客多半会在一次购物时同时购买？回答：需要分析商店的顾客事务零售数据，并
在其上运行购物篮分析。
分析的结果可以用于市场规划、广告策划、分
或属性每个只涉及一个维，则它是单维关联规
则；若关联规则涉及两个或多个维，则它是多
维关联规则。如
单维：buys( X , " computer ) buys( X , " os _ software" ) " 多维：age( X , "23 ... 33" ) income( X , "42 K ... 62 K " ) buys( X , " fashion _ car" )
sup port( A B) P( A B) confidence A B) P( B | A) (

关联规则的数学定义
先设I={i1, i2, ...,im }是一个以m个不同项为元素的集合，T是针对I的交易的集合，每一笔交易包含若千个属于I的项。关联规则可表示为X=>Y，其中X,Y I 且 X Y= X称为规则的前提或前项，Y称为结果或后项。每一规则有两个度量标准，即支持度(Support)和可信度 (Confidence) 规则的支持度定义为: support (X=>Y) =support (X U Y) 规则的可信度定义为: confidence(X=> Y)=support(X U Y)/support(X)
2 典型算法

Apriori算法的主要思想
该算法利用了频繁项集所具有的任意频繁项集的子集都是频繁项集的这一性质对数据库进行多次扫描:第一次扫描得到频繁项集的集合L0 ，第k趟扫描前先利用上次扫描的结果项目集Lk-1,产生候选k项集的集合Ck ，然后再通过扫描数据库确定C中每一候选 k项集的支持数，最后在该次扫描结束时求出频繁k项集的集合Lk ，算法的终止条件是Ck或Lk为空。
第二节挖掘事务数据库的单维布尔关联规则
1、Apriori算法例如，设已有包含9 个事务的事务数据库，即
TID T100 T200 T300 项ID的列表 I1，I2，I5 I2，I4 I2，I3
|D|=9，各事务按字典
次序存放，设最小事务支
T400
T500 T600 T700 T800 T900
DHP算法

优点
在某些场合，DHP算法的效率比 Apriori算法明显提高。
第二节挖掘事务数据库的单维布尔关联规则
1、Apriori算法 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法，通过侯选项集找频繁项集。基本思路： Apriori使用一种称作逐层搜索的迭代方法，K-项集用于探索（K+1）-项集。首先，找出频繁1-项集的集合，记为L1； L1用于找频繁2项集的集合L2 ，而L2用于找L3，如此下去，直到找到频繁K-项集。找每个LK需要一次数据库扫描。其过程包括：连接和剪枝两个方面。
ቤተ መጻሕፍቲ ባይዱ
类设计。例如，购物篮分析可以帮助经理设计
不同的商店布局，以及规划什么商品降价。
第一节关联规则挖掘
1、购物篮分析策略一：经常购买的商品可以放近一些，以便进一步刺激这些商品一起销售。策略二：将经常购买的商品放在商店的两端，可能诱发买这些商品的顾客一路挑选其他商品。
第一节关联规则挖掘
1、购物篮分析可以想象全域是商店中可利用的商品的集合，则每种商品有一个布尔变量，表示该商品的有无。每个篮子可以用一个布尔向量表示。可以分析布尔向量，得到反映商品频繁关联或同时购买的购买模式。这些模式可以用关联规则的形式表示：
computer operating_ system _ software [sup port 2%, confidence 60%]
优点：所产生的候选项集比AIS算法少得多，效率较高。事实上，它被视为关联规则挖掘最经典的算法，其他很多算法都是其变种或改进。
2 典型算法

SETM算法的主要思想
该算法实际也是AIS算法的变形。SETM把候选集的产生和累计分开，在一个线性存储结构里存储了所有候选集和相应的交易的标识符（TID）。每次扫描结束后，不再读取数据库，而是对TID进行排序并累计各个候选集的支持度。其思想是扫描候选集的编码（TID）来代替扫描数据库，实质上是把数据库中与支持有关的信息单独提取出来，构成一个较小但充分的TID库。这种做法大大减少了数据库访问的时间。
{I1，I4}
{I1，I5}
{I2，I3} {I2，I4} {I2，I5} {I3，I4} {I3，I5} {I4，I5}
扫描D，对每个侯选2-项集计数C2
{I1，I3} {I1，I4}
{I1，I5}
{I2，I3} {I2，I4} {I2，I5} {I3，I4} {I3，I5} {I4，I5}
2 典型算法

AIS算法的主要思想其主要思想是一边扫描数据库，一边产生候选项集并累计支持度。具体地说，在对数据库进行第k次扫描时，候选项集是由第k-1次扫描所产生的边界集(frontier set)通过增加当前事务中的项得到，同时计算候选项集中元素的支持数，直到某次扫描所产生的边界集为空。缺点：生成的候选项集太大。
第一节关联规则挖掘
2、基本概念关联规则的挖掘包含两个基本步骤：找出所有频繁项集：这些项集出现的频繁性
至少和预定义的最小支持计数一样。
由频繁项集产生强关联规则：这些规则必须
满足最小支持度和最小置信度。
挖掘关联规则的总体性能由第一步决定。
第一节关联规则挖掘
3、关联规则挖掘的分类标准购物篮分析只是关联规则挖掘的一种形式。根据下列标准，关联规则有多种分类方法：根据规则中所处理的值的类型：若规则考虑项的在与不在，则它是布尔关联规则；若规则描述的是量化的项或属性之间的关联，则它是量化关联规则。如，下列为一个量化关联规则：
第一节关联规则挖掘
2、基本概念设I={i1，i2，…，im}是项的集合，。设任务相关的数据D是数据库事务的集合，其中每个事务T是项的集合，使得TI。每一个事务有一个标识符TID。设A是一个项集，事务T包含A ，当且仅当AT。关联规则是形如AB的蕴涵式，其中AI， BI，且AB=Ø 。
I1，I2，I4
I1，I3 I2，I3 I1，I3 I1，I2，I3，I5 I1，I2，I3
持度计数为2 。
第二节挖掘事务数据库的单维布尔关联规则
1、Apriori算法
侯选集C1
扫描D，对每个侯选1-项集计数项集支持度计数比较侯选支持度计数与最小支持度计数设最小事务支持度计数为2， 2/9=22%
缺点：候选项集过大。
2 典型算法

DHP算法的主要思想该算法利用散列表(hash table)产生候选集，是对 Apriori算法的直接改进。在遍历一次数据库得到候选k--项集的支持度，得到频繁k一项集后，DHP算法将每一个事务的可能的(k+1)--项集通过哈希规则形成散列表。散列表的每一栏包括所有通过散列规则映射到该栏中的项集的数目。根据结果的散列表，可以生成一个位向量，当散列表中对应的该栏中的数值大于或者等于最小支持时，对应的位置为1,否则为0。用该向量可以过滤掉下一次生成候选时所不必要的项集: 如某候选项在向量中对应位的值为0，则舍弃。这对候选2-项集的产生尤为有效，可以在第二次就大大减小候选集的规模。
age( X , "23 ... 33" ) income( X , "42 K ... 62 K " ) buys( X , " fashion _ car" ) X为顾客变量，age和income为量化属性。
第一节关联规则挖掘
3、关联规则挖掘的分类标准
根据规则中涉及的数据维：若关联规则中的项
第六章挖掘大型数据库中的关联规则
1、关联规则挖掘 2、挖掘事务数据库的单维布尔关联规则 3、挖掘事务数据库的多层关联规则 4、挖掘关系数据库和数据仓库的多维关联规则
5、由关联挖掘到相关分析
第六章挖掘大型数据库中的关联规则
关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。从大量商务事务记录中发现有趣的关联关系，可以帮助许多商务决策的制定，如分类设计、交叉购物和贱卖分析。关联规则挖掘的一个典型的例子是购物篮分析。
规则形式:

关联规则的性质
－规则的非结合性－规则的不可分解性－规则的不可传递性－规则的可扩展性
第一节关联规则挖掘
2、基本概念项的集合称为项集，包含K个项的项集称为 K-项集。集合{computer，software}是一个2-项集。项集的出现频率是包含项集的事务数简称为频率、支持计数或计数。项集满足最小支持度，若项集的出现频率大于或等于最小支持度与D中事务总数的乘积。如果项集满足最小支持度，则称它为频繁项集。

数据仓库与数据挖掘基础第8章(关联规则)

合集下载

关联规则挖掘

数据挖掘中的关联规则算法使用方法教程

数据挖掘方法——关联规则(自己整理)

数据挖掘原理、算法及应用章 (8)

《数据仓库与数据挖掘》第8章(关联规则)

数据挖掘关联规则

数据挖掘关联规则-推荐下载

数据仓库与数据挖掘中的关联规则

挖掘多关系关联规则

数据挖掘关联规则

文档推荐

最新文档