【原创】R语言药物关联规则apriori模型分析代码
- 格式:docx
- 大小:61.46 KB
- 文档页数:19
关联规则apriori算法代码Apriori算法是数据挖掘中的一种常用算法,用于挖掘数据集中的频繁项集以及关联规则。
它是由Rakesh Agrawal和Ramakrishnan Srikant在其1994年发表的论文“Fast Algorithms for Mining Association Rules”中提出的。
Apriori Algorithm的思想非常简单,基本思路是:如果一个项集是频繁项集,那么其所有的子集一定都是频繁项集。
关联规则表示属性之间的依赖与关系,可以用来进行业务决策和推荐系统服务。
下面给出Apriori算法的Python实现代码。
1. 实现项集的生成项集(itemset)是指一个或多个项(item)组成的集合。
一个项集中的项可以是物品、服务、事件、属性、特征等等。
在关联规则中,一个项集一般表示一种物品的集合,例如购买“牛奶”、“面包”、“可乐”等等。
为了实现Apriori算法,首先需要实现项集的生成。
项集的生成就是将大小为k-1的频繁项集合并成大小为k的候选项集。
具体实现如下:```def apriori_gen(freq_itemsets, k):# 合并大小为k-1的频繁项集candidates = []n = len(freq_itemsets)for i in range(n):for j in range(i+1, n):# 取出前k-2个项,检查是否相同,如果相同则合并L1 = list(freq_itemsets[i])[:k-2]L2 = list(freq_itemsets[j])[:k-2]L1.sort()L2.sort()if L1 == L2:candidates.append(freq_itemsets[i] | freq_itemsets[j])return candidates```频繁项集(frequent itemset)是指支持度达到阈值的项集。
有问题到百度搜索“大数据部落”就可以了欢迎登陆官网:/datablog通过Python中的Apriori算法进行关联规则挖掘数据分析报告关联规则挖掘是一种识别不同项目之间潜在关系的技术。
以超级市场为例,客户可以在这里购买各种商品。
通常,客户购买的商品有一种模式。
例如,有婴儿的母亲购买婴儿产品,如牛奶和尿布。
少女可以购买化妆品,而单身汉可以购买啤酒和薯条等。
总之,交易涉及一种模式。
如果可以识别在不同交易中购买的物品之间的关系,则可以产生更多的利润。
例如,如果项目A和项目B的购买频率更高,则可以采取几个步骤来增加利润。
例如:1. A和B可以放在一起,这样,当客户购买其中一种产品时,他不必走很远就可以购买另一种产品。
2. 购买某一种产品的人可以通过广告活动来定位以购买另一种产品。
3. 如果客户购买了这两种产品,则可以在这些产品上提供折扣。
4. A和B都可以包装在一起。
识别产品之间的关联的过程称为关联规则挖掘。
有问题到百度搜索“大数据部落”就可以了欢迎登陆官网:/datablog关联规则挖掘的Apriori算法已经开发出不同的统计算法来实现关联规则挖掘,而Apriori就是这样一种算法。
在本文中,我们将研究Apriori算法背后的理论,稍后将在Python中实现Apriori 算法。
先验算法理论支持度支持是指商品的默认受欢迎程度,可以通过查找包含特定商品的交易数量除以交易总数来计算。
假设我们想找到对项目B的支持。
可以将其计算为:Support(B) = (Transactions containing (B))/(Total Transactions)例如,如果在1000个事务中,有100个事务包含Ketchup,则对项目Ketchup 的支持可以计算为:Support(Ketchup) = (Transactions containingKetchup)/(Total Transactions)Support(Ketchup) = 100/1000有问题到百度搜索“大数据部落”就可以了欢迎登陆官网:/datablog= 10%置信度置信度是指如果购买了商品A,也购买了商品B的可能性。
apriori 代码例子Apriori是一种用于关联规则学习的算法,主要用于挖掘频繁项集和关联规则。
下面是一个简单的Python代码示例,演示如何使用Apriori算法进行关联规则学习。
# 导入相关库import pandas as pdfrom mlxtend.preprocessing import TransactionEncoderfrom mlxtend.frequent_patterns import apriorifrom mlxtend.frequent_patterns import association_rules# 加载数据集dataset = [['牛奶', '面包', '黄油'],['面包', '黄油', '花生酱'],['牛奶', '面包', '黄油', '花生酱'],['面包', '黄油'],['牛奶', '面包', '黄油', '鸡蛋']]# 数据预处理te = TransactionEncoder()te_ary = te.fit(dataset).transform(dataset)df = pd.DataFrame(te_ary, columns=te.columns_)# 使用Apriori算法找出频繁项集frequent_itemsets = apriori(df, min_support=0.6, use_colnames=True)# 生成关联规则rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7)# 输出结果print(frequent_itemsets)print(rules)在上面的代码中,我们首先使用Pandas库加载了一个简单的数据集,该数据集包含了5个交易的购物清单。
数据挖掘之Apriori算法详解和Python实现代码分享关联规则挖掘(Association rule mining)是数据挖掘中最活跃的研究⽅法之⼀,可以⽤来发现事情之间的联系,最早是为了发现超市交易数据库中不同的商品之间的关系。
(啤酒与尿布)基本概念1、⽀持度的定义:support(X-->Y) = |X交Y|/N=集合X与集合Y中的项在⼀条记录中同时出现的次数/数据记录的个数。
例如:support({啤酒}-->{尿布}) = 啤酒和尿布同时出现的次数/数据记录数 = 3/5=60%。
2、⾃信度的定义:confidence(X-->Y) = |X交Y|/|X| = 集合X与集合Y中的项在⼀条记录中同时出现的次数/集合X出现的个数。
例如:confidence({啤酒}-->{尿布}) = 啤酒和尿布同时出现的次数/啤酒出现的次数=3/3=100%;confidence({尿布}-->{啤酒}) = 啤酒和尿布同时出现的次数/尿布出现的次数 = 3/4 = 75%同时满⾜最⼩⽀持度阈值(min_sup)和最⼩置信度阈值(min_conf)的规则称作强规则 ,如果项集满⾜最⼩⽀持度,则称它为频繁项集“如何由⼤型数据库挖掘关联规则?”关联规则的挖掘是⼀个两步的过程:1、找出所有频繁项集:根据定义,这些项集出现的频繁性⾄少和预定义的最⼩⽀持计数⼀样。
2、由频繁项集产⽣强关联规则:根据定义,这些规则必须满⾜最⼩⽀持度和最⼩置信度。
Apriori定律为了减少频繁项集的⽣成时间,我们应该尽早的消除⼀些完全不可能是频繁项集的集合,Apriori的两条定律就是⼲这事的。
Apriori定律1:如果⼀个集合是频繁项集,则它的所有⼦集都是频繁项集。
举例:假设⼀个集合{A,B}是频繁项集,即A、B同时出现在⼀条记录的次数⼤于等于最⼩⽀持度min_support,则它的⼦集{A},{B}出现次数必定⼤于等于min_support,即它的⼦集都是频繁项集。
r语言关联规则R语言中的关联规则分析可以使用`arules`包来实现。
`arules`包提供了关联规则挖掘和可视化的工具,包括支持挖掘频繁项集、生成关联规则、评估规则质量等功能。
以下是使用`arules`包进行关联规则分析的基本步骤:1. 安装和加载`arules`包:```r("arules")library(arules)```2. 加载数据:将数据加载到``或`transactions`对象中。
例如,可以使用``函数加载CSV格式的数据。
3. 挖掘频繁项集:使用`apriori`函数挖掘频繁项集。
可以通过调整参数来控制频繁项集的最小支持度。
```rfreq_items <- apriori(data, parameter = list(supp = , minlen = 2))```4. 生成关联规则:使用`association_rules`函数生成关联规则。
可以通过调整参数来控制规则的最小置信度和提升度。
```rrules <- association_rules(freq_items, metric = "confidence",min_threshold = )```5. 可视化关联规则:使用`plot_rules`函数可视化关联规则。
可以选择不同的可视化方式,如条形图、矩阵等。
```rplot_rules(rules)```6. 评估关联规则质量:可以使用不同的度量指标来评估关联规则的质量,如置信度、提升度、支持度等。
可以使用`inspect`函数查看规则的详细信息。
7. 应用关联规则进行预测:可以使用生成的关联规则进行预测,例如根据用户的购买历史预测其可能感兴趣的商品。
可以根据规则的置信度对预测结果进行排序,并选择置信度较高的规则进行推荐。
以上是使用R语言进行关联规则分析的基本步骤,具体实现细节可以参考`arules`包的文档和示例代码。
【原创】附代码数据有问题到淘宝找“大数据部落”就可以了关联分析目录一、概括 (1)二、数据清洗 (1)2.1公立学费(NPT4_PUB) (1)2.2毕业率(Graduation.rate) (1)2.3贷款率(GRAD_DEBT_MDN_SUPP) (2)2.4偿还率(RPY_3YR_RT_SUPP) (2)2.5毕业薪水(MD_EARN_WNE_P10)。
(3)2.6 私立学费(NPT4_PRIV) (3)2.7 入学率(ADM_RATE_ALL) (4)三、Apriori算法 (4)3.1 相关概念 (5)3.2 算法流程 (6)3.3 优缺点 (7)四、模型建立及结果 (8)4.1 公立模型 (8)4.2 私立模型 (11)一、概括对7703条样本数据,分别根据公立学费和私立学费差异,建立公立模型和私立模型,进行关联分析。
二、数据清洗2.1公立学费(NPT4_PUB)此字段,存在4个负值,与实际情况不符,故将此四个值重新定义为NULL。
重新定义后,NULL值的占比为75%,占比很大,不能直接将NULL值删除或者进行插补,故将NULL单独作为一个取值分组。
对非NULL的值按照等比原则进行分组,分组结果如下:A:[0,5896]B:(5896,7754]C:(7754, 9975]D:(9975, 13819]E:(13819, +]分组后取值分布为:2.2毕业率(Graduation.rate)将PrivacySuppressed值重新定义为NULL,重新定义后,NULL值的占比为20%,占比较大,不适合直接删除或进行插补,故将NULL单独作为一个取值分组。
对非NULL值根据等比原则进行分组,分组结果如下:A:[0,0.29]B:(0.29,0.47]C:(0.47, 0.61]D:(0.61, 0.75]E:(0.75, +]分组后取值分布为:2.3贷款率(GRAD_DEBT_MDN_SUPP)将PrivacySuppressed值重新定义为NULL,重新定义后,NULL值的占比为20%,占比较大,不适合直接删除或进行插补,故将NULL单独作为一个取值分组。
apriori关联规则算法 python(实用版)目录1.介绍 Apriori 关联规则算法2.Python 中的 Apriori 算法实现3.应用实例与结果分析正文1.介绍 Apriori 关联规则算法Apriori 关联规则算法是一种挖掘频繁项集和关联规则的算法,由Ross Quinlan 在 1990 年提出。
该算法主要应用于数据挖掘、数据分析和机器学习领域。
关联规则是指在一个数据集中,若某个项集的出现频率达到一定阈值,则认为这些项集之间存在关联性。
Apriori 算法通过构建候选项集,然后扫描数据集,计算支持度来评估这些项集是否为频繁项集,从而找到关联规则。
2.Python 中的 Apriori 算法实现在 Python 中,可以使用 Apriori 算法库来实现关联规则挖掘。
首先需要安装 Apriori 算法库,可以通过以下命令进行安装:```bashpip install apriori```然后,可以通过以下示例代码实现 Apriori 算法:```pythonfrom apriori import Apriori# 创建一个 Apriori 实例apriori = Apriori()# 设置支持度阈值和最小项长apriori.set_support(0.5)apriori.set_min_len(2)# 加载数据集data = apriori.load_data("data.txt")# 运行 Apriori 算法apriori.run()# 获取频繁项集频繁项集 = apriori.get_频繁项集 ()# 输出频繁项集print("频繁项集:", 频繁项集)```3.应用实例与结果分析假设我们有一个销售数据集,其中每一行表示一个购物篮,包含了购买商品的种类。
通过 Apriori 算法,我们可以找到在购物篮中经常一起出现的商品组合,从而为市场营销活动提供依据。
Apriori算法简介Apriori算法是一种用于挖掘关联规则的经典算法,它基于频繁项集的概念,通过扫描数据集多次来发现频繁项集,并进一步生成关联规则。
Apriori算法可以用于市场篮子分析、销售预测、推荐系统等领域。
Apriori算法的核心思想是:如果一个项集是频繁的,那么它的所有子集也必须是频繁的。
反过来,如果一个项集不频繁,那么它的超集也不可能是频繁的。
这种思想被称为“Apriori原理”。
R语言中的apriori函数R语言中提供了一个名为apriori的函数,用于实现Apriori算法。
这个函数属于arules包,可以帮助我们发现数据集中的频繁项集和关联规则。
函数定义apriori函数的定义如下:apriori(data, parameter = NULL, appearance = NULL, control = NULL)其中, - data:指定要进行关联规则挖掘的数据集。
- parameter:可选参数,用于设置关联规则挖掘算法的参数。
- appearance:可选参数,用于设置出现次数约束条件。
- control:可选参数,用于设置算法的控制参数。
函数用途apriori函数主要用于以下两个方面: 1. 发现频繁项集:通过扫描数据集多次,找出满足支持度阈值的频繁项集。
2. 生成关联规则:基于频繁项集,通过计算置信度和提升度等指标,生成满足条件的关联规则。
函数工作方式apriori函数的工作方式可以分为三个步骤:步骤一:发现频繁项集在此步骤中,算法会扫描数据集多次,并计算每个项集的支持度。
支持度是指某个项集在数据集中出现的概率。
通过设置支持度阈值,我们可以筛选出满足条件的频繁项集。
步骤二:生成候选规则在此步骤中,算法会基于频繁项集生成候选规则。
对于每个频繁项集,算法会考虑所有可能的子集,并组合成候选规则。
步骤三:筛选关联规则在此步骤中,算法会计算每个候选规则的置信度和提升度等指标,并根据用户定义的条件进行筛选。
r语言apriori函数R语言是一种用于统计分析和数据可视化的编程语言,它拥有丰富的函数库和工具包,可以帮助数据分析师和研究人员快速处理和分析大量数据。
其中一个非常实用的函数是apriori函数,它用于进行关联规则分析。
关联规则分析是一种用于发现数据集中项之间的关联关系的方法。
它通常用于市场篮子分析,即分析顾客在购物时购买的不同商品之间的关联关系。
通过发现这些关联关系,商家可以更好地了解顾客的购买习惯,并采取相应的措施来提高销售额。
在R语言中,我们可以使用apriori函数来执行关联规则分析。
这个函数的基本语法是:```apriori(data, parameter1 = value1, parameter2 = value2, ...)```其中,data是一个数据集,parameter1、parameter2等是apriori 函数的参数。
这些参数可以用来控制关联规则分析的结果。
在使用apriori函数之前,我们需要将数据集转换为适合关联规则分析的形式。
通常,我们将数据集表示为一个二维表格,其中每一行代表一个交易,每一列代表一个商品。
如果某个交易中包含了某个商品,则对应的表格元素为1;否则为0。
例如,下面是一个示例数据集:```Apple Banana Bread Milk[1,] 1 1 0 1[2,] 0 1 1 1[3,] 1 0 1 0[4,] 1 1 1 1```在这个数据集中,有四个交易,每个交易都包含了不同的商品。
现在,我们可以使用apriori函数来分析这些交易之间的关联规则。
apriori函数的参数可以帮助我们筛选出有意义的关联规则。
其中最常用的参数是support和confidence。
support是指规则在数据集中出现的频率,而confidence是指规则的可信度。
通过设置这两个参数的阈值,我们可以选择出符合要求的关联规则。
下面是一个使用apriori函数进行关联规则分析的示例代码:```R# 导入arules包library(arules)# 创建一个数据集data <- matrix(c(1, 1, 0, 1,0, 1, 1, 1,1, 0, 1, 0,1, 1, 1, 1), ncol = 4, byrow = TRUE)# 将数据集转换为transaction对象transactions <- as(data, "transactions")# 使用apriori函数进行关联规则分析rules <- apriori(transactions, parameter = list(support = 0.5, confidence = 0.8))# 输出结果inspect(rules)```在上面的代码中,我们首先导入了arules包,该包提供了进行关联规则分析的函数。
第⼗四篇:Apriori关联分析算法原理分析与代码实现前⾔想必⼤家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事。
那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢?这就是关联分析所要完成的任务了。
本⽂将讲解关联分析领域中最为经典的Apriori算法,并给出具体的代码实现。
关联分析领域的⼀些概念1. 频繁项集: 数据集中经常出现在⼀起的物品的集合。
例如 "啤酒和尿布"2. 关联规则: 指两个物品集之间可能存在很强的关系。
例如 "{啤酒} -> {尿布}" 就是⼀条关联规则。
3. ⽀持度: 数据集中,出现了某个物品集的数据项占总数据项的⽐重(某些地⽅也解释为次数)。
4. 可信度: 这个概念是针对某条关联规则⽽定的。
它是指两个物品集的⽀持度和其中某个物品集的⽀持度之⽐,如 "⽀持度{啤酒,尿布} /⽀持度{尿布}"。
因此,⽤这些属于来解释啤酒与尿布的故事,那就是:{啤酒,尿布}是⼀个频繁项集;"{啤酒} -> {尿布}" 就是⼀条关联规则;顾客买尿布的同时买啤酒的可能性为 "⽀持度{啤酒,尿布} / ⽀持度{尿布}"。
那么对海量的数据,假如要得到⽀持度⼤于0.8的所有频繁项集,该怎么做?如果⽤蛮⼒法⼀个个统计,是根本不现实的,那样计算量实在太⼤。
本⽂将要介绍的Apriori关联分析算法意义就在于能够⼤幅度减少这种情况的计算量,并从频繁项集中⾼效检索出关联规则,从⽽⼤⼤减少关联规则学习所需要消耗的计算量。
Apriori算法基本原理 如果{0,1}是频繁项集,那么{0}和{1}也都是频繁项集。
这显然是正确的命题。
其逆否命题 - ”如果{0}和{1}不都是频繁项集,那么{0,1}不是频繁项集" ⾃然也是正确的。
-> 这就是 Apriori 算法的核⼼思想之⼀。
有问题到淘宝找“大数据部落”就可以了可以看到数据中一共有这些变量: colnames(trans.list)[1] "住院号""流水号"[3] "病案号""姓名"[5] "付款方式""合同单位"[7] "是否特病""住院次"[9] "性别""出生年月日"[11] "年龄""新生儿月份"[13] "新生儿体重""新生儿入院体重"[15] "婚姻""职业"[17] "出生地""民族"[19] "国籍""身份证号"[21] "出生地.省""市"[23] "县""籍贯.省"[25] "市.1""现住址.省"[27] "市.2""县.1"[29] "X""邮编"[31] "户口地址.省""市.3"[33] "县.2""X.1"[35] "邮编.1""工作单位及地址"[37] "工作单位电话""工作单位邮编"[39] "入院日期""入院途径"[41] "入院科别""出院科别"[43] "出院日期""出院科别"[45] "住院天数""门.急.诊诊断"[47] "门.急.诊诊断ICD""入院诊断"[49] "入院诊断ICD.10""病理诊断"[51] "病理诊断ICD.10""其他诊断"[53] "其他诊断ICD.10""出院诊断"[55] "出院诊断ICD.10""入院病情"[57] "损伤.中毒""药物过敏"[59] "过敏药物名称""日期"[61] "手术.操作编码""手术.操作名称"[63] "手术级别""手术.操作日期"[65] "麻醉方式""切口种类"[67] "愈合等级""尸检"[69] "血型""Rh"[71] "出院诊断2""入院病情2"[73] "出院诊断3""入院病情3"有问题到淘宝找“大数据部落”就可以了[75] "出院诊断4""入院病情4"[77] "出院诊断5""入院病情5"[79] "出院诊断6""入院病情6"[81] "出院诊断7""入院病情7"[83] "手术2""手术3"[85] "手术4""离院方式"[87] "医嘱转院.拟接受医疗机构""医嘱转社区.拟接受医疗机构"[89] "出院31天再入院计划""目的"[91] "入院前昏迷.天""小时"[93] "分钟""入院后昏迷.天"[95] "小时.1""分"[97] "总费用""床费"[99] "护理费""西药"[101] "中成药""草药"[103] "放射""化验"[105] "输氧""输血"[107] "诊疗""手术"[109] "接生""其他检查"[111] "麻醉""婴儿"[113] "陪床费""其他"[115] "卫材""X.2"选取其中的不同科室疾病住院天数变量trans.list1=trans.list[,c("入院科别","出院科别","住院天数" )]table(trans.list1$入院科别)library(ggplot2)datats=table(trans.list1$入院科别)datats产科病房儿科二病房儿科一病房耳鼻咽喉头颈病房577 742 488 617 放射治疗科病房风湿免疫科病房妇科病房肝胆胰外科病房1174 1 777 1371有问题到淘宝找“大数据部落”就可以了肛肠科病房骨外科病房和平骨外科病房和平呼吸内科病房305 668 303 1047 和平泌尿外科病房和平内分泌科病房和平普外科病房和平神经内科病房258 790 308 1494 和平消化内科病房和平心血管内病房和平眼科二病房和平眼科三病房576 1415 1222 1105 和平眼科四病房和平眼科一病房颌面外科病房呼吸内科病房1203 1415 61 1182 急诊观察室急诊外科病房介入科病房泌尿外科病房1 797 245 1053内分泌内科病房棋盘山结核病二科棋盘山结核病三科棋盘山结核病一科1440 549 493 561 棋盘山精神病科乳腺外科病房神经内科二病房神经内科一病房735 1044 1219 1760 神经外科病房肾内科病房生物治疗科病房太原康复医学病房560 723 839 372 太原综合内科病房危重症医学科胃肠外科病房消化内科病房271 60 1032 1124 心血管内科二病房心血管内科一病房新生儿病房胸心外科病房1111 1621 13 924 血液内科病房肿瘤内科病房235 1480datats=as.data.frame(datats)ggplot(data=datats, aes(x=Var1, y=Freq, fill=Var1)) +geom_bar(colour="black", stat="identity") +ggtitle("State")有问题到淘宝找“大数据部落”就可以了trans.list1$住院天数=ifelse(trans.list1$住院天数<=5,"低",ifelse(trans.lis t1$住院天数<=10,"中","高"))trans.list1=as.data.frame(trans.list1)trans.list1=na.omit(trans.list)str(trans.list1)'data.frame': 39361 obs. of 3 variables:$ 入院科别: Factor w/ 50 levels "产科病房","儿科二病房",..: 24 24 24 24 24 24 24 24 24 24 ...$ 出院科别: Factor w/ 46 levels "","儿科二病房",..: 1 1 1 1 1 1 1 1 1 1 ...$ 住院天数: chr "中""中""中""低" ...trans.list1[trans.list1==""]="NA"Warning in `[<-.factor`(`*tmp*`, thisvar, value = "NA"): invalid facto rlevel, NA generated删除缺失值trans.list1=na.omit(trans.list1)for(i in 1:ncol(trans.list1))trans.list1[,i]=as.factor(trans.list1[,i]) trans.list1 <- sapply(trans.list1,as.factor)transfer dat to factor有问题到淘宝找“大数据部落”就可以了coerce into transactionstrans1 <-as(trans.list1, "transactions")查看频繁项集频繁项集的所有非空子集也必须是频繁的。
即如果项集A不满足最小支持度阈值MinSup port,则A不是频繁的,如果将项集B添加到项集A中,也就是A ⋃ B也不可能是频繁的。
该性质是一种反单调性的性质,也就是说如果一个集合不能通过测试,则它的所有超集也都不能通过相同的测试。
frequentsets=eclat(trans1,parameter=list(support=0.04,minlen=2)) get fr equent setsEclatparameter specification:tidLists support minlen maxlen target extFALSE 0.04 2 10 frequent itemsets FALSEalgorithmic control:sparse sort verbose7 -2 TRUEAbsolute minimum support count: 66create itemset ...set transactions ...[96 item(s), 1654 transaction(s)] done [0.00s].sorting and recoding items ... [11 item(s)] done [0.00s].creating bit matrix ... [11 row(s), 1654 column(s)] done [0.00s].writing ... [19 set(s)] done [0.00s].Creating S4 object ... done [0.00s].inspect(frequentsets ) 察看求得的频繁项集 review frequent setsitems[1] {出院科别=危重症医学科,住院天数=高}[2] {入院科别=心血管内科二病房,住院天数=中}有问题到淘宝找“大数据部落”就可以了[3] {入院科别=心血管内科二病房,出院科别=心血管内科二病房}[4] {入院科别=心血管内科一病房,出院科别=心血管内科二病房,住院天数=中}[5] {入院科别=心血管内科一病房,住院天数=中}[6] {入院科别=心血管内科一病房,出院科别=心血管内科二病房}[7] {入院科别=神经内科二病房,出院科别=神经内科二病房,住院天数=高}[8] {入院科别=神经内科二病房,出院科别=神经内科二病房,住院天数=中}[9] {入院科别=神经内科二病房,住院天数=高}[10] {入院科别=神经内科二病房,住院天数=中}[11] {入院科别=神经内科二病房,出院科别=神经内科二病房}[12] {入院科别=神经内科一病房,出院科别=神经内科二病房,住院天数=中}[13] {入院科别=神经内科一病房,住院天数=高}[14] {入院科别=神经内科一病房,住院天数=中}[15] {入院科别=神经内科一病房,出院科别=神经内科二病房}[16] {出院科别=心血管内科二病房,住院天数=高}[17] {出院科别=心血管内科二病房,住院天数=中}[18] {出院科别=神经内科二病房,住院天数=高}[19] {出院科别=神经内科二病房,住院天数=中}support[1] 0.05199516[2] 0.05139057[3] 0.07799274[4] 0.05985490[5] 0.07980653[6] 0.10096735[7] 0.04897219[8] 0.07920193[9] 0.05804111[10] 0.08524788[11] 0.13966143[12] 0.08464329[13] 0.05199516[14] 0.09371221[15] 0.13663845[16] 0.05018138[17] 0.10096735[18] 0.09068924[19] 0.16384522inspect(sort(frequentsets,by="support") ) 根据支持度对求得的频繁项集排序并察看(等价于inspect(sort(frequentsets)[1:10])有问题到淘宝找“大数据部落”就可以了items[1] {出院科别=神经内科二病房,住院天数=中}[2] {入院科别=神经内科二病房,出院科别=神经内科二病房}[3] {入院科别=神经内科一病房,出院科别=神经内科二病房}[4] {入院科别=心血管内科一病房,出院科别=心血管内科二病房}[5] {出院科别=心血管内科二病房,住院天数=中}[6] {入院科别=神经内科一病房,住院天数=中}[7] {出院科别=神经内科二病房,住院天数=高}[8] {入院科别=神经内科二病房,住院天数=中}[9] {入院科别=神经内科一病房,出院科别=神经内科二病房,住院天数=中}[10] {入院科别=心血管内科一病房,住院天数=中}[11] {入院科别=神经内科二病房,出院科别=神经内科二病房,住院天数=中}[12] {入院科别=心血管内科二病房,出院科别=心血管内科二病房}[13] {入院科别=心血管内科一病房,出院科别=心血管内科二病房,住院天数=中}[14] {入院科别=神经内科二病房,住院天数=高}[15] {出院科别=危重症医学科,住院天数=高}[16] {入院科别=神经内科一病房,住院天数=高}[17] {入院科别=心血管内科二病房,住院天数=中}[18] {出院科别=心血管内科二病房,住院天数=高}[19] {入院科别=神经内科二病房,出院科别=神经内科二病房,住院天数=高}support[1] 0.16384522[2] 0.13966143[3] 0.13663845[4] 0.10096735[5] 0.10096735[6] 0.09371221[7] 0.09068924[8] 0.08524788[9] 0.08464329[10] 0.07980653[11] 0.07920193[12] 0.07799274[13] 0.05985490[14] 0.05804111[15] 0.05199516[16] 0.05199516[17] 0.05139057[18] 0.05018138[19] 0.04897219建立apriori模型Apriori是关联规则模型中的经典算法,是由R.Agrawal和R.Srikant于1994年提出的为布尔关联规则挖掘频繁项集的原创性算法。