当前位置:文档之家› 【原创】R语言药物关联规则apriori模型分析代码

【原创】R语言药物关联规则apriori模型分析代码

【原创】R语言药物关联规则apriori模型分析代码
【原创】R语言药物关联规则apriori模型分析代码

有问题到淘宝找“大数据部落”就可以了

可以看到数据中一共有这些变量: colnames(trans.list)

[1] "住院号""流水号"

[3] "病案号""姓名"

[5] "付款方式""合同单位"

[7] "是否特病""住院次"

[9] "性别""出生年月日"

[11] "年龄""新生儿月份"

[13] "新生儿体重""新生儿入院体重"

[15] "婚姻""职业"

[17] "出生地""民族"

[19] "国籍""身份证号"

[21] "出生地.省""市"

[23] "县""籍贯.省"

[25] "市.1""现住址.省"

[27] "市.2""县.1"

[29] "X""邮编"

[31] "户口地址.省""市.3"

[33] "县.2""X.1"

[35] "邮编.1""工作单位及地址"

[37] "工作单位电话""工作单位邮编"

[39] "入院日期""入院途径"

[41] "入院科别""出院科别"

[43] "出院日期""出院科别"

[45] "住院天数""门.急.诊诊断"

[47] "门.急.诊诊断ICD""入院诊断"

[49] "入院诊断ICD.10""病理诊断"

[51] "病理诊断ICD.10""其他诊断"

[53] "其他诊断ICD.10""出院诊断"

[55] "出院诊断ICD.10""入院病情"

[57] "损伤.中毒""药物过敏"

[59] "过敏药物名称""日期"

[61] "手术.操作编码""手术.操作名称"

[63] "手术级别""手术.操作日期"

[65] "麻醉方式""切口种类"

[67] "愈合等级""尸检"

[69] "血型""Rh"

[71] "出院诊断2""入院病情2"

[73] "出院诊断3""入院病情3"

有问题到淘宝找“大数据部落”就可以了

[75] "出院诊断4""入院病情4"

[77] "出院诊断5""入院病情5"

[79] "出院诊断6""入院病情6"

[81] "出院诊断7""入院病情7"

[83] "手术2""手术3"

[85] "手术4""离院方式"

[87] "医嘱转院.拟接受医疗机构""医嘱转社区.拟接受医疗机构"

[89] "出院31天再入院计划""目的"

[91] "入院前昏迷.天""小时"

[93] "分钟""入院后昏迷.天"

[95] "小时.1""分"

[97] "总费用""床费"

[99] "护理费""西药"

[101] "中成药""草药"

[103] "放射""化验"

[105] "输氧""输血"

[107] "诊疗""手术"

[109] "接生""其他检查"

[111] "麻醉""婴儿"

[113] "陪床费""其他"

[115] "卫材""X.2"

选取其中的不同科室疾病住院天数变量

trans.list1=trans.list[,c("入院科别",

"出院科别",

"住院天数" )]

table(trans.list1$入院科别)

library(ggplot2)

datats=table(trans.list1$入院科别)

datats

产科病房儿科二病房儿科一病房耳鼻咽喉头颈病房

577 742 488 617 放射治疗科病房风湿免疫科病房妇科病房肝胆胰外科病房

1174 1 777 1371

有问题到淘宝找“大数据部落”就可以了

肛肠科病房骨外科病房和平骨外科病房和平呼吸内科病房

305 668 303 1047 和平泌尿外科病房和平内分泌科病房和平普外科病房和平神经内科病房

258 790 308 1494 和平消化内科病房和平心血管内病房和平眼科二病房和平眼科三病房

576 1415 1222 1105 和平眼科四病房和平眼科一病房颌面外科病房呼吸内科病房

1203 1415 61 1182 急诊观察室急诊外科病房介入科病房泌尿外科病房

1 797 245 1053

内分泌内科病房棋盘山结核病二科棋盘山结核病三科棋盘山结核病一科

1440 549 493 561 棋盘山精神病科乳腺外科病房神经内科二病房神经内科一病房

735 1044 1219 1760 神经外科病房肾内科病房生物治疗科病房太原康复医学病房

560 723 839 372 太原综合内科病房危重症医学科胃肠外科病房消化内科病房

271 60 1032 1124 心血管内科二病房心血管内科一病房新生儿病房胸心外科病房

1111 1621 13 924 血液内科病房肿瘤内科病房

235 1480

datats=as.data.frame(datats)

ggplot(data=datats, aes(x=Var1, y=Freq, fill=Var1)) +

geom_bar(colour="black", stat="identity") +

ggtitle("State")

有问题到淘宝找“大数据部落”就可以了

trans.list1$住院天数=ifelse(trans.list1$住院天数<=5,"低",ifelse(trans.lis t1$住院天数<=10,"中","高"))

trans.list1=as.data.frame(trans.list1)

trans.list1=na.omit(trans.list)

str(trans.list1)

'data.frame': 39361 obs. of 3 variables:

$ 入院科别: Factor w/ 50 levels "产科病房","儿科二病房",..: 24 24 24 24 24 24 24 24 24 24 ...

$ 出院科别: Factor w/ 46 levels "","儿科二病房",..: 1 1 1 1 1 1 1 1 1 1 ...

$ 住院天数: chr "中""中""中""低" ...

trans.list1[trans.list1==""]="NA"

Warning in `[<-.factor`(`*tmp*`, thisvar, value = "NA"): invalid facto r

level, NA generated

删除缺失值

trans.list1=na.omit(trans.list1)

for(i in 1:ncol(trans.list1))trans.list1[,i]=as.factor(trans.list1[,i]) trans.list1 <- sapply(trans.list1,as.factor)transfer dat to factor

有问题到淘宝找“大数据部落”就可以了

coerce into transactions

trans1 <-as(trans.list1, "transactions")

查看频繁项集

频繁项集的所有非空子集也必须是频繁的。即如果项集A不满足最小支持度阈值MinSup port,则A不是频繁的,如果将项集B添加到项集A中,也就是A ? B也不可能是频繁的。该性质是一种反单调性的性质,也就是说如果一个集合不能通过测试,则它的所有超集也都不能通过相同的测试。

frequentsets=eclat(trans1,parameter=list(support=0.04,minlen=2)) get fr equent sets

Eclat

parameter specification:

tidLists support minlen maxlen target ext

FALSE 0.04 2 10 frequent itemsets FALSE

algorithmic control:

sparse sort verbose

7 -2 TRUE

Absolute minimum support count: 66

create itemset ...

set transactions ...[96 item(s), 1654 transaction(s)] done [0.00s].

sorting and recoding items ... [11 item(s)] done [0.00s].

creating bit matrix ... [11 row(s), 1654 column(s)] done [0.00s].

writing ... [19 set(s)] done [0.00s].

Creating S4 object ... done [0.00s].

inspect(frequentsets ) 察看求得的频繁项集 review frequent sets

items

[1] {出院科别=危重症医学科,住院天数=高}

[2] {入院科别=心血管内科二病房,住院天数=中}

有问题到淘宝找“大数据部落”就可以了

[3] {入院科别=心血管内科二病房,出院科别=心血管内科二病房}

[4] {入院科别=心血管内科一病房,出院科别=心血管内科二病房,住院天数=中}

[5] {入院科别=心血管内科一病房,住院天数=中}

[6] {入院科别=心血管内科一病房,出院科别=心血管内科二病房}

[7] {入院科别=神经内科二病房,出院科别=神经内科二病房,住院天数=高}

[8] {入院科别=神经内科二病房,出院科别=神经内科二病房,住院天数=中}

[9] {入院科别=神经内科二病房,住院天数=高}

[10] {入院科别=神经内科二病房,住院天数=中}

[11] {入院科别=神经内科二病房,出院科别=神经内科二病房}

[12] {入院科别=神经内科一病房,出院科别=神经内科二病房,住院天数=中}

[13] {入院科别=神经内科一病房,住院天数=高}

[14] {入院科别=神经内科一病房,住院天数=中}

[15] {入院科别=神经内科一病房,出院科别=神经内科二病房}

[16] {出院科别=心血管内科二病房,住院天数=高}

[17] {出院科别=心血管内科二病房,住院天数=中}

[18] {出院科别=神经内科二病房,住院天数=高}

[19] {出院科别=神经内科二病房,住院天数=中}

support

[1] 0.05199516

[2] 0.05139057

[3] 0.07799274

[4] 0.05985490

[5] 0.07980653

[6] 0.10096735

[7] 0.04897219

[8] 0.07920193

[9] 0.05804111

[10] 0.08524788

[11] 0.13966143

[12] 0.08464329

[13] 0.05199516

[14] 0.09371221

[15] 0.13663845

[16] 0.05018138

[17] 0.10096735

[18] 0.09068924

[19] 0.16384522

inspect(sort(frequentsets,by="support") ) 根据支持度对求得的频繁项集排序并察看(等价于inspect(sort(frequentsets)[1:10])

有问题到淘宝找“大数据部落”就可以了

items

[1] {出院科别=神经内科二病房,住院天数=中}

[2] {入院科别=神经内科二病房,出院科别=神经内科二病房}

[3] {入院科别=神经内科一病房,出院科别=神经内科二病房}

[4] {入院科别=心血管内科一病房,出院科别=心血管内科二病房}

[5] {出院科别=心血管内科二病房,住院天数=中}

[6] {入院科别=神经内科一病房,住院天数=中}

[7] {出院科别=神经内科二病房,住院天数=高}

[8] {入院科别=神经内科二病房,住院天数=中}

[9] {入院科别=神经内科一病房,出院科别=神经内科二病房,住院天数=中}

[10] {入院科别=心血管内科一病房,住院天数=中}

[11] {入院科别=神经内科二病房,出院科别=神经内科二病房,住院天数=中}

[12] {入院科别=心血管内科二病房,出院科别=心血管内科二病房}

[13] {入院科别=心血管内科一病房,出院科别=心血管内科二病房,住院天数=中}

[14] {入院科别=神经内科二病房,住院天数=高}

[15] {出院科别=危重症医学科,住院天数=高}

[16] {入院科别=神经内科一病房,住院天数=高}

[17] {入院科别=心血管内科二病房,住院天数=中}

[18] {出院科别=心血管内科二病房,住院天数=高}

[19] {入院科别=神经内科二病房,出院科别=神经内科二病房,住院天数=高}

support

[1] 0.16384522

[2] 0.13966143

[3] 0.13663845

[4] 0.10096735

[5] 0.10096735

[6] 0.09371221

[7] 0.09068924

[8] 0.08524788

[9] 0.08464329

[10] 0.07980653

[11] 0.07920193

[12] 0.07799274

[13] 0.05985490

[14] 0.05804111

[15] 0.05199516

[16] 0.05199516

[17] 0.05139057

[18] 0.05018138

[19] 0.04897219

建立apriori模型

Apriori是关联规则模型中的经典算法,是由R.Agrawal和R.Srikant于1994年提出的为布尔关联规则挖掘频繁项集的原创性算法。Apriori使用一种称作逐层搜索的迭代

有问题到淘宝找“大数据部落”就可以了

方法,k项集用于搜索k+1项集。该算法主要用于在交易数据、关联数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联性或因果结构。

rules <-apriori(data = trans1,

parameter =list(support =0.04, confidence =0.1,

minlen =2, maxlen =10))

Apriori

Parameter specification:

confidence minval smax arem aval originalSupport maxtime support min len

0.1 0.1 1 none FALSE TRUE 5 0.04 2

maxlen target ext

10 rules FALSE

Algorithmic control:

filter tree heap memopt load sort verbose

0.1 TRUE TRUE FALSE TRUE 2 TRUE

Absolute minimum support count: 66

set item appearances ...[0 item(s)] done [0.00s].

set transactions ...[96 item(s), 1654 transaction(s)] done [0.00s].

sorting and recoding items ... [11 item(s)] done [0.00s].

creating transaction tree ... done [0.00s].

checking subsets of size 1 2 3 done [0.00s].

writing ... [42 rule(s)] done [0.00s].

creating S4 object ... done [0.00s].

我们可以看到规则的概况:

summary(rules)Inspect transactions

set of 42 rules

rule length distribution (lhs + rhs):sizes

2 3

30 12

Min. 1st Qu. Median Mean 3rd Qu. Max.

2.000 2.000 2.000 2.286

3.000 3.000

summary of quality measures:

support confidence lift

Min. :0.04897 Min. :0.1037 Min. :0.5682

1st Qu.:0.05351 1st Qu.:0.2867 1st Qu.:1.2376

有问题到淘宝找“大数据部落”就可以了

Median :0.07950 Median :0.5083 Median :1.4100

Mean :0.08296 Mean :0.4790 Mean :2.0240

3rd Qu.:0.09371 3rd Qu.:0.5928 3rd Qu.:3.1916

Max. :0.16385 Max. :0.9291 Max. :4.1559

mining info:

data ntransactions support confidence

trans1 1654 0.04 0.1

查看规则

inspect(head(rules))

lhs rhs support

[1] {出院科别=危重症医学科} => {住院天数=高} 0.05199516

[2] {住院天数=高} => {出院科别=危重症医学科} 0.05199516

[3] {入院科别=心血管内科二病房} => {出院科别=心血管内科二病房} 0.07799274

[4] {出院科别=心血管内科二病房} => {入院科别=心血管内科二病房} 0.07799274

[5] {入院科别=心血管内科二病房} => {住院天数=中} 0.05139057

[6] {住院天数=中} => {入院科别=心血管内科二病房} 0.05139057 confidence lift

[1] 0.6323529 1.307390

[2] 0.1075000 1.307390

[3] 0.7588235 4.155941

[4] 0.4271523 4.155941

[5] 0.5000000 1.214391

[6] 0.1248164 1.214391

查看规则质量

quality(head(rules))

support confidence lift

1 0.05199516 0.6323529 1.307390

2 0.05199516 0.1075000 1.307390

3 0.0779927

4 0.758823

5 4.155941

4 0.07799274 0.4271523 4.155941

5 0.05139057 0.5000000 1.214391

6 0.0513905

7 0.1248164 1.214391

查看规则的支持度

rules <-sort(rules, by="support")

查看支持度最高的规则

inspect(head(rules, n=40))Look at rules with highest support

lhs

[1] {出院科别=神经内科二病房} =>

有问题到淘宝找“大数据部落”就可以了

[2] {住院天数=中} =>

[3] {入院科别=神经内科二病房} =>

[4] {出院科别=神经内科二病房} =>

[5] {入院科别=神经内科一病房} =>

[6] {出院科别=神经内科二病房} =>

[7] {入院科别=心血管内科一病房} =>

[8] {出院科别=心血管内科二病房} =>

[9] {出院科别=心血管内科二病房} =>

[10] {住院天数=中} =>

[11] {入院科别=神经内科一病房} =>

[12] {住院天数=中} =>

[13] {出院科别=神经内科二病房} =>

[14] {住院天数=高} =>

[15] {入院科别=神经内科二病房} =>

[16] {住院天数=中} =>

[17] {入院科别=神经内科一病房,出院科别=神经内科二病房} =>

[18] {入院科别=神经内科一病房,住院天数=中} =>

[19] {出院科别=神经内科二病房,住院天数=中} =>

[20] {入院科别=心血管内科一病房} =>

[21] {住院天数=中} =>

[22] {入院科别=神经内科二病房,出院科别=神经内科二病房} =>

[23] {入院科别=神经内科二病房,住院天数=中} =>

[24] {出院科别=神经内科二病房,住院天数=中} =>

[25] {入院科别=心血管内科二病房} =>

[26] {出院科别=心血管内科二病房} =>

[27] {入院科别=心血管内科一病房,出院科别=心血管内科二病房} =>

[28] {入院科别=心血管内科一病房,住院天数=中} =>

[29] {出院科别=心血管内科二病房,住院天数=中} =>

[30] {入院科别=神经内科二病房} =>

[31] {住院天数=高} =>

[32] {出院科别=危重症医学科} =>

[33] {住院天数=高} =>

[34] {入院科别=神经内科一病房} =>

[35] {住院天数=高} =>

[36] {入院科别=心血管内科二病房} =>

[37] {住院天数=中} =>

[38] {出院科别=心血管内科二病房} =>

[39] {住院天数=高} =>

[40] {入院科别=神经内科二病房,出院科别=神经内科二病房} =>

rhs support confidence lift [1] {住院天数=中} 0.16384522 0.5840517 1.4185338

有问题到淘宝找“大数据部落”就可以了

[2] {出院科别=神经内科二病房} 0.16384522 0.3979442 1.4185338

[3] {出院科别=神经内科二病房} 0.13966143 0.8953488 3.1916099

[4] {入院科别=神经内科二病房} 0.13966143 0.4978448 3.1916099

[5] {出院科别=神经内科二病房} 0.13663845 0.8464419 3.0172737

[6] {入院科别=神经内科一病房} 0.13663845 0.4870690 3.0172737

[7] {出院科别=心血管内科二病房} 0.10096735 0.6987448 3.8269002

[8] {入院科别=心血管内科一病房} 0.10096735 0.5529801 3.8269002

[9] {住院天数=中} 0.10096735 0.5529801 1.3430678

[10] {出院科别=心血管内科二病房} 0.10096735 0.2452276 1.3430678

[11] {住院天数=中} 0.09371221 0.5805243 1.4099666

[12] {入院科别=神经内科一病房} 0.09371221 0.2276065 1.4099666

[13] {住院天数=高} 0.09068924 0.3232759 0.6683728

[14] {出院科别=神经内科二病房} 0.09068924 0.1875000 0.6683728

[15] {住院天数=中} 0.08524788 0.5465116 1.3273572

[16] {入院科别=神经内科二病房} 0.08524788 0.2070485 1.3273572

[17] {住院天数=中} 0.08464329 0.6194690 1.5045547

[18] {出院科别=神经内科二病房} 0.08464329 0.9032258 3.2196885

[19] {入院科别=神经内科一病房} 0.08464329 0.5166052 3.2002432

[20] {住院天数=中} 0.07980653 0.5523013 1.3414189

[21] {入院科别=心血管内科一病房} 0.07980653 0.1938326 1.3414189

[22] {住院天数=中} 0.07920193 0.5670996 1.3773608

[23] {出院科别=神经内科二病房} 0.07920193 0.9290780 3.3118427

[24] {入院科别=神经内科二病房} 0.07920193 0.4833948 3.0989731

[25] {出院科别=心血管内科二病房} 0.07799274 0.7588235 4.1559408

[26] {入院科别=心血管内科二病房} 0.07799274 0.4271523 4.1559408

[27] {住院天数=中} 0.05985490 0.5928144 1.4398164

[28] {出院科别=心血管内科二病房} 0.05985490 0.7500000 4.1076159

[29] {入院科别=心血管内科一病房} 0.05985490 0.5928144 4.1025731

[30] {住院天数=高} 0.05804111 0.3720930 0.7693023

[31] {入院科别=神经内科二病房} 0.05804111 0.1200000 0.7693023

[32] {住院天数=高} 0.05199516 0.6323529 1.3073897

[33] {出院科别=危重症医学科} 0.05199516 0.1075000 1.3073897

[34] {住院天数=高} 0.05199516 0.3220974 0.6659363

[35] {入院科别=神经内科一病房} 0.05199516 0.1075000 0.6659363

[36] {住院天数=中} 0.05139057 0.5000000 1.2143906

[37] {入院科别=心血管内科二病房} 0.05139057 0.1248164 1.2143906

[38] {住院天数=高} 0.05018138 0.2748344 0.5682202

[39] {出院科别=心血管内科二病房} 0.05018138 0.1037500 0.5682202

[40] {住院天数=高} 0.04897219 0.3506494 0.7249675查看规则的置信度

rules <-sort(rules, by="confidence")

关联规则数据挖掘

关联规则数据挖掘 学习报告

目录 引言 2 案例 2 关联规则 3 (一)关联规则定义 (二)相关概念 (三)关联规则分类 数据 6 (一)小型数据 (二)大型数据 应用软件7 (一)WEKA (二)IBM SPSS Modeler 数据挖掘12 总结27

一、引言 数据库与互联网技术在日益发展壮大,人们每天可以获得的信息量呈指数级增长。如何从这浩如瀚海的数据中找出我们需要的数据显得尤为重要。数据挖掘又为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 数据挖掘大致分为以下几类:分类(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)。 二、案例 "尿布与啤酒"的故事。 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。

最新数据挖掘考试题目——关联分析资料

数据挖掘考试题目——关联分析 一、10个选择 1.以下属于关联分析的是() A.CPU性能预测B.购物篮分析 C.自动判断鸢尾花类别D.股票趋势建模 2.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘() A.K-means B.Bayes Network C.C4.5 D.Apriori 3.置信度(confidence)是衡量兴趣度度量()的指标。 A.简洁性B.确定性 C.实用性D.新颖性 4.Apriori算法的加速过程依赖于以下哪个策略() A.抽样B.剪枝 C.缓冲D.并行 5.以下哪个会降低Apriori算法的挖掘效率() A.支持度阈值增大B.项数减少 C.事务数减少D.减小硬盘读写速率 6.Apriori算法使用到以下哪些东东() A.格结构、有向无环图B.二叉树、哈希树 C.格结构、哈希树D.多叉树、有向无环图 7.非频繁模式() A.其置信度小于阈值B.令人不感兴趣 C.包含负模式和负相关模式D.对异常数据项敏感 8.对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是()[注:分别以1、2、3代表之] A.3可以还原出无损的1 B.2可以还原出无损的1 C.3与2是完全等价的D.2与1是完全等价的 9.Hash tree在Apriori算法中所起的作用是() A.存储数据B.查找 C.加速查找D.剪枝 10.以下不属于数据挖掘软件的是() A.SPSS Modeler B.Weka C.Apache Spark D.Knime 二、10个填空 1.关联分析中表示关联关系的方法主要有:和。 2.关联规则的评价度量主要有:和。 3.关联规则挖掘的算法主要有:和。 4.购物篮分析中,数据是以的形式呈现。 5.一个项集满足最小支持度,我们称之为。 6.一个关联规则同时满足最小支持度和最小置信度,我们称之为。

广联达算量模型与Revit土建三维设计模型建模交互规范

Revit导入广联达GCL 建模交互规范 广联达软件股份有限公司 2015年6月

目录 1总则 (1) 1.1综述 (1) 1.2依据 (1) 2术语 (1) 2.1构件 (1) 2.2构件图元 (1) 2.3线性构件 (1) 2.4面式构件 (1) 2.5点式构件 (1) 2.6不规则体 (2) 3基本规定 (2) 3.1建模方式 (2) 3.2原点定位 (2) 3.3构件命名 (2) 3.4按层绘制图元 (2) 3.5同一种类构件不应重叠(详见5.1.2节) (2) 3.6链接Revit (2) 3.7楼层定义 (2) 4构件命名规范 (3) 4.1Revit族类型命名规则 (3) 4.2Revit构件材质 (5) 4.3内、外墙属性 (6) 5图元绘制规范 (6) 5.1图元绘制规范总说明 (6) 5.1.1按层绘制图元............................................................... 错误!未定义书签。 5.1.2同一种类构件不应重叠 (6) 5.1.3线性图元封闭性 (6) 5.1.4附属构件和依附构件 (7) 5.1.5草图编辑 (7)

5.1.6捕捉绘制 (7) 5.1.7墙顶部、底部附着板顶板底(或者附着屋顶) (8) 5.2主体构件绘制规范 (8) 5.2.1墙、保温墙图元绘制规范 (8) 5.2.2板图元绘制规范 (9) 5.2.3梁、圈梁、连梁、过梁图元绘制规范 (10) 5.2.4柱图元绘制规范 (11) 5.2.5门窗图元绘制规范 (12) 5.2.6楼梯绘制规范 (13) 5.3装修构件绘制规范 (13) 5.3.1墙面、保温层绘制规范 (13) 5.3.2墙裙、踢脚图元绘制规范 (14) 5.3.3天棚、楼地面图元绘制规范 (16) 5.3.4独立柱装修、单梁装修图元绘制规范 (16) 5.4基础构件绘制规范 (17) 5.4.1独立基础图元绘制规范 (17) 5.4.2条形基础图元绘制规范 (17) 5.4.3桩承台图元绘制规范 (17) 5.4.4桩基础绘制规范 (17) 5.4.5筏板基础绘制规范 (18) 5.4.6集水坑图元绘制规范 (18) 5.4.7垫层图元绘制规范 (18) 5.5零星构件绘制规范 (19) 5.5.1挑檐图元绘制规范 (19) 5.5.2雨蓬图元绘制规范 (19) 5.5.3栏板、压顶图元绘制规范 (19) 5.5.4散水图元绘制规范 (20) 5.5.5台阶图元绘制规范 (20) 5.5.6栏杆扶手图元的绘制规范 (20) 5.5.7坡道图元绘制规范 (21)

SPSS关联模型步骤

SPSS Clenmentines提供众多的预测模型,这使得它们可以应用在多种商业领域中: 如超市商品如何摆放可以提高销量; 分析商场营销的打折方案,以制定新的更为有效的方案; 保险公司分析以往的理赔案例,以推出新的保险品种等等,具有很强的商业价值。 超市典型案例 如何摆放超市的商品引导消费者购物从而提高销量,这对大型连锁超市来说是一个现实的营销问题。关联规则模型自它诞生之时为此类问题提供了一种科学的解决方法。该模型利用数据挖掘的技术,在海量数据中依据该模型的独特算法发现数据内在的规律性联系,进而提供具有洞察力的分析解决方案。通过一则超市销售商品的案例,利用“关联规则模型”,来分析商品交易流水数据,以其发现合理的商品摆放规则,来帮助提高销量。 关联规则简介 关联规则的定义 关联规则表示不同数据项目在同一事件中出现的相关性,就是从大量数据中挖掘出关联规则。有关数据挖掘关联规则的具体理论依据这里不做详细讲解,大家可以参看韩家炜的数据挖掘概论。为了更直观的理解关联规则,我们首先来看下面的场景。 一个市场分析人员经常要考虑这样一个问题:哪些商品是频繁被顾客同时购买的? 顾客1:牛奶+面包+谷类 顾客2:牛奶+面包+糖+鸡蛋 顾客3:牛奶+面包+黄油 顾客4:糖+鸡蛋 以上的情景类似于当年沃尔玛做的市场调查:啤酒+尿片摆放在同一个货架上,销售业绩激增的著名关联规则应用。 市场分析员分析顾客购买商品的场景,顾客购买面包同时也会购买牛奶的购物模式就可用以下的关联规则来描述: 面包 => 牛奶 [ 支持度 =2%, 置信度 =60%] (式 1) 式 1中面包是规则前项(Antecedent),牛奶是规则后项 (Consequent)。实例数(Instances)表示所有购买记录中包含面包的记录的数量。 支持度(Support)表示购买面包的记录数占所有的购买记录数的百分比。 规则支持度(Rule Support)表示同时购买面包和牛奶的记录数占所有的购买记录数的百分比。 置信度(confidence)表示同时购买面包和牛奶的记录数占购买面包记录数的百分比。 提升(Lift)表示置信度与已知购买牛奶的百分比的比值,提升大于 1 的规则才是有意义的。 关联规则式 1的支持度 2% 意味着,所分析的记录中的 2% 购买了面包。置信度 60% 表明, 购买面包的顾客中的 60% 也购买了牛奶。如果关联满足最小支持度阈值和最小置信度阈值,就说关联规则是有意义的。这些阈值可以由用户或领域专家设定。就顾客购物而言,根据以往的购买记录,找出满足最小支持度阈值和最小置信度阈值的关联规则,就找到顾客经常同时购买的商品。 此处进行关联规则应用可以使用两种数据格式:1,交易数据格式,2,表格格式。 1.交易格式

数据挖掘实验报告-关联规则挖掘

数据挖掘实验报告(二)关联规则挖掘 姓名:李圣杰 班级:计算机1304 学号:1311610602

一、实验目的 1. 1.掌握关联规则挖掘的Apriori算法; 2.将Apriori算法用具体的编程语言实现。 二、实验设备 PC一台,dev-c++5.11 三、实验内容 根据下列的Apriori算法进行编程:

四、实验步骤 1.编制程序。 2.调试程序。可采用下面的数据库D作为原始数据调试程序,得到的候选1项集、2项集、3项集分别为C1、C2、C3,得到的频繁1项集、2项集、3项集分别为L1、L2、L3。

代码 #include #include #define D 4 //事务的个数 #define MinSupCount 2 //最小事务支持度数 void main() { char a[4][5]={ {'A','C','D'}, {'B','C','E'}, {'A','B','C','E'}, {'B','E'} }; char b[20],d[100],t,b2[100][10],b21[100 ][10]; int i,j,k,x=0,flag=1,c[20]={0},x1=0,i1 =0,j1,counter=0,c1[100]={0},flag1= 1,j2,u=0,c2[100]={0},n[20],v=1; int count[100],temp; for(i=0;i=MinSupCount) { d[x1]=b[k]; count[x1]=c[k]; x1++; } } //对选出的项集中的元素进行排序 for(i=0;i

数据挖掘关联规则分析报告

关联规则分析报告 2009年7月8日 目录 一前言 (1) 二数据预处理 (1) 三前7710条真实数据分析 (2) 1商品按小类分析 (2) 2商品按中类分析 (4) 3商品按大类分析 (4) 4分析比较 (5) 四后44904条随机数据分析 (5) 1商品按小类分析 (5) 2商品按中类分析 (7) 3商品按大类分析 (8) 4分析比较 (8) 五52614条混合数据分析 (8) 1商品按小类分析 (8) 2商品按中类分析 (11) 3商品按大类分析 (11) 4分析比较 (12) 六总结 (12)

一前言 使用关联规则挖掘算法分析购物清单时,会产生不止“啤酒→尿布”的单一关联规则,而将出现涉及多种商品的“纵横交错”的多条关联规则。针对这一实际问题,本文利用学生日常购物记录数据进行关联分析,通过概念分层从不同粒度上分析商品之间的关联性,从而找到商品之间的关联规则,实现优化超市货物摆放次序的目的。 二数据预处理 1)在SQL server 2000 查询分析器里执行下面的SQL语句 declare @sql varchar(8000) set @sql = 'select zid ,xh' select @sql = @sql + ' , max(case goodsid when ''' + goodsid + ''' then goodsid end) [' + 'n'+ goodsid + ']' from (select distinct goodsid from rcxfjl) as a set @sql = @sql + ' into table_a from rcxfjl group by zid,xh' exec(@sql) 2)在PB里将有购买记录的列改为”yes” for i=1 to dw_1.rowcount() for li_index=1 to long(dw_1.object.datawindow.column.count) if integer(dw_1.getitemstring(i,dw_1.describe('#' + string(li_index) + ".name")))>0 then dw_1.setitem(i,dw_1.describe('#' + string(li_index) + ".name"),"yes") end if next next 3)将处理好的数据直接导出到Excel中 4)将Excel表中的空格替换成”?”(在weka中?表示缺省值)

聚类分析、数据挖掘、关联规则这几个概念的关系

聚类分析和关联规则属于数据挖掘这个大概念中的两类挖掘问题, 聚类分析是无监督的发现数据间的聚簇效应。 关联规则是从统计上发现数据间的潜在联系。 细分就是 聚类分析与关联规则是数据挖掘中的核心技术; 从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。 从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。 聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。 从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。 关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(FrequentItemsets),第二阶段再由这些高频项目组中产生关联规则(AssociationRules)。 关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(LargeItemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。 关联规则挖掘的第二阶段是要产生关联规则(AssociationRules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(MinimumConfidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。

关联规则最大频繁项目集的快速发现算法

第42卷 第2期 吉林大学学报(理学版) V ol.42 N o.2 2004年4月 JO U RN A L OF JIL IN U N IV ER SIT Y(SCIEN CE EDIT ION)A pr 2004 关联规则最大频繁项目集的快速发现算法 刘大有1,2,刘亚波1,2,尹治东3 (1.吉林大学计算机科学与技术学院,长春130012; 2.吉林大学符号计算与知识工程教育部重点实验室,长春130012; 3.吉林出入境检验检疫局,长春130062) 摘要:提出一种快速发现最大频繁项目集的算法,该算法对集合枚举树进行改进,结合自底向上与自顶向下的搜索策略,利用非频繁项目集对候选最大频繁项目集进行剪枝和降维,减少了不必要候选最大频繁项目集的数量,显著提高了发现的效率. 关键词:关联规则;集合枚举树;最大频繁项目集 中图分类号:T P311 文献标识码:A 文章编号:1671-5489(2004)02-0212-04 Fast algorithm for discovering maximum frequent itemsets of association rules LIU Da-yo u1,2,LIU Ya-bo1,2,YIN Zhi-dong3 (1.College of Comp uter S cience and T echnology,J ilin U niver sity,Changchun130012,China; 2.K ey L abor atory of Sy mbolic Comp utation and K now ledg e E ngineering of M inistry of Education,J ilin U niver sity, Changchun130012,China; 3.J ilin E ntry-Ex it I nsp ection and Quar antine Bureau,Changchun130062,China) Abstract:The present paper presents an efficient alg orithm that improv es set-enumeratio n tr ee and finds maxim um frequent item sets.By co mbining botto m-up and top-dow n searches in set-enumeration tree and making use of the infrequent itemsets to pr une candidates of the m ax imum frequent itemsets, the algorithm reduces the number of candidates of the max imum frequent itemsets g enerated by it so that the efficiency is incr eased. Keywords:association rule;set-enumeration tree;max imum frequent itemset 发现频繁项目集是关联规则等多种数据挖掘的关键问题.在关联规则挖掘中,如果一个项目集的支持度不小于用户定义的最小支持度(以下简记为minsup),则称为频繁项目集;反之则称为非频繁项目集.如果一个频繁项目集的所有超集都是非频繁项目集,则称为最大频繁项目集.目前,多数频繁项目集发现算法都是Apr io ri算法或者其变种[1].这些算法采用自底向上的方法穷举每个频繁项目集,当最大频繁项目集很长时,这将是一个NP问题.任何频繁项目集都是最大频繁项目集的子集,该问题可以转化为发现所有最大频繁项目集.提高发现最大频繁项目集效率的关键是减少生成不必要的候选项目集及对其支持度的计算. 文献[2]中的M ax-Miner算法采用集合枚举树来描述项目集,突破了传统的自底向上的搜索策 收稿日期:2003-09-28. 作者简介:刘大有(1942~),男,教授,博士生导师,从事人工智能、数据挖掘和计算机应用的研究,E-mail:dyliu@https://www.doczj.com/doc/158656916.html,. cn.联系人:刘亚波(1975~),女,博士研究生,从事关联规则挖掘和粗糙集理论的研究,E-mail:liu-yabo@https://www.doczj.com/doc/158656916.html,. 基金项目:国家自然科学基金(批准号:60173006)、国家高技术研究发展计划项目(批准号:2003AA118020)、吉林省科技发展计划重大项目(批准号:吉科合字20020303-2)和吉林大学符号计算与知识工程教育部重点实验室资助基金.

SPSS关联模型步骤

提供众多的预测模型,这使得它们可以应用在多种商业领域中:如超市商品如何摆放可以提高销量; 分析商场营销的打折方案,以制定新的更为有效的方案; 保险公司分析以往的理赔案例,以推出新的保险品种等等,具有很强的商业价值。 超市典型案例 如何摆放超市的商品引导消费者购物从而提高销量,这对大型连锁超市来说是一个现实的营销问题。关联规则模型自它诞生之时为此类问题提供了一种科学的解决方法。该模型利用数据挖掘的技术,在海量数据中依据该模型的独特算法发现数据内在的规律性联系,进而提供具有洞察力的分析解决方案。通过一则超市销售商品的案例,利用“关联规则模型”,来分析商品交易流水数据,以其发现合理的商品摆放规则,来帮助提高销量。 关联规则简介 关联规则的定义 关联规则表示不同数据项目在同一事件中出现的相关性,就是从大量数据中挖掘出关联规则。有关数据挖掘关联规则的具体理论依据这里不做详细讲解,大家可以参看韩家炜的数据挖掘概论。为了更直观的理解关联规则,我们首先来看下面的场景。 一个市场分析人员经常要考虑这样一个问题:哪些商品是频繁被顾客同时购买的? 顾客1:牛奶+面包+谷类

顾客2:牛奶+面包+糖+鸡蛋 顾客3:牛奶+面包+黄油 顾客4:糖+鸡蛋 以上的情景类似于当年沃尔玛做的市场调查:啤酒+尿片摆放在同一个货架上,销售业绩激增的著名关联规则应用。 市场分析员分析顾客购买商品的场景,顾客购买面包同时也会购买牛奶的购物模式就可用以下的关联规则来描述: 面包 => 牛奶 [ 支持度 =2%, 置信度 =60%] (式 1) 式 1中面包是规则前项(),牛奶是规则后项 ()。实例数()表示所有购买记录中包含面包的记录的数量。 支持度()表示购买面包的记录数占所有的购买记录数的百分比。规则支持度()表示同时购买面包和牛奶的记录数占所有的购买记录数的百分比。 置信度()表示同时购买面包和牛奶的记录数占购买面包记录数的百分比。 提升()表示置信度与已知购买牛奶的百分比的比值,提升大于1 的规则才是有意义的。 关联规则式 1的支持度 2% 意味着,所分析的记录中的 2% 购买了面包。置信度 60% 表明,购买面包的顾客中的 60% 也购买了牛奶。如果关联满足最小支持度阈值和最小置信度阈值,就说关联规则是有意义的。这些阈值可以由用户或领域专家设定。就

关联规则Apriori算法的改进

关联规则Apriori算法的改进 摘要:文章提出一种改进的apriori算法。该算法通过减少对数据库搜索的次数,从而减少数据挖掘过程中的i/o开销。实践证明,用此算法进行关联挖掘,其效率比传统的方法要高。 关键词:数据挖掘关联规则频繁项集 apriori算法improvement of apriori algorithm for association rules li xiao-hui (college of computer science and technology,changchun university,changchun 130022,china) abstract:this paper presents an improved apriori algorithm. the new algorithm can decrease the i/o operation of the process of mining by means of decreasing the times of database searching. it is shown by the experimental result that the improved algorithm is much more efficient than the traditional algorithm in being applied to mining association rule. neywords:data mining,association rule,frequent itemset,apriori algorithm 1、引言 随着数据库技术和计算机网络的发展,在海量数据里发现有价值 的知识和信息的工作受到了越来越多的重视。数据挖掘的一个重要方向是关联规则的挖掘,而关联规则挖掘中最经典算法是apriori

Revit土建三维设计模型与造价算量模型交互建模规范

Revit三维设计模型与造价算量模型交互 建模规范 广联达软件股份有限公司 2014年1月

目录 1 总则 (3) 1.1综述 (3) 1.2依据 (3) 1.3适用范围 (3) 2 术语 (3) 3 基本规定 (4) 3.1楼层定义 (4) 3.2标高体系 (4) 3.3原点定位 (4) 3.4分层定义绘制图元 (4) 3.5参照绘制 (4) 4图元建模规范 (5) 4.1图元建模规范总说明 (5) 4.2主体构件绘制规范 (10) 4.3装修构件绘制规范 (15) 4.4基础构件绘制规范 (19) 4.5零星构件绘制规范 (21) 5 构件建模规范 (24) 5.1构件命名 (24) 5.2构件材质 (24) 5.3构件标高 (24) 5.4构件断面尺寸 (24) 5.5内外墙体定义 (24) 附录构件定义标识及替代方案 (25)

1 总则 1.1综述 为有效的实现三维设计模型和造价算量模型的交互承接,对三维设计建模做相应约束,以实现三维设计模型与下游造价模型无缝衔接。 本规范涉及两大部分:设计本身的建模规范(仅限于和造价算量交互易出问题的部分)和构件规范两大部分。 Revit中针对土建专业,构件类别有限,因此在实际建模时常常使用替代构件或自定义族 进行定义。为了更好的承接到造价算量模型中,根据造价算量国标规范要求对Revit中构件做 了相应的规范和要求,详见构件规范部分内容。 1.2依据 根据设计规范、国内清单定额计算规则规范要求,结合国内设计行业制图特点及相关设计、造价软件,制定本规范。 1.3适用范围 本规范适用于使用Revit进行土建专业三维建模,并且符合本规范要求的建模方式和构件范围及构件建模规范要求。本规范不支持未列在本规范内的构件以及其它三维建模软件所建模型。本规范仅适用于接口要求,是三维设计规范的一部分,不是三维设计规范的全部。 2 术语 不规则体:将revit图元导入土建GCL2013软件之后,属性不能编辑和修改的构件统称不规则体。 线性构件:是指能够确定构件的线性方向的构件,比如墙、梁、条基等。

广联达算量模型与Revit钢筋三维设计模型建模交互规范201608版

Revit导入广联达GGJ 建模交互规范 广联达软件股份有限公司 2016年4月

目录 1总则 (1) 1.1综述 (1) 1.2依据 (1) 2术语 (1) 2.1构件 (1) 2.2构件图元 (1) 2.3线性构件 (1) 2.4面式构件 (1) 2.5点式构件 (2) 3基本规定 (2) 3.1建模方式 (2) 3.2原点定位 (2) 3.3构件命名 (2) 3.4按层绘制图元 (2) 3.5同一种类构件不应重叠(详见5.2.1节) (2) 3.6链接Revit (2) 3.7楼层定义 (3) 3.8处理范围 (3)

4构件命名规范 (3) 4.1Revit族类型命名规则 (3) 4.2Revit构件材质 (4) 5图元绘制规范(导入实体) (5) 5.1应用范围: (5) 5.1.1由Revit绘制的模型 (5) 5.1.2由盈建科以下插件转化而来的Revit模型 (5) 5.2图元绘制规范总说明 (5) 5.2.1同一种类构件不应重叠 (5) 5.3主体构件绘制规范 (6) 5.3.1墙图元绘制规范 (6) 5.3.2板图元绘制规范 (6) 5.3.3梁、连梁图元绘制规范 (7) 5.3.4柱图元绘制规范 (7) 6图元转化规范(导入实体及配筋) (7) 6.1应用范围: (7) 6.2应用方式: (8) 6.3主体构件配筋转化范围: (10) 6.3.1墙构件配筋转化范围 (10)

6.3.2板构件配筋转化范围 (10) 6.3.3梁、连梁构件配筋转化范围 (10) 6.3.4柱构件配筋转化范围 (12)

1总则 1.1综述 BIM发展目前处于快速发展阶段,上游的BIM模型如果不能很好的传递、应用到下游,则会严重阻碍BIM的持续发展。为有效的实现BIM设计模型和造价算量模型的交互承接,并可延续应用到施工及运维阶段,特制定本规范。1.2依据 根据设计规范、国内清单定额计算规则规范要求,结合国内设计行业制图特点及相关设计、造价软件,制定本规范。 2术语 2.1构件 构件是对建筑工程中某一具体构件所具有的属性的描述,是预先定义的某类建筑图元描述的集合体。 2.2构件图元 构件图元是建筑工程中实际的具体构件的应用,软件产品中表现为绘图界面的模型,每个图元都对应有自己的构件。 2.3线性构件 可以在长度方向上拉伸的构件图元,称为线性构件,如墙、梁、条形基础等。 2.4面式构件 厚度方便不可以被拉伸,水平可以多个方向被拉伸的构件图元,称为面式构

基于Apriori算法的关联分析

龙源期刊网 https://www.doczj.com/doc/158656916.html, 基于Apriori算法的关联分析 作者:葛丽翠 来源:《财讯》2018年第28期 数据挖掘是一门科学,它可以一种从海量的数据中提取有价值的信息,本文主要以数据挖掘中关联分析模型为例,基于R软件利用Apriori算法,对取自UCI中的mushroom数据集进行分析,发现毒蘑菇的共同特征,利用这些特征可以避免吃到有毒的蘑菇。 毒蘑菇关联分析 Apriori算法 引言 随着大数据时代的发展,数据挖掘在生活中的应用越来越广泛,其中数据挖掘中的关联分析是在大量的数据集中寻找一些内在的联系,比如通过查看哪些商品经常在一起购买,可以帮助商店了解用户的购买行为。这种从数据海洋中提取的信息可以用于商品定价、市场促销、存活管理等环节,比如“啤酒和纸尿布”的故事,零售商场里的组合套装的捆绑销售,比如洗发水加沐浴露,泡面加火腿肠,牛奶加面包等等。从新闻网站点击流中挖掘新闻流行趋势,挖掘哪些新闻广泛被用户浏览到,搜索引擎推荐,在用户输入查询词时推荐同相关的查询词项。不管关联分析应用于什么领域,最终都是为了发现一些经常共同出现的特征集合,本文是介绍了关联分析的一些基本概念,Apriori算法的核心思想,然后利用取自UCI网站的mushroom数据集进行数据关联分析,最后发现毒蘑菇的共同特征,然后利用这些特征避免吃到有毒的蘑菇。 文献综述 2011年,Jiawei Han和Micheline Kamber写的著作《数据挖掘:概念与技术》里第六章详细介绍了挖掘频繁模式、关联和相关性的基本概念和方法,该书给出了一个最经典的关联分析的案例即购物篮分析。刘玲,丁浩两人发表的论文《上市公司财务报表粉饰识别》(2010)一文将关联分析里Apriori算法理论应用到了上市公司的财务分析领域。 毒蘑菇的实证分析 (1)数据来源与结构 首先从网站https://https://www.doczj.com/doc/158656916.html, /ml/datasets/Mushroom搜集到了关于肋型蘑菇的23种特征的数据集,每个特征包含一个标称数据集,如果想做关联分析,我们需要把这些标称值转化为一个集合,Roberto Bayardo对UCI网站上蘑菇数据集进行了解析,转化后的数据来自http://fimi.ua.ac.be/data/mushroom.dat/.

BIM模型建模规范及交付标准V2.0 -水印版

中交二航局建筑工程有限公司 BIM 模型建模规范及交付标准 (V2.0) 二〇一五年十二月 S H E C C E S H E C C E H E C C E S H E C C E S H E C C E S H E S H E C C E S H E C C E

目录 第一章 总则 .................................................................................................................... - 4 - 1.1 目的 ....................................................................................................................... - 4 - 1.2 引用文件及参见规范 ........................................................................................... - 4 - 1.3术语 ........................................................................................................................ - 4 - 第二章 建模资源 .............................................................................................................. - 6 - 2.1 建模软件 ............................................................................................................... - 6 - 2.2 模型整合软件 ....................................................................................................... - 6 - 2.3模型、信息集成平台 ............................................................................................ - 6 - 2. 4其他BIM 软件要求 ............................................................................................. - 6 - 2. 5软件版本 ............................................................................................................... - 6 - 第三章 建模标准 .............................................................................................................. - 7 - 3.0 BIM 模型精度 ....................................................................................................... - 7 - 3.1 建模依据 ............................................................................................................... - 8 - 3.2 BIM 模型分类 ....................................................................................................... - 8 - 3.2.1 按照专业分类 ............................................................................................ - 8 - 3.3 BIM 模型命名标准 ............................................................................................... - 8 - 3.3.1 专业代码 .................................................................................................. - 8 - 3.3.2 区域代码 .................................................................................................. - 8 - 3.3.3 模型命名标准 ............................................................................................ - 9 - 3.4 模型定位及项目基准点的设置及单位 ............................................................... - 9 - 3.4.1项目单位及项目样板 ................................................................................. - 9 - 3.4.2模型竖向定位及命名 ................................................................................. - 9 - 3.4.3项目基准点的设置 ..................................................................................... - 9 - 3.5 模型绘制 ............................................................................................................. - 10 - 3.5.1 土建专业的建模方法: .......................................................................... - 10 - 3.5.2 MEP 专业的建模方法: .......................................................................... - 18 - 3.5.3 钢筋专业的建模方法: .......................................................................... - 26 - 3.6 族命名方式及颜色设置 ..................................................................................... - 27 - S H E C C E S H E C C E H E C C E S H E C C E S H E C C E S H E S H E C C E S H E C C E

基于Apriori算法的关联规则挖掘实例

第五章基于Apriori算法的关联规则挖掘实例 在电子病历的操作过程中产生了大量数据,对数据进行挖掘,利用知识之间的关联性,可以对不同疾病人群进行挖掘分析,发现这种隐含关系,对于临床研究而言,具有重大的指导意义。 从电子病历系统中随机抽取多位病人信息,主要检查其是否患有心力衰竭、糖尿病、尿毒症,肾功能衰竭等4种疾病,利用关联规则Apriori算法可以检测以上四种疾病是否存在关联。 首先对病历数据进行收集整理:(见表1) 表1 病人患病情况整合表 病人记录号疾病名称 1 心力衰竭、其他疾病 2 心力衰竭 3 心力衰竭、尿毒症 4 心力衰竭、肾功能衰竭、糖尿病、尿毒症

5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 心力衰竭、尿毒症、肾功能衰竭、糖尿病 糖尿病 糖尿病、心力衰竭、其他疾病 糖尿病、尿毒症 糖尿病 糖尿病、肾功能衰竭、尿毒症 糖尿病 糖尿病、尿毒症、肾功能衰竭、心力衰竭糖尿病、尿毒症、肾功能衰竭、心力衰竭 肾功能衰竭 肾功能衰竭、其他疾病 肾功能衰竭、糖尿病 肾功能衰竭、尿毒症 肾功能衰竭 尿毒症、糖尿病、肾功能衰竭 尿毒症、肾功能衰竭、 尿毒症 尿毒症、肾功能衰竭、糖尿病、心力衰竭糖尿病、尿毒症、肾功能衰竭、心力衰竭糖尿病、尿毒症、肾功能衰竭、心力衰竭糖尿病、尿毒症、肾功能衰竭、心力衰竭 我们假设最小支持度为40%,利用Apriori算法进行数据挖掘,首先检测事务数据并生成候选项集H1。(见表2) 表2 候选项集H1 项集支持度 心力衰竭48% 糖尿病64% 尿毒症56% 肾功能衰竭64% 其他疾病12% 根据H1并结合我们要求的最小支持度40%,进而出现频繁项集的集合P1。(见表3) 表3 频繁项集P1

相关主题
文本预览
相关文档 最新文档