当前位置:文档之家› 大数据挖掘的粒计算理论与方法-JiyeLiang

大数据挖掘的粒计算理论与方法-JiyeLiang

大数据挖掘的粒计算理论与方法-JiyeLiang
大数据挖掘的粒计算理论与方法-JiyeLiang

中国科学:信息科学2015年第45卷第11期:1355–1369

https://www.doczj.com/doc/6c11078361.html,

大数据挖掘的粒计算理论与方法

梁吉业xy*,钱宇华xy,李德玉xy,胡清华z

x山西大学计算智能与中文信息处理教育部重点实验室,太原030006

y山西大学计算机与信息技术学院,太原030006

z天津大学计算机科学与技术学院,天津300072

*通信作者.E-mail:ljy@https://www.doczj.com/doc/6c11078361.html,

收稿日期:2015–05–07;接受日期:2015–06–08;网络出版日期:2015–09–18

国家自然科学基金(批准号:61432011,U1435212,61322211)、国家重点基础研究发展计划(973计划)(批准号:2013CB329404)和教育部新世纪人才支持计划(批准号:NCET-12-1031)资助项目

摘要大数据往往呈现出大规模性、多模态性以及快速增长性等特征.粒计算是智能信息处理领域中大规模复杂问题求解的有效范式.从推动大数据挖掘研究角度,本文首先概要地讨论了大数据的特征对可计算性、有效性与高效性提出的3大挑战;其次,结合粒计算的思维模式特点,概述了已有研究成果,分析论述了以粒计算应对大数据挖掘挑战的可行性,认为粒计算有望为大数据挖掘提供一条极具前途的崭新途径;最后,对大数据挖掘的粒计算理论与方法中的若干科学问题进行了梳理与展望,以期抛引这一领域的学术思考与研究工作.

关键词大数据数据挖掘模式发现粒计算信息粒化多粒度

1引言

根据维基百科的定义,大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合.大数据=海量数据+复杂类型的数据.大数据通常来源于以互联网为载体的虚拟社会系统,或者来源于复杂的工业控制系统、物联网系统、经济与金融系统,现实社会的各种管理与监控系统,以及诸如空间探测、大气与地球科学、生物信息学等科学研究领域[1~3].2011年IDC公司发布的《数字宇宙研究报告》称:全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB.预计到2020年,全球将总共拥有35ZB的数据量.大数据在现代信息社会中的数据资源主体地位已成为学术界与企业界的共识.由于对经济活动与社会发展具有可预见的重要推动作用,大数据已经进入了世界主要经济体的战略研究计划.正如美国政府启动的“Big Data Research and Development Initiative”计划指出的“将大力推进大数据的收集、访问、组织和开发利用等相关技术的发展,提高从海量复杂的数据中提炼信息和获取知识的能力与水平”.从大数据中进行数据挖掘与知识发现是大数据应用的战略问题之一.

梁吉业等:大数据挖掘的粒计算理论与方法

2大数据挖掘面临的挑战

2008年,Nature出版的专辑“Big Data”从互联网技术、网络经济学、超级计算、环境科学和生物医药等多个方面介绍了大数据带来的挑战[4].2011年2月Science杂志刊发了海量数据处理专题,指出“倘若能够更有效地组织和利用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用”[5].

大数据的特征常被总结为4V,即Volume(体量浩大)、Variety(模态繁多)、Velocity(快速增长)、Value(价值巨大但密度很低).其中,“价值巨大但密度很低”从大数据的利用潜力和当前分析与处理的技术局限性角度概括了大数据的特征,是指大数据的价值虽高,但利用密度很低.本文重点针对大数据的外在形态特征,即大数据的规模海量性、多模态性以及快速增长性等对传统的数据挖掘理论、方法与技术在可计算性、有效性与时效性等方面提出的严峻挑战进行研究.而为应对这些挑战所涌现的新的计算理论、方法与技术将有效推动大数据挖掘的发展与应用.

2.1大规模性VS可计算性

数据规模的急剧膨胀给数据挖掘,特别是面向互联网的数据挖掘带来了巨大挑战[6,7].为了使巨量数据可计算,一些新的高性能计算方法逐渐涌现.2004年,Google公司首先推出了以MapReduce 为代表的非关系数据管理技术,作为面向大数据分析和处理的并行计算模型,很快引起了学术界和工业界的广泛关注.在面向大数据的挖掘技术方面,国内外学者也进行了一些初步探索.比如,针对传统分析软件扩展性差以及Hadoop分析功能薄弱的特点,IBM致力于对R和Hadoop进行集成[8].R 是开源统计分析软件,通过R和Hadoop的深度集成,把并行框架下的计算推向数据.另有研究者实现了Weka(类似于R的开源机器学习和数据挖掘工具软件)和MapReduce的集成[9].标准版Weka 工具只能在单机上运行,并且存在内存不能超越1GB的限制.经过算法的并行化,在MapReduce集群上,Weka突破了原有的可处理数据量的限制,可以轻松地对超过100GB的数据进行分析.另有开发者发起了Apache Mahout项目的研究,该项目是基于Hadoop平台的大规模数据集上的机器学习和数据挖掘开源程序库,为应用开发者提供了丰富的数据分析功能.针对频繁模式、分类和聚类等数据挖掘任务,研究人员也提出了相应的大数据解决方案.比如,Miliaraki等[10]提出了一种可扩展的在MapReduce框架下进行频繁序列模式挖掘的算法,Ene等[11]用MapReduce实现了大规模数据下的K-Center和K-Median聚类方法,Yu等[12]提出了针对线性分类模型的大数据分类方法,Kang等[13]使用Belief Propagation算法(简称BP)处理大规模图数据挖掘异常模式.针对大规模图数据分析, Yang等[14]对基于集群上的大规模图数据管理和局部图的访问特征(广度优先查询和随机游走等)进行了研究,提出了分布式图数据环境和两级划分管理架构.

另一种应对大数据可计算性挑战的思路是使用数据采样技术,通过采样使数据规模变小,以便利用现有的技术手段进行数据分析[15].然而,这一思路可能会遭受两方面的质疑.一方面,大数据的混杂性使得抽样所获得的样本未必能反映大数据总体;另一方面,普遍认为:大数据条件下,基于小样本学习理论的传统数据挖掘、机器学习方法的“独立同分布假设”难以保障,致使样本数据模式能否代表总体数据模式受到质疑.

事实上,MapReduce是在大规模非结构化数据的管理层面为人们提供了一种并行处理架构.而在大数据数据分析与挖掘层面遭遇的可计算性挑战方面,尽管已有一些工作,但还处于借用MapReduce 对数据进行管理的阶段,还没进入面向数据挖掘任务、针对大数据本身研究其拆分理论与方法,以应对可计算性挑战的阶段.

1356

中国科学:信息科学第45卷第11期2.2多模态性VS有效性

多模态是大数据的另一个显著特点.当前,数据采集方式、手段的多样性一方面为人们提供了从不同视角观测自然系统、工业系统、社会系统中复杂现象的可能性,另一方面也使得观测对象的数据描述呈现出多模态特征.比如,在医疗检测中,提供的心电、脑电、超声、X射线、电子计算机断层扫描(CT)、磁共振成像(MRI)、正电子发射断层扫描(PET)、单光子发射断层成像(SPECT)及功能磁共振成像(FMRI)等多种模态信息是互为差异、互相补充的,对不同模态信息进行适当的融合成为临床诊断和疾病治疗的迫切需求.在天体物理研究中,太阳大气成像仪记录了太阳内部结构和磁场结构、太阳的极紫外线辐射、太阳盘面的数个不同波长紫外线和极紫外线影像,一天生成的数据将近2T.太阳物理学家需要从如此海量的多模态数据中发现太阳活动的物理规律,以揭示空间天气的形成机理,并建立可靠的预报模型.

当前,在一些领域已经开展了多模态数据分析的探索性研究[16~19],主要思路是:将分别从不同模态的数据中提取的特征合并成一个更大的特征空间,然后在这个特征空间中进行数据分析与挖掘.现有方法属于特征层面融合后的分析思路,其有效性依赖于根据先验知识提取的特征,难以推广到先验知识匮乏的前沿探索领域.现有方法的主要局限性表现在以下3个方面.其一,所获取的数据模式(知识)表现出高度非线性特点,难以被用户理解;其二,难以对带有分支、层次、网络等结构的复杂问题进行数据层面的建模;其三,融合仅限于特征层面,还没有深入到知识和推理层面.

如何充分利用大数据的多模态性,发展面向复杂问题求解,能从数据、特征、知识、推理等不同层面体现融合思想,具有分层递阶、分而治之特点的高效挖掘理论与方法是多模态大数据分析的主要挑战.

2.3增长性VS时效性

大数据的又一个显著特点是数据量随着时间快速积累、迅速增长,人们可以充分利用历史数据和新增数据分析对象的状态、预测事件的发展趋势.许多实际应用领域的数据挖掘任务具有较高的时效性要求.比如,在客户购买行为模式的分析中,电子商务平台上的数据几乎每时每刻都在动态增加和更新,决策者需要及时掌握客户行为的模式和消费趋势,以便更精准地投放广告进行商品推荐.在股票投资决策中,股票交易数据在开盘期间实时累积,如何及时做出优化组合投资决策对降低投资风险、提高收益率至关重要.在社会网络中,大量的节点上的状态在不断发生变化,节点与节点之间的链接情况也在不断发生变化,这给面向社会网络的数据挖掘的实时性要求带来了挑战.OLAP(online analytical processing)正是为了契合这种数据分析的时效性需求而被提出的.然而,在大数据时代,数据的增长不仅仅体现在其快速性上,而且体现在分析所需时间段内数据增量的大规模性,这使得传统的单增量或小规模批增量机器学习技术的局限性凸显,大数据呼唤更高效的在线数据分析技术.最主要的挑战在于:基于大规模批增量数据的模式更新机制以及高效算法.

综合上述分析可以看出,大数据的大规模性、多模态性与快速增长性给大数据挖掘提出的挑战是多方面的、多层面的.衍生出的问题既具有领域相关性,又具有多学科交叉性.为此,需要在现有研究成果的基础上,以全新的视角发展大数据挖掘的新理论与新方法,推动大数据学科的发展与应用.

3粒计算——大数据挖掘的新途径

粒计算是专门研究基于粒结构的思维方式、问题求解方法、信息处理模式的理论、方法、技术和

1357

梁吉业等:大数据挖掘的粒计算理论与方法

工具的学科,是当前智能信息处理领域中一种新的计算范式.从人工智能角度来看,粒计算是模拟人类思考和解决大规模复杂问题的自然模式,从实际问题的需要出发,用可行的满意近似解替代精确解,达到对问题的简化、提高问题求解效率等目的.从数据分析与处理层面看,粒计算通过将复杂数据进行信息粒化,用信息粒代替样本作为计算的基本单元,可大大提高计算效率.粒计算主要包括数据粒化、多粒度模式发现与融合、多粒度/跨粒度推理等核心研究内容.大数据的表现性态、大数据挖掘面临的挑战、基于大数据的复杂问题建模与粒计算框架的契合之处主要表现在以下3个方面.

3.1大数据经常具有多层次/多粒度特性

1990年,我国著名科学家钱学森先生在其论文《一个科学新领域——开放的复杂巨系统及其方法》[20]中就指出:“只有一个层次或没有层次结构的事物称为简单的系统,而子系统种类很多且有层次结构,它们之间关联关系又很复杂的系统称为复杂巨系统.任何一个复杂系统都是一个具有层次结构的系统”.Friedman等[21]在Science上发表的论文认为在诸如复杂细胞网络、蛋白质互作用网络等生物大数据中都广泛存在着多层次、多尺度特性.Clauset等[22]在Nature上发表的论文也指出,在复杂社会网络中也存在天然的层次结构.Ahn等[23]则专门研究了大数据的多尺度复杂性.著名社会网络科学家Watts[24]在其提出的小世界网络研究中,也指出网络中嵌套的诸多社区内部也满足小世界网络的要求.大数据往往来自于对复杂的自然/人工巨系统的观测记录,或者由人类社会系统借助网络自主产生.这就意味着,反映复杂巨系统形态及运动规律的大数据必然隐含着由这些系统所决定的局部与整体关系,以及复杂的层次结构,即数据的多粒度/多层次特性.

3.2挖掘任务通常呈现多层次/多粒度特性

数据挖掘总是面向实际应用的,即使面对同一个数据集,用户需求的多层次/多粒度特性也决定了挖掘任务的多层次/多粒度特性.比如,在金融大数据领域,决策任务可能是面向国家层面、区域层面,或者是地方层面的,甚至是面向某个银行的;也可能是面向不同种类的存款、贷款,或理财产品.这就使得挖掘任务可能同时面向不同层面、不同方面.挖掘任务的多层次/多粒度特性必然要求数据挖掘工具不仅能够从不同视角探索大数据不同层面隐含的模式,而且还能够进行复杂有效的融合、自动的跳转,以及便捷的定制.

3.3大数据挖掘要求算法具有高效近似求解性

在2012年出版的大数据著作《大数据时代:生活、工作与思维的大变革》[25]中指出:“大数据意味着所有数据”.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合.因此,大数据挖掘首先要解决“大数据能算的问题”,这就要求对大数据进行合理的分解,即大数据集的粒化,然后采用并行处理策略,MapReduce正是基于这种策略在大数据管理方面的实践结果.

基于大数据的复杂问题建模往往具有极其复杂的结构,这就要求大数据挖掘算法能够按照任务的要求自动地或人机交互地从大数据中抽取与组织出具有多层次/多局部特征的结构,并能在这种复杂结构上进行推理,以达到挖掘的预期目标.

大数据挖掘算法的高效近似求解特性,主要来自于用户对挖掘过程、挖掘结果的时效性要求,大数据的巨量增长性对在线挖掘技术提出了严峻挑战.与传统的小数据集上的挖掘与学习不同,大数据的混杂性、不确定性,以及高噪声对“独立同分布假设”的破坏使得追求问题的最优/精确解变得几乎

1358

中国科学:信息科学第45卷第11期

不可能,迫使我们转向寻找问题的满意近似解.另一方面,满意近似解在很多环境下已能很好地满足实际应用的需要,无需一味追求问题的最优/精确解.

综上分析可知,从隐含于大数据中的结构特征,大数据挖掘任务的类型特征,到大数据挖掘算法的性能特征,综合这些角度,大数据挖掘的计算框架与粒计算所蕴含的计算范式具有高度契合性.鉴于这一认识,可以推测:粒计算将为大数据挖掘提供一条极具前途的崭新途径.

4现状分析

早在1979年,美国著名控制论专家Zadeh[26]就首次提出了模糊信息粒化问题.他认为,人类认知能力可概括为粒化(granulation,全体分解为部分)、组织(organization,部分集成为整体)和因果(causation,因果的关联)3个主要特征.1985年,Hobbs[27]提出了粒度(granularity)的概念.在20世纪90年代初,我国的张钹和张铃[28,29]在其专著《问题求解理论及应用》中特别指出“人类智能的一个公认特点,就是人们能从极不相同的粒度上观察和分析同一问题.人们不仅能在不同粒度世界上进行问题的求解,而且能够很快地从一个粒度世界跳到另一个粒度世界,往返自如,毫无困难”.这种处理不同粒度世界的能力,正是人类问题求解的强有力的表现.Yager和Filev[30]进一步指出“人们已形成了一个关于世界的粒度观点,······,在此观点下,人类的观察、度量、概念化和推理都是在粒度意义下进行的”.这些观点都认为,粒化作为人类认知的重要特征之一,对复杂数据的知识发现具有重要作用.1997年,Zadeh[31]第一次提出了粒计算(granular computing)的概念.随后国际上许多不同领域的学者都开始关注和研究这个问题,其逐渐形成了智能信息处理中一个新的研究方向.

自粒计算这一概念提出以来,大量关于粒计算研究的学术论文相继发表,在国际上形成了专门的研究群体.近年来,国际上两个系列会议“IEEE International Conference on Granular Computing”与“International Conference on Rough Sets,Fuzzy Sets,Data Mining and Granular Computing”每年举办一次.在国内,2001年以来,粒计算的研究成果集中在每年举办的“中国粗糙集与软计算学术会议”上报道和交流.由于粒计算在国内的迅速发展,2007年开始每年举办“中国粒计算学术会议”.短短十余年的发展已经凸显出它对信息科学特别是对计算机科学的作用和影响.粒计算已逐渐成为数据分析领域的新分支,在数据粒化、多粒度模式发现以及粒度推理等方面的研究已经取得了一些重要的进展.

4.1数据粒化研究进展

数据粒化是基于粒计算的数据分析的基础,是按照给定的粒化策略将复杂数据分解为信息粒的过程.根据不同的数据建模目标和用户需求,可以采用多种多样的粒化策略.单纯依赖数据的常用粒化策略大多可以归结为基于数据二元关系的粒化策略,其本质是将满足预先定义的二元关系的两个数据样本分配到同一个数据粒中.诸多粒化策略通过使用等价关系、相似关系、极大相似关系、模糊等价关系、模糊相似关系、邻域关系、优势关系等二元关系可将数据粒化为相应的二元粒结构[32~39].再如,图数据中的连通分支,极大全连通子图、各种路及圈,以及树中的子树、链等.基于聚类的粒化策略尽管本质上也是依赖于二元关系,但它是在目标函数引导下,通过一个迭代寻优过程学习得到隐含于数据中的簇团结构[40].聚类可以被理解为数据簇团结构的发现方法,也可以被理解为一种数据粒化策略.聚类粒化具有很强的数据针对性,如针对高维数据,其代表性方法有基于子空间的聚类[41]、联合聚类[42]以及基于超图的聚类[43]等;针对复杂数据,Brendan[44]在Science发表了一个基于消息传递的聚类算法,成功应用于人脸图像聚类、基因外显子发现、手稿中心句识别以及最优航线搜索等

1359

梁吉业等:大数据挖掘的粒计算理论与方法

方面;针对多模态数据,Ahmad等[45]提出了一种数值型和符号型并存的多模态数据的K-Means算法.Huang[46]提出了用于解决符号数据聚类的K-Modes算法,并将其与K-Means算法相融合用于多模态数据聚类.此外,在图像处理领域里,有一类通过提取图像本身的纹理、边缘、灰度值等特征,并将其作为多模态特征来进行图像数据的粒化方法[18,19,47].

目前的数据粒化策略与方法很少考虑适应大数据的可计算性需求,多是从单一模态特征出发,在不同模态特征之间设置权重参数或者简单地对结果进行集成,并没有从本质上进行融合,不能够保证其语义一致性或语义相关性,无法有效解决具有多模态特征的数据协同粒化问题.

4.2多粒度模式发现研究进展

多粒度模式发现与融合是粒计算框架下复杂问题求解的内在逻辑要求.所谓多粒度,可以是多个数据子集、表示空间的多个子空间、多个不同的模态变量集、也可以是问题求解过程中的多个局部或中间结果,它对应于问题的多个角度、多个局部或多个层次.为了获得整体数据集或问题的全局解,需要对多个单一粒度上发现的模式进行融合.尽管没有使用多粒度这一术语,国内外学者已经针对医学图像分析、网络、视频语义分析、标注和检索、情感识别等领域的多模态问题开展了融合研究,主要考虑从不同模态的数据中分别提取特征,构成多模态特征空间,发展具有多模态特征的模式发现理论与方法.目前的研究主要集中在3个方面:基于多核学习的多模态数据分类[48],基于多字典协同表达的多模态数据建模[49]和基于深度学习的多模态数据融合[50].比如,在多模态视频挖掘中,Hershey[51]将视觉和音频从视频中提取出来,利用参数模型的方法对音频信号在视频画面中对应的发生区域进行了挖掘.Darrel等[52]则提出了一种基于参数模型的新方法.这些多模态融合方法主要分为乘积融合、线性融合、非线性融合等.在多模态Web挖掘中,网页上丰富的图片、音频、视频以及文本等多种模态信息构成了典型的多模态数据挖掘问题.一些学者提出了语义网方法来描述单词和图片之间的相关性,并利用文本信息帮助进行图像的检索.多模态图像检索系统iFind[53]提出了一种同时利用文本和图像视觉信息的相关反馈算法.胡清华[54]系统地研究了数值型数据和符号型数据并存的多模态数据的粗糙集方法,并将粗糙集方法推广应用到了太空天气预报、风力发电故障识别等领域.Hwang等[55]研究了多模态数据的聚类问题,将图像数据中的纹理、灰度值、线条等提取出来作为多个模态来研究. Wang等[56]将网页中的图片和图片周围文字分离成两类事物,通过两者之间的关联矩阵将同一事物中的相似度传播到另一类事物中,得到了更为精确的图片之间的相似度.Qian等[57]系统提出了多粒度粗糙集理论,通过挖掘不同粒度下的隐含模式来对目标概念与目标决策进行融合学习,用于更加高效合理地进行决策.然而,目前的研究多集中在基于聚类的多粒度结构发现以及基于表示空间的多粒度多模态分类问题,还很少考虑基于多粒度的分类、回归和相关关系分析等数据分析任务,尤其是多模态数据的分层多级的分类回归分析较少有人涉及.此外,多个粒化结构之间的关系研究也鲜见报道,它也应是多粒度理论与方法中的重要研究内容.

4.3粒计算推理研究进展

推理是人类智能中的重要能力之一.推理是一种形式逻辑,是用于研究人们思维形式、规律以及逻辑方法的科学.推理的作用是可从已知的知识得到未知的知识.粒计算推理指的是利用已知的信息粒或粒空间进行演绎的逻辑方法.

在粒计算领域中,已经有一些关于粒计算推理的研究.Yao[58]对粒计算的基本问题、基本方法进行了系列研究,通过采用决策逻辑语言(DL-语言)来描述论域的粒度,构建粒度世界的逻辑框架;将

1360

中国科学:信息科学第45卷第11期

邻域系统、区间分析、粗糙集理论和粒计算进行融合,对粒计算中的信息粒化和概念近似问题进行研究;利用所有划分构成的格研究了一致分类学习问题.刘清等[59]基于粗糙集研究了用于逻辑推理的决策规则粒和粒语言.Thiele[60]于1998年发表了“词计算理论的语义模型”和Zadeh[26]发表的论文促进了词计算理论的发展,这些理论旨在解决利用自然语言,进行模糊推理和判断,以实现模糊智能控制.在这些研究中,不同层面的知识可以通过不同程度的模糊信息粒来刻画,然后利用模糊逻辑进行推理和计算,它对于复杂信息系统的模糊推理和控制尤其重要.针对复杂生物网络,Daphne等[61]提出了概率图模型利用特征之间潜在的相关性来研究粒度之间的推理原理,已经形成了数据分析领域中一种重要的研究方法.Friedman[21]用概率图模型对细胞网络进行了推理,研究了不同粒度层次意义下的细胞网络结构.Andrew等[62]从多层次、多结构角度出发研究了数据分析中的回归问题.Fan 等[63]则利用多结构分类思想对多层次图像语义挖掘问题进行了深入研究.1990年,张钹和张铃[28,29]提出了商空间理论,专门研究不同粒度之间的关系、合成、综合、分解和推理,其最重要的性质是同态原则,即保真原理(或保假原理).

尽管在粒推理方面已经取得了一些有益的研究成果,然而已有方法主要讨论单一粒度下的粒化推理问题,很少有人考虑多粒度、跨粒度的推理,特别是缺乏关于多模态数据粒推理的有效方法,而多粒度、跨粒度推理恰恰是解决大规模复杂决策任务的重要手段.

4.4基于粒计算的高性能算法研究进展

在粒计算中,采用信息粒代替样本作为基本的运算单位,用可行的满意近似解代替精确解,可达到设计高性能算法的目的.

近年来,采用粒计算的思想来求解大数据问题已有一些初步的探索.Ye等[64]通过对数据空间和特征空间的粒化,并利用集成学习技术实现了大规模数据的聚类分析.Chang等[65]提出了一种利用决策树思想的大数据分解方法,然后在每个分解的数据粒上分别学习SVM分类器,极大提高了SVM 的学习效率.Gopal等[66]则利用了数据类别之间的层级关系,并给出了一种相应的Bayesian模型来提升其泛化性能.Miao等[67]利用MapReduce中的数据分解原理提出了一种可并行计算的属性约简方法.Liang等[68]通过拆分原始大数据集为多个易于处理的信息粒,通过求解和融合每个信息粒上面的特征选择结果,给出了一种高效的大数据特征选择算法.Qian等[69]利用信息粒构造了粗糙集的正向近似,并基于此提出了特征选择加速器,可用于加速一大类前向贪婪搜索的特征选择算法.Chen 等[70]在一篇关于大数据分析的综述性论文中专门将粒计算作为一种应对大数据挑战的潜在技术,指出:不同的信息粒度隐含着不同的特征和模式,可更加有效地去设计机器学习和数据挖掘算法.

对于基于粒计算的高效数据挖掘研究而言,这方面的工作仅仅是进行了初步的尝试.其面临的挑战主要体现在两个方面:(1)如何合理地进行信息粒化,以确保算法所得到的解是有效的;(2)如何平衡算法的效率与求解结果的精度,以高效地获得可行的满意近似解.

5几个科学问题

大数据的大规模、高维、多模态、多源异构、快速增长等特征对信息粒化、模式发现与融合、推理等粒计算理论与方法的核心要素提出了严峻挑战,涉及一些重要的科学问题.

1361

梁吉业等:大数据挖掘的粒计算理论与方法

5.1信息粒化

数据粒化就是将数据进行分解,拟或还需将分解的局部数据按照分析的要求重新组织.它可能是按照数据的某些自然属性简单分解,也可能是按照问题求解所基于的框架、理论、方法和技术的特点对局部数据的内涵要求进行数据分解与组织.粒化是基于粒计算框架求解复杂问题的基础.大数据的规模性主要体现在样本规模的海量性和特征规模的高维性两个方面;而大数据的复杂性是其表征的巨系统复杂性在数据层面的反映,主要表现在数据的多源性、多模态性、混杂性以及多数据输出源本身的结构复杂性.大数据的大规模性、复杂性对大数据挖掘的可计算、复杂问题求解、挖掘结果的理解与应用提出了巨大挑战,这些挑战要求我们对大数据从一个、多个或者从某个具有结构的参照框架等视角进行粒化.

5.1.1大规模数据的信息粒化

对于大数据来说,数据的整体是海量的,而整体更显意义,所以如何拆分大数据而保持数据的整体特性是一个十分重要的问题.简单随机抽样不适合解决此类问题.从数据粒化的角度出发,按照某种策略,将大数据集拆分为若干个小数据集,通过对每一个小数据集进行推断,然后将小数据集上的推断融合形成一个整体推断,并使得其能反映大数据集的某些整体性质.拆分的本质困难在于如何分解以体现数据的某些(某种,某类)整体特征.初步的研究表明:对于大规模数据的粒化可能需要遵守3个准则:近似性、传递性与遍历性[68].近似性指的是粒化后的每个信息粒中样本的分布要与整体数据的分布尽可能一致;传递性指的是每个信息粒之间的隐含的模式信息要具有传递性;遍历性指的是原始大数据集上的所有样本要尽可能的被使用.如何设计满足这3个准则的信息粒化方法将是非常有意义的研究.

5.1.2多源异构多模态数据的信息粒化

大数据可能是从不同物理地址上的数据源获得的异构数据,兼或具有多模态特征,其典型代表是广泛分布于互联网上的社会化媒体数据.如微博数据中就包含了微博用户的性别、年龄、职业、社会网络关系、自然文本、图像、视频、音频等.对此类数据,即使考察同一属性下不同物理空间上的同一类对象,也不能期望其具有同分布特性.对符号、数值、时间序列、图像、文本和社会网络结构等单一模态,基于符号和数值特征构造的等价关系、相似关系或者序关系,可以形成对象的划分、覆盖或者嵌套的粒化结构;基于分级聚类方法可以产生数据的分级粒化结构;基于主题模型、图像语义和概念本体结构,可以建立起多层语义粒化结构;基于独立个体的社会网络结构及其社区分析算法,可以建立由通讯关系、关注关系等信息获得社群粒化结构.然而,大数据的异构多模态的特征描述自然且必然地蕴涵十分丰富的语意,如何分别挖掘与融合异构多模态数据中的语义信息,并基于此揭示、建立和评价大数据的多尺度粒结构是一个亟待解决的问题.

5.1.3高维数据的信息粒化

探测数据在特征空间中是否具有块分布现象,并发现各数据块对应的特征子空间,对数据应用业务中的客户关系管理、分类设计用户兴趣模型、构建样本相关关系、构建基于内容的精准推荐模型等具有重要的作用.从数据挖掘的角度讲,发现数据块对应的特征子空间也可以在一定程度上消除高维性引起的数据稀疏问题.

1362

中国科学:信息科学第45卷第11期

面临高维或超高维数据挖掘任务时,密切关联于任务的特征子空间可能不止一个.比如在医疗数据挖掘中,数据会呈现出对应于某些特征子空间的块状分布特点;再如,高维数据的特征约简理论也证明:特征空间的约简可能会有多个.

特征视角下的子空间数据粒化问题实际上是部分数据的相关特征子空间的发现问题.子空间聚类技术可将样本聚类与发现簇所对应的特征子空间发现融合在同一个优化过程中.然而,面临的挑战在于:(1)如果数据的维度非常高、数据表示异常稀疏,基于子空间的信息粒化应当如何保证其有效性?

(2)由于关联于数据块的特征子空间可能不唯一,那么如何评估这些粒化结果以便选择?

5.1.4增长性数据的信息粒化

在大数据时代,数据的增长不仅仅体现在其快速性上,而且体现在分析所需时间段内数据增量的大规模性.

这引起的挑战在于:传统的单增量或小规模批增量信息粒化技术的具有明显的局限性,如何设计更高效的在线信息粒化技术?此外,众所周知,很多数据的分布通常会随着时间的推移发生变化,那么对于这类增长性数据应当如何有效信息粒化?

5.2多粒度模式发现与融合

多粒度模式发现(融合)是大数据超大规模性、多模态性、混杂性特征的自然要求,也是粒计算框架下复杂问题求解的内在逻辑要求.大数据粒化后,样本视角下每个同质数据粒上的模式发现问题尽管可以用现有的方法解决,但全局数据上的模式发现需要在融合策略指导下进行.对多个异质数据粒(对应于不同特征子空间所抽象出的概念层次、不同模态以及参照框架下的数据粒化结果)上的模式发现问题,自然地要求保证发现过程的语义一致性或语义关联性,从而保证全局融合结果的正确性和强可解释性.

5.2.1多粒度聚类

聚类、分类是两种最重要的数据挖掘技术,它们分别被用于探测数据的抱团性,以及决策空间对特征空间的依赖性.数据的这两类特性也分别被称为数据的聚类模式和分类模式.

当大数据被基于样本视角粒化后,数据的模式发现只能在局部数据粒上进行,然后再融合成大数据整体上的模式.对于聚类任务而言,通过对局部信息粒内的样本空间进行聚类分析后,关键在于如何有效地融合为整体数据上的模式.当面对高维数据时,这个问题本质上是如何融合多个粒空间下发现的模式为整体上的模式.这对于多模态数据、增长型数据以及多源异构数据而言,本质上都是如何将局部粒上的模式发现结果有效地融合为整体数据的模式发现结果(通常需要考虑信息粒与模式的语义一致性).这类多粒度聚类方法也都需要一套有效性验证方法来保证模式发现的合理性与准确性.

5.2.2多粒度分类

多粒度分类暗含着两层含义.一类是通过对大数据的多种策略信息粒化后,在得到的m个粒空间中,把其中每个信息粒看作抽象的样本来学习一个分类器,然后对这m个分类器进行(选择性)集成学习.另一类是对大数据本身进行拆分(通常是覆盖,可参照5.1.1中的粒化准则),形成互相联系的信息粒集,然后从每个信息粒上学习分类器,然后把这些分类器融合为一个整体上的分类器.如何将局部数据粒上的分类模式进行聚合,作为整体数据集上的分类模式是这类方法成功的关键.

1363

梁吉业等:大数据挖掘的粒计算理论与方法

5.2.3多粒度相关关系发现

大数据相关性分析是支撑大数据应用最重要的方面之一.与小数据时代不同,大数据的混杂性迫使我们在无数据分布先验假设的条件下进行分析,数据相关性分析不可能再沿用“主观假设、观测采样、统计分析、获得结论”的分析方法,而更多的是采用探测性分析方法,这一趋势从较早的关联规则挖掘就开始了.数据的相关分两个方面,一种是特征(变量)间相关关系,典型地,如一元或多元回归分析,它强调的是变量在数据集上呈现的带有某种不确定性的函数关系;另一种是样本(对象)间的相关关系,如关联规则,它强调的是具有某种性质的对象集间依赖关系、同现关系等.传统上,统计学中的Pearson相关系数等刻画的是两个随机变量的函数依赖关系(表现为带有随机扰动的函数曲线).对大数据来讲,相关关系并不仅仅意味着函数关系,它还可能是特征间带有多种不确定性的依赖关系、分布相似性、或者特征的某些取值的同现关系等.2011年发表于Science上的论文(Detecting novel associations in large data sets)研究了大规模数据集中两个实变量间的相关关系[71].大数据多粒度相关关系包括几种基本含义,一种是探测特征子集(可能存在多个)与响应变量的相关性;另一种是探测数据子集(可能多个),在该数据子集上变量(组)之间的相关性;另外,对多模态数据,还需要研究不同模态特征之间的相关关系.

5.2.4多粒度数据模式更新

自然系统和社会系统中的现象往往具有时变性,在数据挖掘领域,这种时变性表现为隐含于数据中模式的演化或突变,其分析的数据基础表现为分时段的数据变化性.对大数据而言,这种数据变化包括样本规模的增长性、维度规模的增长性以及数据取值变化的动态性.探索大数据条件下的数据模式更新技术对于大数据应用具有重要意义.我们认为模式的变化是由于其数据分布约束的变化而引起的,这种数据分布变化之于模式的变化意味着紧密关联于模式的特征子空间的变化.对于不断变化的大数据而言,每次对全体数据重新进行处理可能不是一个高效的策略,利用已有的分析结果动态更新模式发现结果是一种可行策略.这种策略的核心挑战在于如何设计高效的增量式算法.

5.3多粒度推理

不同于传统机器学习解决单一的决策任务,基于大数据的决策往往涉及复杂大系统的多任务多目标的分级决策.基于决策树、神经网络或者支持向量机的决策模型难以有效表示和建模多粒度的复杂决策任务.

5.3.1多粒度不确定性推理的表示

不确定性推理是人类智能的重要体现,是人工智能领域的重要研究问题之一.

不确定性推理已经有很多种模型,比如模糊推理、概率推理、Bayes推理、证据理论与粒化不确定性推理[72]等.图模型被广泛应用决策过程表示和推理,尤其是概率图模型被广泛应用于表示变量间的随机依赖关系,并且发展出了能够表示序贯决策过程变量依赖性的Markov随机场、条件随机场以及分级多层Bayes网络等具有强大表示能力的模型,在许多领域取得了成功应用.基于大规模异构数据的推理必然是一种依赖于变量结构信息、事件发展的时空信息和同时混杂了多种不确定信息的决策过程.目前的概率图模型尚不足以表示如此复杂的模型,而Pawlak提出的决策流图也无法表示此类过程.构建能够同时表示多种不确定性、能够刻画时空依赖特性、具有多尺度结构的不确定推理模型可能是解决大规模复杂决策的基石和有效途径.

1364

波浪理论及其计算原理

第七章波浪理论及其计算原理 在自然界中,常可以观察到水面上各式各样的波动,这就是常讲的波浪运动。波浪是海洋中最常见的现象之一,是岸滩演变、海港和海岸工程最重要的动力因素和作用力。引起海洋波动的原因很多,诸如风、大气压力变化、天体的引力、海洋中不同水层的密度差和海底的地震等。大多数波浪是海面受风吹动引起的,习惯上把这种波浪称为“风浪”或“海浪”。风浪的大小取决于风速、风时和风区的太小。迄今海面上观测到的最大风浪高达34m。海浪造成海洋结构的疲劳破坏,也影响船舶的航行和停泊的安全。波浪的动力作用也常引起近岸浅水地带的水底泥沙运动,致使岸滩崩塌,建筑物前水底发生淘刷,港口和航道发生淤积,水深减小,影响船舶的通航和停泊。为了海洋结构物、驾驶船舶和船舶停靠码头的安全,必须对波浪理论有所了解。 当风平息后或风浪移动到风区以外时,受惯性力和重力的作用,水面继续保持波动,这时的波动属于自由波,这种波浪称为“涌浪”或“余波”。涌浪在深水传播过程中,由于水体内部的摩擦作用和波面与空气的摩擦等会损失掉一部分能量,主要能量则是在进人浅水区后受底部摩阻作用以及破碎时紊动作用所消耗掉。 为了研究波浪的特性,对所生成的波浪或传播中的波浪加以分类是十分必要的。 一般讲,平衡水面因受外力干扰而变成不平衡状态,但表面张力、重力等作用力则使不平衡状态又趋于平衡,但由于惯性的作用,这种平衡始终难以达到,于是,水体的自由表面出现周期性的有规律的起伏波动,而波动部位的水质点则作周期性的往复振荡运动,这就是波浪的特性。 波浪可按所受外界的干扰不同进行分类。 由风力引起的波浪叫风成波。 由太阳、月亮以及其它天体引力引起的波浪叫潮汐波。 由水底地震引起的波浪叫地震水波 由船舶航行引起的波浪叫船行波。 其中对海洋结构安全影响最大的是风成波。 风成波是在水表面上的波动,也称表面波。风是产生波动的外界因素,而波动的内在因素是重力。因此,从受力来看,风成波称为重力波。 视波浪的形式及运动的情况,波浪有各种类型。它们可高可低,可长可短。波可以是静止的一一驻波(即两个同样波的相向运动所产生的波),也可以是移动的——推进波(以一定的速度将波形不变地向一个方向传播的波),可以是单独的波,也可以是一个接一个的一系列波所组成的波群。§7-1 流体运动的基本方程

数据挖掘领域的十大经典算法原理及应用

数据挖掘领域的十大经典算法原理及应用 国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。 1.C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据进行处理。

C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。 2. The k-means algorithm即K-Means算法 k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。 3. Support vector machines 支持向量机,英文为Support Vector Machine,简称SV 机(论文中一般简称SVM)。它是一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面

大数据挖掘常用方法

数据挖掘常用的方法 在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。 (1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。 (2)回归分析。回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。

(3)聚类。聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。 (4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。 (5)神经网络方法。神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法,以ART 模型为代表。虽然神经网络有多种模型及算法,但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则,而且人们很难理解网络的学习及决策过程。 (6)Web数据挖掘。Web数据挖掘是一项综合性技术,指Web 从文档结构和使用的集合C 中发现隐含的模式P,如果将C看做是输入,P 看做是输出,那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。

波浪理论及工程应用的研究进展

波浪理论及工程应用的研究进展 近岸的波浪要素往往是多种波浪变形过程的综合结果,因而是十分复杂的。目前对波浪传播的研究方法主要有以下四种:理论分析方法、物理模型实验和现场观测、数学模型。 1、理论分析方法 应用流体力学的基础理论(运动方程、连续方程等)去解决海岸地区各种动力现象的内在联系及其对海岸泥沙的作用(海岸动力学课本,25页)。由于涉及因素的复杂性,许多问题没有从理论上圆满解决,需要今后进一步去探索研究。 由于波浪的频散性、非线性、随机性和三维性等特性,经典波动理论沿Stokes波型(具有完全频散特性的线性及非线性波)与Boussinesq型非线性长波(具有弱频散性的非线性波)这两种基本途径发展。 对于规则波的研究主要基于无粘性无旋重力表面波控制方程,对具体问题进行假定和简化,建立波浪运动的控制方程和定解条件(如微幅波理论、斯托克斯波理论以及浅水非线性波理论等),推导所研究问题的解析解,也为建立波浪数学模型提供依据。 对于不规则波(随机波)的研究方法主要有两种,分别是特征波法和谱方法。特征波法只能反映海浪的外在特征,不能说明其内部结构,海浪谱可以用来描述海浪的内部结构,说明海浪内部的构成及内在关系,谱方法在研究海浪方面的应用越来越广泛。 现阶段对波浪传播的理论研究大致集中在以下几个方面: (1)原有的波浪理论和波浪方程的描述方法多为欧拉法,着重于对整个波浪场形态的研究,现在越来越多的学者趋向于综合考虑拉格朗日法和欧拉法进行考虑,如波浪边界水质点的追踪以确定波浪传播的波形[1],使用拉格朗日法描述波浪形态[2],拉格朗日坐标下的波浪方程的解法研究等[3]。在这个方面台湾学者陈阳益的建树颇多。 (2)对已有波浪理论或者波浪传播控制方程进行数学方法上改进,如改善方程的边界条件,加入各种参数等[4] [5]。使原有的理论或方程的适用范围增大,模拟的结果更加精确等。 2、物理模型 物理模型和现场观测多利用统计学的方法来处理观测到的数据,以进行分析或者是拟合经验公式。实验室的研究与现场的调研在海岸动力学研究中有着特别重要的地位,许多现象本身就要通过实验室或现场的研究来解释,各物理因素间的关系需要通过这些研究来揭示,尤其是海岸泥沙运动方面,关于泥沙运动的关系式大多是经验或半经验的(海岸动力学课本25页:海岸泥沙运动涉及到流体和固体颗粒的两相运动,靠理论分析研究还不能彻底解决

学习18大经典数据挖掘算法

学习18大经典数据挖掘算法 本文所有涉及到的数据挖掘代码的都放在了github上了。 地址链接: https://https://www.doczj.com/doc/6c11078361.html,/linyiqun/DataMiningAlgorithm 大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自己相应算法的博文链接,希望能够帮助大家学习。 1.C4.5算法。C4.5算法与ID3算法一样,都是数学分类算法,C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断,而C4.5采用的是增益率。 详细介绍链接:https://www.doczj.com/doc/6c11078361.html,/androidlushangderen/article/details/42395865 2.CART算法。CART算法的全称是分类回归树算法,他是一个二元分类,采用的是类似于熵的基尼指数作为分类决策,形成决策树后之后还要进行剪枝,我自己在实现整个算法的时候采用的是代价复杂度算法, 详细介绍链接:https://www.doczj.com/doc/6c11078361.html,/androidlushangderen/article/details/42558235 3.KNN(K最近邻)算法。给定一些已经训练好的数据,输入一个新的测试数据点,计算包含于此测试数据点的最近的点的分类情况,哪个分类的类型占多数,则此测试点的分类与此相同,所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点,远的点自然就小点。 详细介绍链接:https://www.doczj.com/doc/6c11078361.html,/androidlushangderen/article/details/42613011 4.Naive Bayes(朴素贝叶斯)算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法,用到了一个比较重要的贝叶斯定理,用一句简单的话概括就是条件概率的相互转换推导。 详细介绍链接:https://www.doczj.com/doc/6c11078361.html,/androidlushangderen/article/details/42680161 5.SVM(支持向量机)算法。支持向量机算法是一种对线性和非线性数据进行分类的方法,非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。 详细介绍链接:https://www.doczj.com/doc/6c11078361.html,/androidlushangderen/article/details/42780439 6.EM(期望最大化)算法。期望最大化算法,可以拆分为2个算法,1个E-Step期望化步骤,和1个M-Step最大化步骤。他是一种算法框架,在每次计算结果之后,逼近统计模型参数的最大似然或最大后验估计。

《大数据时代下的数据挖掘》试题和答案与解析

《海量数据挖掘技术及工程实践》题目 一、单选题(共80题) 1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法? (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型:(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作:( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法: (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是: (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法? (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方 法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年 级110人。则年级属性的众数是: (A) A.一年级 B.二年级 C.三年级 D.四年级

线损理论计算方法

线损理论计算方法 线损理论计算是降损节能,加强线损管理的一项重要的技术管理手段。通过理论计算可发现电能损失在电网中分布规律,通过计算分析能够暴露出管理和技术上的问题,对降损工作提供理论和技术依据,能够使降损工作抓住重点,提高节能降损的效益,使线损管理更加科学。所以在电网的建设改造过程以及正常管理中要经常进行线损理论计算。 线损理论计算是项繁琐复杂的工作,特别是配电线路和低压线路由于分支线多、负荷量大、数据多、情况复杂,这项工作难度更大。线损理论计算的方法很多,各有特点,精度也不同。这里介绍计算比较简单、精度比较高的方法。 理论线损计算的概念 1.输电线路损耗 当负荷电流通过线路时,在线路电阻上会产生功率损耗。 (1)单一线路有功功率损失计算公式为 △P=I2R 式中△P--损失功率,W; I--负荷电流,A; R--导线电阻,Ω (2)三相电力线路 线路有功损失为 △P=△PA十△PB十△PC=3I2R (3)温度对导线电阻的影响: 导线电阻R不是恒定的,在电源频率一定的情况下,其阻值 随导线温度的变化而变化。 铜铝导线电阻温度系数为a=。 在有关的技术手册中给出的是20℃时的导线单位长度电阻值。但实际运行的电力线路周围的环境温度是变化的;另外;负载电流通过导线电阻时发热又使导线温度升高,所以导线中的实际电阻值,随环境、温度和负荷电流的变化而变化。为了减化计算,通常把导线电阴分为三个分量考虑: 1)基本电阻20℃时的导线电阻值R20为 R20=RL 式中R--电线电阻率,Ω/km,; L--导线长度,km。 2)温度附加电阻Rt为 Rt=a(tP-20)R20 式中a--导线温度系数,铜、铝导线a=0.004; tP--平均环境温度,℃。 3)负载电流附加电阻Rl为 Rl= R20 4)线路实际电阻为 R=R20+Rt+Rl (4)线路电压降△U为 △U=U1-U2=LZ 2.配电变压器损耗(简称变损)功率△PB

波浪理论的计算方法

波浪理论的计算方法 1)第一浪只是推动浪开始 2)第二浪调整不能超过第一波浪起点 比率: 2浪=1浪0.5或0.618 3)第三浪通常是最长波浪,但绝不能是最短(相对1浪和5浪长度) 比率: 3浪=1浪1.618, 2或2.618倍 4)第四浪的调整不能与第一浪重迭(楔形除外) 比率: 4浪=3浪0.382倍。 5)第五浪在少数情况下未能超第三浪终点,即以失败形态告终 比率: 5浪=1浪或5浪=(1浪-3浪)0.382、0.5、0.618倍。 6)A浪比率: A浪=5浪0.5或0.618倍。 7)B浪比率: B浪=A浪0.382、0.5、0.618倍。 8)C浪比率: C浪=A浪1倍或0.618、1.382、1.618倍。 1、波浪理论基础 1) 波浪理论由8浪组成、1、3、5浪影响真正的走势,无论是下跌行情还是上升行情, 都在这三个浪中赚钱; 2) 2、4浪属于逆势发展(回调浪) 3) 6、7、8浪属于修正浪(汇价短期没有创新低或新高) 2、波浪理论相关法则 1) 第3永远不是最短的浪 2) 第4浪不能跌破第2浪的低点,或不能超过第2浪的高点 3) 数浪要点:你看到的任何一浪都是第1浪,第2浪永远和你真正的趋势相反; 4) 数浪规则:看到多少浪就是多少浪,倒回去数浪; 3、相关交易法则 1) 第3浪是最赚钱的一浪,我们应该在1、3、5浪进行交易,避免在2、4浪进场以 及避免在2、4浪的低点或者高点挂单,因为一旦上破或者下坡前期高点或者低点,则会出现发转,具体还要配合RSI和MACD指标进行分析;

4、波浪理论精华部分 1) 波浪理论中最简单的一个循环,或者说最小的一个循环为两浪循环,即上升浪或下跌浪+回调浪 2) 每一波上升浪或下跌浪由5个浪组成,这5浪中有两次2T确认进场; 3) 每一波回调浪由3个浪组成,这3浪中只有一次2T确认进场; 4) 波浪和移动均线共振时,得出进场做多、做空选择,同时要结合4R法则以及123法则进行分析 波浪理论图解 2011-10-21 19:14 每位投资者都希望能预测未来,波浪理论正是这样一种价格趋势分析工具,它根据周期循环的波动规律来分析和预测价格的未来走势。波浪理论的创始人——美国技术分析大师R.N.艾略特(1871~1948)正是在长期研究道琼斯工业平均指数的走势图后,于二十世纪三十年代创立了波浪理论。投资者一走进证券部就会看到记录着股价波动信息的K线图,它们有节奏、有规律地起伏涨落、周而复始,好像大海的波浪一样,我们也可以感受到其中蕴涵的韵律与协调。我们特别邀请到了研究波浪理论的资深专家杨青老师来与读者们一起“冲浪”。 1、基础课波浪理论在技术分析中被广泛采用波浪理论最主要特征就是它的通用性。人类社会经济活动的许多领域都遵循着波浪理论的基本规律,即在相似和不断再现的波浪推动下重复着自己。因为股票、债券的价格运动是在公众广泛参与的自由市场之中,市场交易记录完整,与市场相关的信息全面丰富,因此特别适于检验和论证波浪理论,所以它是诸多股票技术分析理论中被运用最多的,但不可否认,它也是最难于被真正理解和掌握的。专家导读:被事实验证的传奇波浪波浪理论的初次亮相极富传奇色彩。1929年开始的全球经济危机引发了经济大萧条,美国股市在1929年10月创下386点的高点后开始大崩盘,到 1932年仲夏时节,整个市场弥漫着一片绝望的气氛。这时,波浪理论的始作俑者艾略特给《美国投资周刊》主编格林斯发电报,明确指出长期下跌的走势已经结束,未来将会出现一个大牛市。当格林斯收到电报时,道琼斯30种工业指数已经大幅飙升,从邮戳上的时间看,电报就在道琼斯30种工业指数见底前两个小时发出。此后道琼斯指数在9周内上涨了100%,而且从此开始一路上扬。 但是波浪理论在艾略特生前却长期被人们忽视,直到1978年,他的理论继承者帕彻特出版了《波浪理论》一书,并在期货投资竞赛中运用波浪理论取得了四个月获利400%以上的骄人成绩后,这一理论才被世人广泛关注,并开始迅速传播。 2、波浪周期及实例解读 0 && image.height>0){if(image.width>=700){this.width=700;this.height=image .height*700/image.width;}}> 专家解读:五浪上升三浪下降组成完整周期一个完整的波动周期,即完成所谓从牛市到熊市的全过程,包括一个上升周期和一个下跌周期。上升周期由五浪构成,用1、2、3、4、5表示,其中1、3、 5浪上涨,2、4浪下跌;下跌周期由三浪构成,用a、b、c表示,其中a、c浪下跌,b 浪上升。与主趋势方向(即所在周期指明的大方向)相同的波浪我们称为推动浪,

大数据时代的数据挖掘

大数据时代的数据挖掘 大数据是2012的时髦词汇,正受到越来越多人的关注和谈论。大数据之所以受到人们的关注和谈论,是因为隐藏在大数据后面超千亿美元的市场机会。 大数据时代,数据挖掘是最关键的工作。以下内容供个人学习用,感兴趣的朋友可以看一下。 智库百科是这样描述数据挖掘的“数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。 数据挖掘的定义 技术上的定义及含义 数据挖掘(Data Mining )就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。 与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策支持等。 ----何为知识从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。 这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。n x _s u x i a n g n i n g

大数据常用的算法

大数据常用的算法(分类、回归分析、聚类、关联规则) 在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。 (1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。 (2)回归分析。回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。 (3)聚类。聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。 (4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。 (5)神经网络方法。神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法,以ART 模型为代表。虽然神经网络有多种模型及算法,但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则,而且人们很难理解网络的学习及决策过程。 (6)Web数据挖掘。Web数据挖掘是一项综合性技术,指Web 从文档结构和使用的集合C 中发现隐含的模式P,如果将C看做是输入,P 看做是输出,那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。 当前越来越多的Web 数据都是以数据流的形式出现的,因此对Web 数据流挖掘就具有很重要的意义。目前常用的Web数据挖掘算法有:PageRank算法,HITS算法以及LOGSOM 算法。这三种算法提到的用户都是笼统的用户,并没有区分用户的个体。目前Web 数据挖掘面临着一些问题,包括:用户的分类问题、网站内容时效性问题,用户在页面停留时间问题,页面的链入与链出数问题等。在Web 技术高速发展的今天,

第一性原理计算原理和方法

第二章 计算方法及其基本原理介绍 化学反应的本质是旧键的断裂和新建的形成,参与成键原子的电子壳层重新组合是导致生成稳定多原子化学键的明显特征。因此阐述化学键的理论应当描写电子壳层的相互作用与重排,借助求解满足适当的Schrodinger 方程的波函数描写分子中电子分布的量子力学,为解决这一问题提供了一般的方法,然而,对于一些实际的体系,不引入一些近似,就不可能求解其Schrodinger 方程。这些近似使一般量子力学方程简化为现代电子计算机可以求解的方程。这些近似和关于分子波函数的方程形成计算量子化学的数学基础。 2.1 SCF-MO 方法的基本原理 分子轨道的自洽场计算方法 (SCF-MO)是各种计算方法的理论基础和 核心部分,因此在介绍本文计算工作所用 方法之前,有必要对其关键的部分作一简 要阐述。 2.1.1 Schrodinger 方程及一些基本近似 为了后面介绍各种具体在自洽场分子轨道(SCF MO)方法方便,这里将主要阐明用于本文量子化学计算的一些重要的基本近似,给出SCF MO 方法的一些基本方程,并对这些方程作简略说明,因为在大量的文献和教材中对这些方程已有系统的推导和阐述[1-5]。 确定任何一个分子的可能稳定状态的电子结构和性质,在非相对论近似下,须求解定态Schrodinger 方程 ''12121212122ψψT p B A q p A p pA A pq AB B A p A A A E R Z r R Z Z M =??????? ?-++?-?-∑∑∑∑∑∑≠≠ (2.1) R AB =R 图2-1分子体系的坐标

其中分子波函数依赖于电子和原子核的坐标,Hamilton 算符包含了电子p 的动能和电子p 与q 的静电排斥算符, ∑∑≠+?-=p q p pq p e r H 12121?2 (2.2) 以及原子核的动能 ∑?-=A A A N M H 2121? (2.3) 和电子与核的相互作用及核排斥能 ∑∑≠+-=p A B A AB B A pA A eN R Z Z r Z H ,21? (2.4) 式中Z A 和M A 是原子核A 的电荷和质量,r pq =|r p -r q |,r pA =|r p -R A |和R A B =|R A -R B |分别是电子p 和q 、核A 和电子p 及核A 和B 间的距离(均以原子单位表示之)。上述分子坐标系如图2.1所示。可以用V(R,r)代表(2.2)-(2.4)式中所有位能项之和 ∑∑∑-+= ≠≠p A pA A B A q p pq AB B A r Z r R Z Z r R V ,12121),( (2.5) ● 原子单位 上述的Schrodinger 方程和Hamilton 算符是以原子单位表示的,这样表示的优点在于简化书写型式和避免不必要的常数重复计算。在原子单位的表示中,长度的原子单位是Bohr 半径 A == 52917725.042220e m h a e π 能量是以Hartree 为单位,它定义为相距1Bohr 的两个电子间的库仑排斥作用能 2 1a e Hartree = 质量则以电子制单位表示之,即定义m e =1 。 ● Born-Oppenheimer 近似 可以把分子的Schrodinger 方程(2.1)改写为如下形式

数据挖掘十大算法

数据挖掘十大算法 数据挖掘十大算法—K 近邻算法 k -近邻算法是基于实例的学习方法中最基本的,先介绍基于实例学习的相关概念。 一、基于实例的学习。 1、已知一系列的训练样例,很多学习方法为目标函数建立起明确的一般化描述;但与此不同,基于实例的学习方法只是简单地把训练样例存储起来。 从这些实例中泛化的工作被推迟到必须分类新的实例时。每当学习器遇到一个新的查询实例,它分析这个新实例与以前存储的实例的关系,并据此把一个目标函数值赋给新实例。 2、基于实例的方法可以为不同的待分类查询实例建立不同的目标函数逼近。事实上,很多技术只建立目标函数的局部逼近,将其应用于与新查询实例邻近的实例,而从不建立在整个实例空间上都表现良好的逼近。当目标函数很复杂,但它可用不太复杂的局部逼近描述时,这样做有显著的优势。 3、基于实例方法的不足: (1)分类新实例的开销可能很大。这是因为几乎所有的计算都发生在分类时,而不是在第一次遇到训练样例时。所以,如何有效地索引训练样例,以减少查询时所需计算是一个重要的实践问题。(2)当从存储器中检索相似的训练样例时,它们一般考虑实例的所有属性。如果目标概念仅依赖于很多属性中的几个时,那么真正最“相似”的实例之间很可能相距甚远。 二、k-近邻法基于实例的学习方法中最基本的是k -近邻算法。这个算法假定所有的实例对应于n 维欧氏空间?n 中的点。一个实例的最近邻是根据标准欧氏距离定义的。更精确地讲,把任意的实例x 表示为下面的特征向量:其中a r (x ) 表示实例x 的第r 个属性值。那么两个实例x i 和x j 间的距离定义为d (x i , x j ) ,其中: 说明: 1、在最近邻学习中,目标函数值可以为离散值也可以为实值。 2、我们先考虑学习以下形式的离散目标函数。其中V 是有限集合 {v 1,... v s }。下表给出了逼近离散目标函数的k-近邻算法。 3、正如下表中所指出的,这个算法的返回值f' (x q ) 为对f (x q ) 的估计,它就是距离x q 最近的k 个训练样例中最普遍的f 值。 4、如果我们选择k =1,那么“1-近邻算法”

波浪理论与时间周期

波浪理论的时间周期来计算未来市场的转折点 如果知道在历史上某个商品期货的平均DELTA转折点,就能够提高预测转折点精确度。更进一步,以下问题…在什么位置,前后浮动两天,【预测的DELTA】有最高精确度?前后浮动三天呢?四天呢?如何评价每个转折点的精确度呢 输出标题表示它是ITD,并且给出你输入的日期。第一个作为例子被打印的商品是咖啡。它的转折点是三个。每个转折点旁有如下五列: 日期:这是转折点日期,它总是平日。(如果你输入星期日,星期六,将输出最近的平日)。 AR:特定转折点的精确度。17表示从这个转折点到所有前期出现这个点的距离是天。很显然,AR越小,转折点越精确。 *2:这是转折点出现在给定日期两天内的概率。 *3:这是转折点出现在给定日期三天内的概率。 *4:这是转折点出现在给定日期四天内的概率。

DELTA转折点有多精确? 经过观察25个商品市场超过200年的DELTA现象,其平均中短期波动如下: (1)51%的概率,DETLA转折点将出现在投影点两天内。 (2)68%的概率,DETLA转折点将出现在投影点三天内。 (3)81%的概率,DETLA转折点将出现在投影点四天内。 所有的ITD转折点的平均精确度(AR)是27。这意味着每个DELTA 转折点离预定日期的平均距离少于三天。我知道,宣称未来所有ITD 转折点将保持这个精确度,它听起来是难以相信的。我坚信这一点,因为我已经对超过200年的日线数据和超过300年的周线和月线数据,进行了研究。 精确度将会一直保持的原因,是市场跟随DELTA现象。DELTA现象是市场运动的根本原因。观察液体市场最明显,它虽然也在运动,但是更像是跟着DELTA转折点震荡。DELTA是市场运动的本质。 DELTA转折点的精确度,可以通过观察来改善。如果一个转折点出现的早,它可能被漏掉。但是,如果转折点出现的晚,它就不会被

数据挖掘算法

数据挖掘的10大经典算法 国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。 1. C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据进行处理。 C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在 构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。 2. The k-means algorithm 即K-Means算法 k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。 3. Support vector machines 支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。 4. The Apriori algorithm

数据挖掘中十大经典算法

数据挖掘十大经典算法 国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。 1. C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据进行处理。 C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。 2. The k-means algorithm 即K-Means算法 k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。 3. Support vector machines 支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和Barnard 将支持向量机和其他分类器进行了比较。 4. The Apriori algorithm Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。 5. 最大期望(EM)算法 在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variabl)。最大期望经常用在机器学习和计算机视觉的数据集聚(Data Clustering)领域。 6. PageRank PageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里?佩奇(Larry Page)。因此,PageRank里的page不是指网页,而是指佩奇,即这个

机器学习10大经典算法.

1、C4.5 机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。 决策树学习也是数据挖掘中一个普通的方法。在这里,每个决策树都表述了一种树型结构,他由他的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时,递归过程就完成了。另外,随机森林分类器将许多决策树结合起来以提升分类的正确率。决策树同时也可以依靠计算条件概率来构造。决策树如果依靠数学的计算方法可以取得更加理想的效果。决策树一般都是自上而下的来生成的。 选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。从根到叶子节点都有一条路径,这条路径就是一条“规则”。决策树可以是二叉的,也可以是多叉的。对每个节点的衡量: 1)通过该节点的记录数 2)如果是叶子节点的话,分类的路径 3)对叶子节点正确分类的比例。 有些规则的效果可以比其他的一些规则要好。由于ID3算法在实际应用中存在一些问题,于是Quilan提出了C4.5算法,严格上说C4.5只能是ID3的一个改进算法。相信大家对ID3算法都很.熟悉了,这里就不做介绍。 C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据进行处理。

相关主题
文本预览
相关文档 最新文档