数据挖掘作业1
- 格式:doc
- 大小:46.50 KB
- 文档页数:9
单项选择题1.某商场研究销售纪录数据后发现,买啤酒的人很大体率也会购置尿布,这类属于数据发掘的哪种问题 (A)A. 关系规则发现C. 分类B. 聚类D. 自然语言办理2. 以下两种描绘分别对应哪两种对分类算法的评论标准(A)(a)警察抓小偷,描绘警察抓的人中有多少个是小偷的标准。
(b)描绘有多少比率的小偷给警察抓了的标准。
A. Precision,RecallB. Recall,PrecisionA. Precision,ROC D. Recall,ROC3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务A. 屡次模式发掘B. 分类和展望C. 数据预办理D. 数据流发掘(C)4.当不知道数据所带标签时,能够使用哪一种技术促进带同类标签的数据与带其余标签的数据相分别 (B)A. 分类B. 聚类C. 关系剖析D. 隐马尔可夫链5.什么是 KDD (A)A. 数据发掘与知识发现B. 领域知识发现C. 文档知识发现D. 动向知识发现6.使用交互式的和可视化的技术,对数据进行探究属于数据发掘的哪一类任务(A)A. 探究性数据剖析B. 建模描绘C. 展望建模D. 找寻模式和规则7.为数据的整体散布建模;把多维空间区分红组等问题属于数据发掘的哪一类任务(B)A. 探究性数据剖析B. 建模描绘C. 展望建模D. 找寻模式和规则8.成立一个模型,经过这个模型依据已知的变量值来展望其余某个变量值属于数据发掘的哪一类任务 (C)A. 依据内容检索B. 建模描绘C. 展望建模D. 找寻模式和规则9.用户有一种感兴趣的模式而且希望在数据集中找到相像的模式,属于数据发掘哪一类任务(A)A. 依据内容检索B. 建模描绘C. 展望建模D. 找寻模式和规则11.下边哪一种不属于数据预办理的方法(D)A 变量代换B失散化 C齐集 D 预计遗漏值12. 假定 12 个销售价钱记录组已经排序以下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215使用以下每种方法将它们区分红四个箱。
《网络数据挖掘》实验一一、实验目的在SQL Server2005上构建数据仓库二、实验内容1.每个学生按自己的学号创建一个空的数据库。
2.将“浙江经济普查数据”目录下的11个城市的生产总值构成表导入该数据库。
要求表中列的名称为EXCEL表中抬头的名称,表的名称分别为对应的excel文件名。
往城市表中输入前面导入的11个城市名称和城市ID(注意不能重复),5.仔细阅读excel表格,分析产业结构的层次,找出产业、行业大类、行业中类的关系。
有些行业的指标值为几个子行业的累加。
比如:第一产业→农林牧渔业第二产业→工业→采矿业、制造业、电力、燃气及水的生产和供应业类ID可按顺序编写。
8.创建一个新表汇总11个城市的生产总值,表的名称为“按城市和行业分组的生产总值表”。
表中的列名和第二步导入表的列名相同,同时添加一个新列(放在第一列),列名为“城市ID”,数据类型为整型;再添加一个新列(放在第二列),列名为“行业中类ID”,数据类型为整型。
9.将11个城市的生产总值构成表导入到第6步创建的新表中,注意不同的城市,要用不同的城市ID代入,行业中类ID可暂时为空值。
10.将行业门类表中的行业中类ID值输入至表“按城市和行业分组的生产总值表”中的“行业中类ID”列上。
11.检查3个表:“按城市和行业分组的生产总值表”、“城市表”、“行业门类表”中主键和外键是否一致(可通过关联查询检查)。
12.删除“按城市和行业分组的生产总值表”中除了行业中类纪录以外的其他高层次的记录,如指标为“第一产业”的行等等(如果不删除,将在汇总中出错)。
13.删除“按城市和行业分组的生产总值表”中原有的“指标”列(由于这列在行业门类表中已存在,因此是冗余的)。
14. 建立以下查询,和原EXCEL文件中的数据对比a)查询杭州市第二产业工业大类下各行业中类的总产出、增加值、劳动者报酬、营业盈余b)分别查询11个城市的第二产业总产出汇总值c)分别查询11个城市的工业劳动者报酬汇总值d)分别查询11个城市的第三产业增加值14.使用SSIS创建一个包,来完成第9步和第10步的过程,执行包,检查数据是否一致。
数据挖掘-WEKA 实验报告一一、实验内容1、Weka 工具初步认识(掌握weka程序运行环境)2、实验数据预处理。
(掌握weka中数据预处理的使用)对weka自带测试用例数据集weather.nominal.arrf文件,进行一下操作。
1)、加载数据,熟悉各按钮的功能。
2)、熟悉各过滤器的功能,使用过滤器Remove、Add对数据集进行操作。
3)、使用weka.unsupervised.instance.RemoveWithValue 过滤器去除humidity属性值为high的全部实例。
4)、使用离散化技术对数据集glass.arrf中的属性RI和Ba 进行离散化(分别用等宽,等频进行离散化)。
(1)打开已经安装好的weka,界面如下,点击openfile即可打开weka自带测试用例数据集weather.nominal.arrf文件(2)打开文件之后界面如下:(3)可对数据进行选择,可以全选,不选,反选等,还可以链接数据库,对数据进行编辑,保存等。
还可以对所有的属性进行可视化。
如下图:(4)使用过滤器Remove、Add对数据集进行操作。
(5)点击此处可以增加属性。
如上图,增加了一个未命名的属性unnamed.再点击下方的remove按钮即可删除该属性.(5)使用weka.unsupervised.instance.RemoveWithValue过滤器去除humidity属性值为high的全部实例。
没有去掉之前:(6)去掉其中一个属性之后:(7)选择choose里的removewithvalue:(8)选择huminity属性:(9)使用离散化技术对数据集glass.arrf中的属性RI和Ba进行离散化(分别用等宽,等频进行离散化)。
RI等宽:(10)Ba等频:二、思考与分析.1.使用数据集编辑器打开weather.nominal.arrf文件,实例编号为2的分类属性值是多少?如图所示:实例编号为2的分类值属性为no加载weather.nomina.arrf文件后,temperature属性可以有哪些合法值?Temperature可以取值为:hot、mild、coolWord 资料。
数据挖掘(练习)1、(单选,4分)以下哪项不属于知识发现的过程?( )A、数据清理B、数据挖掘C、知识可视化表达D、数据测试答案:D2、(单选,4分)以下哪些不属于数据挖掘的内容?()A、分类B、聚类C、离群点检测D、递归分析答案:D3、(单选,4分)以下哪个不是常见的属性类型?()A、A.标称属性B、数值属性C、高维属性D、序数属性答案:C4、(单选,4分)以下哪个度量属于数据散度的描述?()A、均值B、中位数C、标准差D、众数答案:C5、(单选,4分)以下哪个度量不属于数据中心趋势度描述?(D )A、A.均值B、中位数C、众数D、四分位数答案:D6、(单选,4分)对数据进行数据清理、集成、变换、规约是数据挖掘哪个步骤的任务?( )A、频繁模式挖掘B、分类和预测C、数据预处理D、噪声检测答案:C7、(单选,4分)聚类分析是数据挖掘的一种重要技术,以下哪个算法不属于聚类算法?( )A、K-MeansB、DBSCANC、SVMD、EM 答案:C8、(单选,4分)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则答案:C9、(单选,4分)当不知道数据所带标签时. 可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )A、分类B、聚类C、关联分析D、隐马尔可夫链答案:B10、(单选,4分)在构造决策树时,以下哪种不是选择属性的度量的方法?( )A、信息增益B、信息增益率C、基尼指数D、距离答案:D11、(单选,4分)知识发现流程最核心的步骤是什么?( )A、数据挖掘B、数据预处理C、模式评估D、知识表示答案:A12、(单选,4分)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( )A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘答案:C13、(单选,4分)以下哪个度量属于数据中心性的描述?()A、均值B、极差C、众数D、标准差答案:A14、(单选,4分)类分析是数据挖掘的一种重要技术,以下哪个算法不属于聚类算法?( )A、K-MeansB、DBSCANC、KNND、EM 答案:C15、(单选,4分)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( ) A、关联规则发现B、聚类C、分类D、自然语言处理答案:A16、(单选,4分)以下哪些算法是分类算法?( ) A、DBSCAN B、C4.5 C、K-Mean D、EM 答案:B17、(单选,4分)K-means算法的缺点不包括?( ) A、K必须是事先给定的B、选择初始聚类中心C、对于“噪声”和孤立点数据是敏感的D、可伸缩、高效答案:D18、(单选,4分)机器学习中,下面哪些方法不可以避免分类中的过拟合问题?()A、增加样本数量B、增加模型复杂度C、去除噪声D、正则化答案:B19、(单选,4分)下面那个不属于知识发现过程。
实验一Clementine12.0数据挖掘分析方法与应用一、[实验目的]熟悉Clementine12.0进行数据挖掘的基本操作方法与流程,对实际的问题能熟练利用Clementine12.0开展数据挖掘分析工作。
二、[知识要点]1、数据挖掘概念;2、数据挖掘流程;3、Clementine12.0进行数据挖掘的基本操作方法。
三、[实验内容与要求]1、熟悉Clementine12.0操作界面;2、理解工作流的模型构建方法;3、安装、运行Clementine12.0软件;4、构建挖掘流。
四、[实验条件]Clementine12.0软件。
五、[实验步骤]1、主要数据挖掘模式分析;2、数据挖掘流程分析;3、Clementine12.0下载与安装;4、Clementine12.0功能分析;5、Clementine12.0决策分析实例。
六、[思考与练习]1、Clementine12.0软件进行数据挖掘的主要特点是什么?2、利用Clementine12.0构建一个关联挖掘流(购物篮分析)。
实验部分一、Clementine简述Clementine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台。
1999年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点。
作为一个数据挖掘平台,Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。
强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。
同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。
为了解决各种商务问题,企业需要以不同的方式来处理各种类型迥异的数据,相异的任务类型和数据类型就要求有不同的分析技术。
数据挖掘概念与技术(原书第3版)第一章课后习题及解答1.9习题1.1什么是数据挖掘?在你的回答中,强调以下问题:(a)它是又一种广告宣传吗?(b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?(c)我们提出了一种观点,说数据挖掘是数据库技术进化的结果。
你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这一观点吗?针对统计学和模式识别领域,做相同的事。
(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。
答:狭义的数据挖掘是知识发现过程中的一个步骤,广义的数据挖掘通常用来表示整个知识发现过程,我们一般采用广义的观点:数据挖掘是从大量数据中挖掘有趣模式和知识的过程。
数据源包括数据库、数据仓库、WEB、其他信息存储库或动态地流入系统的数据。
a.它不是一种广告宣传,它基于实际的需求,提供从数据中发现知识的工具。
b。
数据挖掘不是从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用,它可以看做是信息技术的自然进化,是一些相关学科和应用领域的交汇点.c。
数据挖掘是数据库技术进化的结果,也是机器学习、统计学和模式识别领域技术进化的结果。
机器学习是一个快速成长的学科,这一领域中的监督学习、无监督学习、半监督学习和主动学习问题,与数据挖掘高度相关,数据挖掘和机器学习有许多相似之处,对于分类和聚类任务,机器学习研究通常关注模型的准确率。
除准确率之外,数据挖掘研究非常强调挖掘方法在大型数据集上的有效性和可伸缩性,以及处理复杂数据类型的方法,开发新的非传统的方法.统计学研究数据的收集、分析、解释和表示。
数据挖掘和统计学具有天然联系。
(1)统计模型是一组数学函数,它们利用随机变量及其概率分布刻画目标类对象的行为,可以是数据挖掘的结果,也可以是数据挖掘任务的基础。
(2)统计学研究开发一些使用数据和统计模型进行预测和预报的工具,描述统计可以帮助理解数据;推理统计学用某种方式对数据建模,可以解释观测中的随机性和确定性,并用来提取关于所考察的过程中或总体的结论.(3)统计假设检验使用实验数据进行统计判决,可以用来验证数据挖掘结果。
笫一章卜列JS于数据挖掘任务的是<)根据性别划分公司的顾客计斃公司的总销傅额预測一对股子的结果利用历史记录预测公司的未來股价吋以在不同维度合并数据.从而形成数据立方体的足()数据库数据祿数据仓库数据库系统目的足缩小数据的取值范用•使其更适合于数据挖掘以浓的需要.井且能够得到和原始数据相同的分析结果的足()数据清洗数据集成数据变换数据归約卜谜四种方法嘛一种不足雷见的分类方法(〉决第树支持向fitK-Xeans (聚类)朴素贝叶斯分类卜列任务中.朋于数据挖掘技术在商务智能方面应用的足()欺诈检测垃圾邮件识别根据因特网的捜索引擎伍找特定的Web页面定向营销舁常检测的应用包括()网络攻击预测某股票的未来价格计算公司的总带會额根据性别划分公司顾客将原始数据进行集成.变换.维度规约、数值规约足哪个步驟的任务(〉猿繁模式挖掘分类和预测数据预处理数据流挖掘KDD是(数据挖掘9知识发现)卜列有关离群点的分析错谦的足(〉-纓宿况卜离群点会被肖作唤声而去弃离群点即足噪声数据在荣些待殊应用中离群点有特殊的总义信用卡在不常消费地区突然消费人壇金额的现盘属于离群点分析范畸卜列关于模式识别的相关说法中错谓的足(〉模式识别的本质足抽象出不同爭物中的模式并由此对爭物进行分类医疗诊断属干模式讲别的研宛内容之一F机的描纹解镇技术不属r模式识别的应用门然语育理解也包含模式识别何题()不属干数据挖抿的应用领域。
商务智能信息识别I搜童引鼻医疗诊斷目前数据分析和数据挖掘而临的挑战性何题不包括(〉数据类型的多样化高维度数据离群点数据分析与挖掘结果对视化常见的机器学习方法有监悴学习.无监怦学r监悴学习数据挖掘足从人规模的数据中抽1R或挖掘出感兴趣的知识或模式的过程或方法&施紫模式足描数据集中频緊出现的蟆式X肉群点足描全局或者局部范用内偏离一履水平的观测对盘联机分析处理足数据仓库的主要应用分类是措通过建立模型预测离散标签.I叩丿I足通过建立连续值模型推断新的数据的某个数值型属性。
第一章1.6(1)数据特征化是目标类数据的一般特性或特征的汇总。
例如,在某商店花费1000元以上的顾客特征的汇总描述是:年龄在40—50岁、有工作和很好的信誉等级。
(2)数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,高平均分数的学生的一般特点,可与低平均分数的学生的一般特点进行比较.由此产生的可能是一个相当普遍的描述,如平均分高达75%的学生是大四的计算机科学专业的学生,而平均分低于65%的学生则不是.(3)关联和相关分析是指在给定的频繁项集中寻找相关联的规则.例如,一个数据挖掘系统可能会发现这样的规则:专业(X,“计算机科学”)=〉拥有(X,”个人电脑“)[support= 12%,confidence = 98%],其中X是一个变量,代表一个学生,该规则表明,98%的置信度或可信性表示,如果一个学生是属于计算机科学专业的,则拥有个人电脑的可能性是98%。
12%的支持度意味着所研究的所有事务的12%显示属于计算机科学专业的学生都会拥有个人电脑。
(4)分类和预测的不同之处在于前者是构建了一个模型(或函数),描述和区分数据类或概念,而后者则建立了一个模型来预测一些丢失或不可用的数据,而且往往是数值,数据集的预测。
它们的相似之处是它们都是为预测工具:分类是用于预测的数据和预测对象的类标签,预测通常用于预测缺失值的数值数据。
例如:某银行需要根据顾客的基本特征将顾客的信誉度区分为优良中差几个类别,此时用到的则是分类;当研究某只股票的价格走势时,会根据股票的历史价格来预测股票的未来价格,此时用到的则是预测。
(5)聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类和分组。
聚类还便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。
例如:世界上有很多种鸟,我们可以根据鸟之间的相似性,聚集成n类,其中n可以认为规定. (6)数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。
数据挖掘技术选修课大作业学院:计算机学院专业:软件工程姓名:王小妮班级:软工1201学号:12080101071.1数据挖掘技术的定义1.2数据挖掘的含义1.3数据挖掘商业角度的定义1.4数据挖掘和数据仓库1.5数据挖掘和在线分析处理1.6软硬件发展对数据挖掘的影响2数据挖掘的典型技术2.1聚类分析2.1关联规则2.3回归分析2.4其他技术3数据挖掘技术的应用3.1在intnet的应用3.2在金融的应用4学习收获参考文献:1.1数据挖掘技术的定义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
1.2数据挖掘技术的含义与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。
这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
----何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。
人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。
原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。
发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。
发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。
因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。
在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。
实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。
最好能用自然语言表达所发现的结果。
1.3数据挖掘在商业上的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
简而言之,数据挖掘其实是一类深层次的数据分析方法。
数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。
商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的(Opportunistic)商业运作而产生。
分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。
但所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。
因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
1.4数据挖掘与数据仓库数据挖掘库可能是你的数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。
但如果你的数据仓库的计算资源已经很紧张,那你最好还是建立一个单独的数据挖掘库。
当然为了数据挖掘你也不必非得建立一个数据仓库,数据仓库不是必需的。
建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。
只是为了数据挖掘,你可以把一个或几个事务数据库导到一个只读的数据库中,就把它当作数据集市,然后在他上面进行数据挖掘。
1.5数据挖掘与在线分析处理(OLAP)一个经常问的问题是,数据挖掘和OLAP到底有何不同。
下面将会解释,他们是完全不同的工具,基于的技术也大相径庭。
数据挖掘和OLAP具有一定的互补性。
在利用数据挖掘出来的结论采取行动之前,你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么OLAP工具能回答你的这些问题。
而且在知识发现的早期阶段,OLAP工具还有其他一些用途。
可以帮你探索数据,找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。
这都能帮你更好的理解你的数据,加快知识发现的过程。
1.6硬件对数据挖掘技术的影响数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。
基于并行系统的数据库管理系统也给数据挖掘技术的应用带来了便利。
如果你有一个庞大而复杂的数据挖掘问题要求通过访问数据库取得数据,那么效率最高的办法就是利用一个本地的并行数据库。
所有这些都为数据挖掘的实施扫清了道路,随着时间的延续,我们相信这条道路会越来越平坦。
2数据挖掘的典型技术2.1聚类分析聚类:数据库中的记录可被化分为一系列有意义的子集,即聚类。
聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。
聚类技术主要包括传统的模式识别方法和数学分类学。
80年代初,Mchalski提出了概念聚类技术牞其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。
聚类步骤:1,任意选取K个对象作为medoids(O1,O2,…Oi…Ok)。
以下是循环的:2,将余下的对象分到各个类中去(根据与medoid最相近的原则);3,对于每个类(Oi)中,顺序选取一个Or,计算用Or代替Oi后的消耗—E(Or)。
选择E最小的那个Or来代替Oi。
这样K个medoids就改变了,下面就再转到2。
4,这样循环直到K个medoids固定下来。
这种算法对于脏数据和异常数据不敏感,但计算量显然要比K均值要大,一般只适合小数据量。
Clara上面提到K-medoids算法不适合于大数据量的计算。
Clara算法,这是一种基于采样的方法,它能够处理大量的数据。
Clara算法的思想就是用实际数据的抽样来代替整个数据,然后再在这些抽样的数据上利用K-medoids算法得到最佳的medoids。
Clara算法从实际数据中抽取多个采样,在每个采样上都用K-medoids算法得到相应的(O1, O2 …Oi …Ok),然后在这当中选取E最小的一个作为最终的结果。
ClaransClara算法的效率取决于采样的大小,一般不太可能得到最佳的结果。
在Clara算法的基础上,又提出了Clarans的算法,与Clara算法不同的是:在Clara算法寻找最佳的medoids的过程中,采样都是不变的。
而Clarans算法在每一次循环的过程中所采用的采样都是不一样的。
与上面所讲的寻找最佳medoids的过程不同的是,必须人为地来限定循环的次数。
2.2关联规则算法所谓关联,反映的是一个事件和其他事件之间依赖或关联的知识。
当我们查找英文文献的时候,可以发现有两个英文词都能形容关联的含义。
第一个是相关性relevance,第二个是关联性association,两者都可以用来描述事件之间的关联程度。
设I={i1,i2…,im}为所有项目的集合,设A是一个由项目构成的集合,称为项集。
事务T是一个项目子集,每一个事务具有唯一的事务标识Tid。
事务T包含项集A,当且仅当AT。
如果项集A中包含k个项目,则称其为k项集。
D为事务数据库,项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度(support)。
如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(或大项集)。
关联规则就是形如XY的逻辑蕴含关系,其中XI,YI且XY=Φ,X称作规则的前件,Y是结果,对于关联规则XY,存在支持度和信任度。
支持度是指规则中所出现模式的频率,如果事务数据库有s%的事务包含XY,则称关联规则XY在D中的支持度为s%,实际上,可以表示为概率P(XY),即support(XY)= P(XY)。
信任度是指蕴含的强度,即事务D中c%的包含X的交易同时包含XY。
若X的支持度是support(x),规则的信任度为即为:support(XY)/support(X),这是一个条件概率P(Y|X),即confidence(XY)= P(Y|X)。
2.3其他的挖掘技术各种统计方法,假设检验,方差分析,回归分析,逻辑回归,聚类分析,因子分析,关联规则,决策树,支持向量机,神经网络,朴素贝叶斯等等。
3数据挖掘技术的应用3.1在intnet的应用Internet的迅猛发展,尤其是Web的全球普及,使得Web上信息量无比丰富,Web上的数据信息不同于数据库。
数据库有规范的结构,如关系数据库的二维表结构;毕竟数据库的创建是为了机器可读,因此有统一的格式,它是一种结构化的文件。
Web上的信息则不然,主要是文档,它的初始创建目的是为了人类使用。
文档结构性差,好者半结构化,坏者如纯自然语言文本则毫无结构。
因此Web上的开采发现需要用到不同于常规数据库开采的很多技术。
下面将从信息发现和用户访问模式发现两个不同的Web开采任务角度对这方面工作的研究现状进行评述。
Web信息发现也称信息搜索或查询。
它的一般过程是,用户向系统提出查询条件,系统调用搜索引擎开始工作,然后把搜索结果提交给用户。
根据用户希望查找的对象可分为两种:资源发现和信息提取。
前者目的在于根据用户要求找出有关的Web文档位置;后者则是能自动从有关文档中抽取出满足用户需要的信息。
目前在用的索引系统有十几种,用户输入同样的关键词在不同的索引下可能会得到不同的返回结果。
为了提高搜索的准确度,研究人员又开发了一种建立在上述索引系统之上的高层系统——MetaCrawler,它能并行地把用户输入的关键词提交给9种不同的索引系统,然后把这9种系统的:研制新的更好的索引系统、利用已有索引系统或搜索引擎(如Yahoo)开发高层次的搜索或发现系统。
相比之下,后者的研究更为活跃。
从技术上看,自动文档分类或归类方法将对这方面的研究有很大作用。
用户使用Web获取信息的过程中需要不停地从一个Web站点通过超文本链接跳转到另一个站点,这种过程存在一定的普遍性,发现此规律即是Web用户访问模式发现。
这是一种完全不同于上述所讲的资源发现的任务。
理解Web上的用户访问模式有这些好处:辅助改进分布式网络系统的设计性能,如在有高度相关的站点间提供快速有效的访问通道;能帮助更好地组织设计Web主页;帮助改善市场营销决策,如把广告放在适当的Web页上或更好地理解客户的兴趣。