数据挖掘分类实验详细报告
- 格式:docx
- 大小:1.06 MB
- 文档页数:18
数据挖掘_实习报告数据挖掘实习报告一、实习目的进入大学以来,我一直在学习数据挖掘的相关理论知识,包括统计学、机器学习、数据库管理等。
为了将理论应用于实践,提升自己的专业技能,我选择了在XX公司进行数据挖掘实习。
二、实习内容在实习期间,我主要参与了以下几个项目:1. 用户画像构建:通过对用户历史数据的分析,提取用户的特征和兴趣点,构建用户画像。
这涉及到数据清洗、特征工程、标签制定等环节。
2. 推荐系统开发:基于用户画像,开发推荐算法,为用户提供个性化的商品或服务推荐。
这需要对推荐算法有深入的理解,并熟悉相关工具和平台。
3. 广告投放策略优化:通过数据分析和机器学习算法,优化广告投放策略,提高广告的点击率和转化率。
这涉及到数据处理、模型训练、AB测试等环节。
三、实习过程在实习过程中,我遇到了很多挑战和问题。
其中最大的挑战是如何将理论知识与实际应用相结合,我对数据挖掘的知识有了深入的理解,但在实际应用中,却发现自己对某些概念的理解还不够深入。
为了解决这个问题,我主动向同事请教,并阅读了大量相关文档和资料。
我还积极参加团队讨论和分享会,与其他同事交流经验和看法,不断加深对数据挖掘的理解和应用。
除了技术层面的挑战外,我还面临了时间管理和工作压力的挑战。
由于项目进度紧张和任务繁重,我需要在有限的时间内完成大量的工作和学习任务。
为了应对这些挑战,我制定了详细的工作计划和时间表,并学会合理安排时间和优先级。
我也积极调整自己的心态和情绪,保持积极乐观的态度,以应对工作中的压力和挑战。
四、实习收获通过这次实习,我不仅提升了自己的专业技能和实践能力,还学会了如何将理论知识与实际应用相结合,解决实际问题。
我还培养了自己的团队协作能力和沟通能力,学会了如何与他人合作完成任务。
在未来的学习和工作中,我将更加注重理论与实践的结合,不断提升自己的专业素养和实践能力。
五、总结与展望这次实习是一次非常宝贵的学习和成长经历,通过这次实习,我不仅掌握了数据挖掘的基本理论和技能,还提升了自己的实践能力和团队协作能力。
数据挖掘分类算法实验报告数据挖掘分类算法实验报告一、引言数据挖掘是一种通过从大量数据中发现模式、规律和知识的过程。
在现代社会中,数据挖掘已经成为了一项重要的技术,广泛应用于各个领域。
其中,分类算法是数据挖掘中的一种重要技术,它可以将数据集中的样本分为不同的类别,从而实现对数据的有效分类和预测。
二、实验目的本实验旨在比较和评估常见的数据挖掘分类算法,包括决策树、朴素贝叶斯和支持向量机。
通过对多个数据集的实验,对这些算法的分类性能进行评估,并分析其适用场景和优缺点。
三、实验方法1. 数据集选择本实验选择了三个不同类型的数据集,包括鸢尾花数据集、心脏病数据集和手写数字数据集。
这些数据集代表了常见的分类问题,具有不同的特征和类别分布。
2. 特征选择和预处理在进行分类算法之前,需要对原始数据进行特征选择和预处理。
特征选择是为了从原始数据中选择出最具有代表性和区分度的特征,以提高分类算法的效果。
预处理包括数据清洗、缺失值处理和数据标准化等步骤,以确保数据的质量和一致性。
3. 算法实现和评估在实验中,我们使用Python编程语言实现了决策树、朴素贝叶斯和支持向量机三种分类算法。
对于每个数据集,我们将数据集划分为训练集和测试集,使用训练集对分类模型进行训练,然后使用测试集评估分类算法的性能。
评估指标包括准确率、召回率和F1值等。
四、实验结果与分析1. 鸢尾花数据集实验结果在对鸢尾花数据集进行分类实验时,我们发现决策树算法表现最好,准确率达到了95%以上,而朴素贝叶斯算法和支持向量机算法的准确率分别为90%和93%。
这说明决策树算法在处理鸢尾花数据集时具有较好的分类能力。
2. 心脏病数据集实验结果对于心脏病数据集,朴素贝叶斯算法表现最好,准确率超过了90%,而决策树算法和支持向量机算法的准确率分别为85%和88%。
这说明朴素贝叶斯算法在处理心脏病数据集时具有较好的分类效果。
3. 手写数字数据集实验结果在对手写数字数据集进行分类实验时,支持向量机算法表现最好,准确率超过了98%,而决策树算法和朴素贝叶斯算法的准确率分别为90%和92%。
实验二
一、基本原理
分类算法是解决分类问题的方法,是数据挖掘、机器学习和模式识别中一个重要的研究领域。
分类算法通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。
分类算法的应用非常广泛,银行中风险评估、客户类别分类、文本检索和搜索引擎分类、安全领域中的入侵检测以及软件项目中的应用等。
二、实验目的:
掌握CART决策树构建分类模型。
三、实验内容
对所有窃漏电用户及真诚用户的电量、告警及线损数据和该用户在当天是否窃漏电的标识,按窃漏电评价指标进行处理并选取其中291个样本数据,得到专家样本,使用CART 决策树实现分类预测模型。
注意:数据的80%作为训练样本,剩下的20%作为测试样本。
四、实验步骤
1、对数据进行预处理
2、把数据随机分为两部分,一部分用于训练,一部分用于测试。
分成testData和trainData文件即测试数据和训练数据数据的80%作为训练样本,剩下的20%作为测试样本。
和构建的CART决策树模型分别对训练数据和测试数据进行分类。
构建的神经网络模型分别对训练数据和测试数据进行分类。
5、对比分析CART决策树和神经网络模型对数据处理的结果。
五、实验结果
六、思考与分析
尝试采用神经网络对数据进行分类,并与CART决策树的结果进行比较。
答:与神经网络相比,决策树可以很好地处理非数值型的数据,但是决策树对连续的数据(比如连续的数值型数据)不太擅长。
数据挖掘分类实验详细报告《数据挖掘分类实验报告》信息安全科学与工程学院1120362066尹雪蓉数据挖掘分类过程(1)数据分析介绍本次实验为典型的分类实验,为了便于说明问题,弄清数据挖掘具体流程,我们小组选择了最经典的决策树算法进行具体挖掘实验。
(2)数据准备与预处理在进行数据挖掘之前,我们首先要对需要挖掘的样本数据进行预处理,预处理包括以下步骤:1、数据准备,格式统一。
将样本转化为等维的数据特征(特征提取),让所有的样本具有相同数量的特征,同时兼顾特征的全面性和独立性2、选择与类别相关的特征(特征选择)3、建立数据训练集和测试集4、对数据集进行数据清理在本次实验中,我们选择了ILPD (Indian Liver Patient Dataset) 这个数据集,该数据集已经具有等维的数据特征,主要包括Age、Gender、TB、DB、Alkphos、Sgpt、Sgot、TP、ALB、A/G、classical,一共11个维度的数据特征,其中与分类类别相关的特征为classical,它的类别有1,2两个值。
详见下表:本实验的主要思路是将该数据集分成训练集和测试集,对训练集进行训练生成模型,然后再根据模型对测试集进行预测。
数据集处理实验详细过程:●CSV数据源处理由于下载的原始数据集文件Indian Liver Patient Dataset (ILPD).csv(见下图)中间并不包含属性项,这不利于之后分类的实验操作,所以要对该文件进行处理,使用Notepad文件,手动将属性行添加到文件首行即可。
●平台数据集格式转换在后面数据挖掘的实验过程中,我们需要借助开源数据挖掘平台工具软件weka,该平台使用的数据集格式为arff,因此为了便于实验,在这里我们要对csv文件进行格式转换,转换工具为weka自带工具。
转换过程为:1、打开weka平台,点击”Simple CLI“,进入weka命令行界面,如下图所示:2、输入命令将csv文件导成arff文件,如下图所示:3、得到arff文件如下图所示:内容如下:建立数据训练集、校验集和测试集通过统计数据信息,可知整个数据集带有classical标号的数据一共有583行,为了避免数据的过度拟合,我们要把数据训练集、校验集、测试集分开。
第1篇一、实验概述本次数据挖掘实验以Apriori算法为核心,通过对GutenBerg和DBLP两个数据集进行关联规则挖掘,旨在探讨数据挖掘技术在知识发现中的应用。
实验过程中,我们遵循数据挖掘的一般流程,包括数据预处理、关联规则挖掘、结果分析和可视化等步骤。
二、实验结果分析1. 数据预处理在实验开始之前,我们对GutenBerg和DBLP数据集进行了预处理,包括数据清洗、数据集成和数据变换等。
通过对数据集的分析,我们发现了以下问题:(1)数据缺失:部分数据集存在缺失值,需要通过插补或删除缺失数据的方法进行处理。
(2)数据不一致:数据集中存在不同格式的数据,需要进行统一处理。
(3)数据噪声:数据集中存在一些异常值,需要通过滤波或聚类等方法进行处理。
2. 关联规则挖掘在数据预处理完成后,我们使用Apriori算法对数据集进行关联规则挖掘。
实验中,我们设置了不同的最小支持度和最小置信度阈值,以挖掘出不同粒度的关联规则。
以下是实验结果分析:(1)GutenBerg数据集在GutenBerg数据集中,我们以句子为篮子粒度,挖掘了林肯演讲集的关联规则。
通过分析挖掘结果,我们发现:- 单词“the”和“of”在句子中频繁出现,表明这两个词在林肯演讲中具有较高的出现频率。
- “and”和“to”等连接词也具有较高的出现频率,说明林肯演讲中句子结构较为复杂。
- 部分单词组合具有较高的置信度,如“war”和“soldier”,表明在林肯演讲中提到“war”时,很可能同时提到“soldier”。
(2)DBLP数据集在DBLP数据集中,我们以作者为单位,挖掘了作者之间的合作关系。
实验结果表明:- 部分作者之间存在较强的合作关系,如同一研究领域内的作者。
- 部分作者在多个研究领域均有合作关系,表明他们在不同领域具有一定的学术影响力。
3. 结果分析和可视化为了更好地展示实验结果,我们对挖掘出的关联规则进行了可视化处理。
通过可视化,我们可以直观地看出以下信息:(1)频繁项集的分布情况:通过柱状图展示频繁项集的分布情况,便于分析不同项集的出现频率。
数据挖掘分类实验报告《数据挖掘分类实验报告》数据挖掘是一门利用统计学、机器学习和人工智能等技术,从大量的数据中发现隐藏的模式和知识的学科。
在数据挖掘中,分类是一种常见的任务,它通过对数据进行分析和学习,将数据划分到不同的类别中。
本文将通过一个数据挖掘分类实验报告,介绍数据挖掘分类的实验过程和结果。
实验数据集选取了一个包含多个特征和标签的数据集,以便进行分类任务。
首先,我们对数据集进行了数据预处理,包括数据清洗、特征选择、特征变换等步骤,以确保数据的质量和适用性。
接着,我们将数据集划分为训练集和测试集,用训练集训练分类模型,并用测试集评估模型的性能。
在实验中,我们尝试了多种分类算法,包括决策树、支持向量机、朴素贝叶斯等。
通过对比不同算法的准确率、精确率、召回率和F1值等指标,我们评估了各个算法在该数据集上的表现。
实验结果显示,不同算法在不同数据集上表现出不同的性能,决策树算法在某些数据集上表现较好,而支持向量机在另一些数据集上表现更优秀。
此外,我们还进行了特征重要性分析,通过对特征的重要性进行排序,找出对分类任务最具有区分性的特征。
这有助于我们理解数据集的特点,并为进一步优化分类模型提供了指导。
综合实验结果,我们得出了一些结论和启示。
首先,不同的分类算法适用于不同的数据集和任务,需要根据具体情况选择合适的算法。
其次,特征选择和特征重要性分析对于提高分类模型的性能至关重要,需要充分利用数据挖掘技术进行特征工程。
最后,数据挖掘分类实验是一个迭代的过程,需要不断尝试和调整,以优化分类模型的性能。
通过本次数据挖掘分类实验报告,我们深入了解了数据挖掘分类的实验过程和方法,对数据挖掘技术有了更深入的理解,也为实际应用中的分类任务提供了一定的指导和启示。
希望本文能够对读者有所启发,促进数据挖掘领域的研究和实践。
数据挖掘分类实验详细报告一、引言数据挖掘是从大量数据中提取隐藏在其中的有价值信息的过程。
数据挖掘分类实验是数据挖掘领域中的一项重要任务,其目标是根据已有的数据样本,构建一个能够准确分类未知数据的分类模型。
本报告旨在详细描述数据挖掘分类实验的过程、方法和结果。
二、实验背景本次实验的数据集是一个关于电子商务的数据集,包含了一些与电子商务相关的特征和一个分类标签。
我们的任务是根据这些特征,预测一个电子商务网站上的用户是否会购买某个产品。
三、数据预处理在进行数据挖掘实验之前,我们需要对数据进行预处理。
首先,我们检查数据集是否存在缺失值或异常值。
对于缺失值,我们可以选择删除含有缺失值的样本,或者使用插补方法进行填充。
对于异常值,我们可以选择删除或者进行修正。
其次,我们对数据进行特征选择,选择与分类目标相关性较高的特征。
最后,我们对数据进行归一化处理,以消除不同特征之间的量纲差异。
四、特征工程特征工程是指根据领域知识和数据分析的结果,构建新的特征或者对原有特征进行转换,以提高分类模型的性能。
在本次实验中,我们根据电子商务领域的经验,构建了以下特征:1. 用户年龄:将用户的年龄分为青年、中年和老年三个年龄段,并进行独热编码。
2. 用户性别:将用户的性别进行独热编码。
3. 用户所在地区:将用户所在地区进行独热编码。
4. 用户购买历史:统计用户过去一段时间内的购买次数、购买金额等指标。
五、模型选择与训练在本次实验中,我们选择了三种常用的分类模型进行训练和比较:决策树、支持向量机和随机森林。
1. 决策树:决策树是一种基于树结构的分类模型,通过划分特征空间,将数据样本划分到不同的类别中。
2. 支持向量机:支持向量机是一种通过在特征空间中构建超平面,将不同类别的样本分开的分类模型。
3. 随机森林:随机森林是一种基于决策树的集成学习方法,通过构建多个决策树,最终根据投票结果进行分类。
我们将数据集划分为训练集和测试集,使用训练集对模型进行训练,使用测试集评估模型的性能。
数据挖掘实验报告数据准备+关联规则挖掘+分类知识挖掘数据挖掘实验报告班级学号姓名课程数据挖掘实验名称实验⼀:数据准备实验类型实验⽬的:(1)掌握利⽤⽂本编辑软件⽣成ARFF⽂件的⽅法;(2)掌握将EXCEL表格⽂件转换为ARFF⽂件的⽅法;(3)掌握数据的预处理⽅法。
实验要求:(1)将下列表格中的数据利⽤⽂本编辑软件⽣成ARFF⽂件:姓名出⽣⽇期性别婚否⼯资职业信⽤等级黄⼤伟1970.05.08 男3580 教师优秀李明1964.11.03 男是4850 公务员优秀张明明1975.03.12 ⼥是职员优秀覃明勇1981.07.11 男是2980 职员良好黄燕玲1986.05.08 ⼥否2560 ⼯⼈⼀般表中没有填上的数据为缺失数据。
请列出你编辑ARFF⽂件并在WEKA中打开该⽂件。
(2)将EXCEL表格⽂件“bankdata.xls”转换为ARFF⽂件的⽅法,并将它另存为ARFF⽂件“bankdata.arff”, 在WEKA中打开该⽂件,写出操作过程。
(3)数值属性的离散化:在WEKA中打开ARFF⽂件“bankdata.arff”,对属性“age”和“income”分别按等宽分箱和等深分箱进⾏离散化为三个箱。
给出分箱的结果。
实验结果:(1) @relation book1@attribute 姓名{黄⼤伟,'李明',张明明,覃明勇,黄燕玲}@attribute 出⽣⽇期{1970.05.08,1964.11.03,1975.03.12,1981.07.11,1986.05.08}@attribute 性别{男,⼥}@attribute 婚否{是,否}@attribute ⼯资numeric@data黄⼤伟,1970.05.08,男,?,3580李',1964.11.03,男,是,4850张明明,1975.03.12,⼥,是,?覃明勇,1981.07.11,男,是,2980黄燕玲,1986.05.08,⼥,否,2560(2)先把bankdata.xls转化为CSV⽂件格式得到bankdata.csv,再在WEKA中打开,再另存为ARFF格式,就可以得到bankdata.arff。
数据挖掘实验报告一、实验目的本次数据挖掘实验的主要目的是深入了解数据挖掘的基本概念和方法,并通过实际操作来探索数据中潜在的有价值信息。
二、实验环境本次实验使用了以下软件和工具:1、 Python 编程语言,及其相关的数据挖掘库,如 Pandas、NumPy、Scikitlearn 等。
2、 Jupyter Notebook 作为开发环境,方便进行代码编写和结果展示。
三、实验数据实验所使用的数据来源于一个公开的数据集,该数据集包含了关于_____的相关信息。
具体包括_____、_____、_____等多个字段,数据量约为_____条记录。
四、实验步骤1、数据预处理首先,对原始数据进行了清洗,处理了缺失值和异常值。
对于缺失值,根据数据的特点和分布,采用了平均值、中位数或删除等方法进行处理。
对于异常值,通过箱线图等方法进行识别,并根据具体情况进行了修正或删除。
接着,对数据进行了标准化和归一化处理,使得不同特征之间具有可比性。
2、特征工程从原始数据中提取了有意义的特征。
例如,通过计算某些字段的均值、方差等统计量,以及构建新的特征组合,来增强数据的表达能力。
对特征进行了筛选和降维,使用了主成分分析(PCA)等方法,减少了特征的数量,同时保留了主要的信息。
3、模型选择与训练尝试了多种数据挖掘模型,包括决策树、随机森林、支持向量机(SVM)等。
使用交叉验证等技术对模型进行了评估和调优,选择了性能最优的模型。
4、模型评估使用测试集对训练好的模型进行了评估,计算了准确率、召回率、F1 值等指标,以评估模型的性能。
五、实验结果与分析1、不同模型的性能比较决策树模型在准确率上表现较好,但在处理复杂数据时容易出现过拟合现象。
随机森林模型在稳定性和泛化能力方面表现出色,准确率和召回率都比较高。
SVM 模型对于线性可分的数据表现良好,但对于非线性数据的处理能力相对较弱。
2、特征工程的影响经过合理的特征工程处理,模型的性能得到了显著提升,表明有效的特征提取和选择对于数据挖掘任务至关重要。
数据挖掘实验报告总结引言数据挖掘是一种从大规模数据集中提取有用信息和模式的过程。
本实验是基于Python的数据挖掘实验,旨在使用已掌握的数据挖掘算法对给定的数据集进行分析和预测。
本报告将对实验过程进行总结,并对结果进行评估和分析。
实验步骤实验过程主要包括以下步骤:1.数据集的加载与探索:首先,我们需要加载数据集并对其进行初步的探索。
这包括查看数据的前几行,了解数据的结构和特征等。
2.数据预处理:在进行数据挖掘之前,需要对数据进行预处理,包括数据清洗、缺失值处理、数据变换等。
这有助于提高数据质量和模型的准确性。
3.特征选择与降维:选择合适的特征对于数据挖掘的准确性和效率至关重要。
本实验中,我们将使用特征选择算法和降维技术来减少特征的数量并保留最具代表性的特征。
4.模型选择与训练:在经过特征选择和降维之后,我们需要选择合适的数据挖掘算法来进行模型训练。
本实验将使用常见的分类算法和聚类算法进行模型选择和训练。
5.模型评估与优化:最后,我们将评估模型的性能并进行优化。
通过对模型结果进行评估,我们可以了解模型在不同指标下的表现,并针对具体问题优化模型的参数和算法选择。
实验结果经过以上步骤,我们得到了以下实验结果:1.数据集加载与探索结果:通过查看数据集,我们了解到数据集包含X个特征和Y个样本。
数据的结构和特征分布情况也得到了初步的了解。
2.数据预处理结果:在数据预处理过程中,我们对数据进行了清洗,处理了缺失值,并进行了特征变换。
这些处理操作使数据集更加干净和整洁,为后续的数据挖掘建模做了准备。
3.特征选择与降维结果:通过特征选择算法和降维技术,我们成功减少了数据集的维度,并保留了最具代表性的特征。
这有助于提高模型的训练效率和准确性。
4.模型选择与训练结果:在模型选择和训练阶段,我们尝试了多个经典的分类算法和聚类算法。
经过比较和实验,我们选择了X算法进行模型训练。
模型的训练结果显示,模型在训练集上的准确率为X%。
《数据挖掘分类实验报告》
信息安全科学与工程学院
1120362066 尹雪蓉数据挖掘分类过程
(1)数据分析介绍
本次实验为典型的分类实验,为了便于说明问题,弄清数据挖掘具体流程,我们小组选择了最经典的决策树算法进行具体挖掘实验。
(2)数据准备与预处理
在进行数据挖掘之前,我们首先要对需要挖掘的样本数据进行预处理,预处理包括以下步骤:
1、数据准备,格式统一。
将样本转化为等维的数据特征(特征提取),让所有的样
本具有相同数量的特征,同时兼顾特征的全面性和独立性
2、选择与类别相关的特征(特征选择)
3、建立数据训练集和测试集
4、对数据集进行数据清理
在本次实验中,我们选择了ILPD (Indian Liver Patient Dataset) 这个数据集,该数据集已经具有等维的数据特征,主要包括Age、Gender、TB、DB、Alkphos、Sgpt、Sgot、TP、ALB、A/G、classical,一共11个维度的数据特征,其中与分类类别相关的特征为classical,它的类别有1,2两个值。
详见下表:
本实验的主要思路是将该数据集分成训练集和测试集,对训练集进行训练生成模型,然后再根据模型对测试集进行预测。
数据集处理实验详细过程:
●CSV数据源处理
由于下载的原始数据集文件Indian Liver Patient Dataset (ILPD).csv(见下图)中间并不包含属性项,这不利于之后分类的实验操作,所以要对该文件进行处理,使用Notepad文件,手动将属性行添加到文件首行即可。
●平台数据集格式转换
在后面数据挖掘的实验过程中,我们需要借助开源数据挖掘平台工具软件weka,该平台使用的数据集格式为arff,因此为了便于实验,在这里我们要对csv文件进行格式转换,转换工具为weka自带工具。
转换过程为:
1、打开weka平台,点击”Simple CLI“,进入weka命令行界面,如下图所示:
2、输入命令将csv文件导成arff文件,如下图所示:
3、得到arff文件如下图所示:
内容如下:
建立数据训练集、校验集和测试集
通过统计数据信息,可知整个数据集带有classical标号的数据一共有583行,为了避免数据的过度拟合,我们要把数据训练集、校验集、测试集分开。
在本次实验中,我们的拆分
策略是训练集500行,校验集和测试集83行,由于数据集中有416行的classical标识为1,167行的classical标识为2,为了能在训练分类模型时有更加全面的信息,我们将167条classical标识为2与333行classical标识为1的数据全部作为模型训练集,而剩下的83条classical为1的数据将全部用于测试集,这是因为在校验的时候,两种类标号的数据作用区别不大,但是在训练数据模型是,需要更加全面的信息,特别是不同类标号的数据的合理比例对训练模型的质量有较大的影响。
在做预测测试之前,需要将测试集的分类标号去掉作为预测数据集。
数据训练集、校验集和测试集建立步骤:
1、复制原始数据集arff文件,作为总的训练数据集,文件名称改为build_model.arff。
如下图所示:
2、根据拆分策略,从原始数据集DataSet_original.arff文件中的数据里面,选取分类
标号为1的数据83作为校验数据集,该数据集文件名为validate_data.arff。
3、将剩下的DataSet_orginal.arff文件改名为train_data.arff
4、由于原始数据集都是有类标号的数据集,为了方便进行预测测试,我们将校验
数据集复制一份后,将分类标号去掉加入?,作为预测数据集。
如图所示:
数据清理
在进行数据搜集和整理的过程中,我们发现如果属性的类型为数值型的话,在做关联分析时将不能得到结果,因为关联分析无法处理数值型数据。
由于现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘或挖掘结果差强人意。
为了提高数据挖掘的质量,需要对数据进行预处理,预处理有多种方法:数据清理、数据集成、数据变换、数据归约等。
常用的数据清理主要分为两类:空缺值的处理和噪声数据处理。
空缺值处理主要是使用最可能的值填充空缺值,比如可以用回归、贝叶斯形式化方法工具或判定树归纳等确定空缺值。
这类方法依靠现有的数据信息来推测空缺值,使空缺值有更大的机会保持与其他属性之间的联系。
同时还可以用一个全局常量替换空缺值、使用属性的平均值填充空缺值或将所有元组按某些属性分类,然后用同一类中属性的平均值填充空缺值。
不过这些方法有局限性,当空缺值很多的情况下,这些方法的使用可能会误导挖掘结果;除了空缺值处理还有噪声数据处理,噪声是一个测量变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值。
常用分箱、回归、计算机检查和人工检查结合、聚类等方法进行噪音处理。
在本次试验中,我们对数据集进行了数据处理后使得需要分析的数据变为分类型,这样就可以关联分析得以顺利进行,在具体执行的过程中我们利用了weka平台自带的数据预处理库实现数据预处理。
具体实验过程见下文。
(3)实验过程
A、环境搭建
本实验的数据集选择Indian Liver Patient Dataset (ILPD),借助数据挖掘平台Weka3.6.9,编程环境为Eclipse + JDK7
1、数据集获取
选择Indian Liver Patient Dataset (ILPD)这个数据集,进入下载页面下载数据集
(详见下图)
2、Weka安装
下载Weka安装包weka-3-6-9-x64.exe,运行安装即可。
(如下图)安装界面:
安装完成:
Weka工作界面:
B、实验步骤
1、开发平台搭建
打开eclipse,点击File->New->Project…,新建Java Project工程,如下图所示:
新建一个java工程dataminingtest,配置build path将所需要的weka.jar和其它一些需要的jar包,导入该工程,如下图所示:
备注:由于调用weka算法时候可能会产生jar包依赖关系错误,需要额外加入一些jar包。
2、导入数据
将数据准备时的arff文件导入,数据打印出来后,如下图所示:
3、数据预处理
在本次试验中,我们使用weka的Filter作为数据预处理工具,该工具的一般流程是:实例化过滤器->传入过滤器参数->通过eFilter使用过滤器。
由于本实验采用的决策树J48算法的数据集需要离散化,故采用离散化过滤。
实现结果如下图所示:
过滤完成后的数据集变化情况如下图所示:
备注:由于最后一列classical的类型为Numeric,在weka平台上需要进行nominal类型转换。
转换方式也是使用Filter,效果如下图所示:
4、选择算法,建立模型
为了获取最优化的模型,需要对决策的参数进行配置,这里我们借助weka平台
通过修改树的实例/叶子节点数来获取最优的模型。
实验步骤如下所示:
1、打开weka软件平台,点击进入Explorer,选择open file…,打开train_data.arff。