数据挖掘 主题:第六章作业
- 格式:docx
- 大小:477.01 KB
- 文档页数:9
《数据挖掘》作业第一章引言一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习(4)在万维网(WWW)上应用的数据挖掘技术常被称为:WEB挖掘(5)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据二、单选题(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:(B )A、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2)孤立点挖掘适用于下列哪种场合?(D )A、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测(3)下列几种数据挖掘功能中,( D )被广泛的应用于股票价格走势分析A. 关联分析B.分类和预测C.聚类分析D. 演变分析(4)下面的数据挖掘的任务中,( B )将决定所使用的数据挖掘功能A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析A、关联分析B、分类和预测C、聚类分析D、演变分析(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( B )A.关联分析B.分类和预测C. 演变分析D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C )A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E )A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题(1)什么是数据挖掘?答:数据挖掘是指从大量数据中提取或“挖掘”知识。
文本数据挖掘教学大纲课程名称:文本数据挖掘学分:2总学时:32 理论学时:24 实验学时:8先修课程:数据库原理与应用、Python高级语言编程、数据结构适用专业: 数据工程专业开课学期:第六学期01课程性质、定位和教学目标课程性质:文本数据挖掘是数据工程专业的必修课程,本课程以文本数据挖掘为主要内容,讲述实现文本数据挖掘的各主要功能、挖掘算法和应用,并通过对实际数据的分析更加深入地理解常用的文本数据挖掘模型。
课程定位:“文本数据挖掘技术导论”是针对数据工程专业的专业技术课程,同时也是该专业的核心课程,也是本专业创业创新教育课程。
在学生专业培养中起到至关重要的作用。
教学目标:通过“文本数据挖掘技术导论”课程的教学,使学生理解文本数据挖掘的基本概念和方法,学习和掌握中的文本数据挖掘的经典方法。
使学生能够借助Python高级语言编程工具进行具体文本数据的挖掘分析。
02教学内容与要求第一章绪论【教学目的与要求】了解文本挖掘研究背景、意义及国内外研究现状,掌握文本挖掘的概念,了解文本挖掘主要研究领域,了解文本挖掘在制药企业应用案例。
【教学内容】1.1 文本挖掘研究背景及意义1.2 文本挖掘的国内外研究现状1.3 文本挖掘概述1.4 文本挖掘的过程1.5 文本挖掘在制药企业应用案例【教学重点与难点】重点:文本挖掘研究背景、意义国内外研究现状、文本挖掘概念难点:文本挖掘的过程【教学手段】利用网络环境、多媒体课件,案例教学、实理一体化教学方法等【课后作业】1. 文本挖掘与数据挖掘有何联系和区别?2. 目前文本挖掘的领域主要涉及到哪些?第二章文本切分及特征词选择【教学目的与要求】掌握文本数据采集的常用方法、了解中文语料库与词典,熟练掌握文本切分和文本特征词选择的方法,熟练掌握Python Jieba分词模块及其用法。
【教学内容】2.1 文本数据采集2.2 语料库与词典简介2.3 文本切分2.4 文本特征词选择2.5 Python Jieba分词模块及其用法【教学重点与难点】重点:文本切分、文本特征词选择、Python Jieba分词模块及其用法难点:Python Jieba分词模块及其用法【教学手段】利用网络环境、多媒体课件,案例教学、实理一体化教学方法等【课后作业】1 利用现代汉语语料库进行一段中文文本的汉语分词、词性自动标注、字频统计和词频统计。
简述说明数据挖掘的步骤。
数据挖掘的步骤第一章:引言数据挖掘是一种通过发现和分析大量数据中潜在规律和模式来提取有价值信息的过程。
它在各个领域中都扮演着重要角色,帮助人们做出决策、预测趋势和优化业务流程。
本文将详细介绍数据挖掘的步骤,并阐述每个步骤的核心内容。
第二章:问题定义在进行数据挖掘之前,首先需要明确定义需要解决的问题。
这个步骤的关键是准确理解业务需求,并将其转化为可量化的问题。
例如,一个电商公司想提高销售额,问题定义可以是“预测某个产品的销售量”。
第三章:数据收集与整理在数据挖掘的过程中,数据的质量和可用性至关重要。
因此,在进行数据收集之前,需要确定需要的数据类型和数据来源。
然后,通过各种方法,如网络爬虫或调查问卷,收集所需数据。
接下来,对收集到的数据进行清洗和整理,包括去除重复数据、处理缺失值和异常值等。
第四章:数据探索与可视化在数据整理完成后,需要对数据进行探索和可视化分析。
通过使用统计方法和数据可视化工具,可以从数据中发现潜在的关联、趋势和异常值。
这能够帮助我们更好地理解数据,并为后续的模型建立提供指导。
第五章:特征选择与特征工程在进行数据挖掘之前,需要选择合适的特征进行建模。
特征选择是指从大量的特征中选择最相关和最有用的特征。
而特征工程则是对原始特征进行变换和组合,以提取更多的信息。
通过这两个步骤,可以减少维度灾难的影响,并提高模型的准确性和可解释性。
第六章:模型选择与训练在数据预处理完成后,需要选择合适的模型进行训练。
根据问题的特性和数据的类型,可以选择不同的机器学习算法,如决策树、神经网络和支持向量机等。
通过训练数据,模型可以学习到数据的模式和规律,并用于未知数据的预测和分类。
第七章:模型评估与调优在模型训练完成后,需要对模型进行评估和调优。
通过使用评估指标,如准确率、召回率和F1分数等,可以评估模型的性能。
如果模型表现不佳,可以通过调整模型参数、增加训练数据或改进特征工程等方法进行调优,以提高模型的准确性和泛化能力。
第6章决策树方法6.1信息论的基本原理6.1.1信息论原理6.1.2互信息的计算1. 定义2. 出现概率3. 条件概率4. 子集概率5. 子集条件概率6. 信息熵7. 互信息6.2常用决策树算法6.2.1ID3算法1. 基本思想数据仓库与数据挖掘技术图6-1ID3决策树2. 主算法数据仓库与数据挖掘技术图6-2ID3算法流程3. 建树算法4. 实例计算6.2.2C4.5算法1. 信息增益比例的概念2. 连续属性值的处理3. 未知属性值的处理4. 规则的产生5. 案例计算数据仓库与数据挖掘技术图6-3天气结点及其分支图6-4C4.5算法形成的决策树数据仓库与数据挖掘技术6.3决策树剪枝6.3.1先剪枝6.3.2后剪枝6.4由决策树提取分类规则6.4.1获得简单规则图6-5决策树6.4.2精简规则属性数据仓库与数据挖掘技术6.5利用SQL Server 2005进行决策树挖掘6.5.1数据准备6.5.2挖掘模型设置6.5.3挖掘流程图6-6选择数据挖掘技术数据仓库与数据挖掘技术图6-7选择数据源视图图6-8指定表类型数据仓库与数据挖掘技术图6-9指定定型数据图6-10指定列的内容和数据类型图6-11完成数据挖掘结构的创建数据仓库与数据挖掘技术6.5.4挖掘结果分析图6-12挖掘得到的“次级”决策树图6-13挖掘得到的依赖关系图数据仓库与数据挖掘技术图6-14“余额”结点的依赖关系图图6-15与“余额”结点链接强度最强结点示意图数据仓库与数据挖掘技术6.5.5挖掘性能分析图6-16列映射图数据仓库与数据挖掘技术图6-17属性“次级”的预测提升图习题61. 概率分布[0:0625;0:0625;0:125;0:5]的熵是多少?2. 汽车保险例子。
假定训练数据库具有两个属性: 年龄和汽车的类型。
年龄——序数分类。
汽车类型——分类属性。
类——L: 低(风险),H: 高(风险)。
使用ID3算法做出它的决策树。
绪论单元测试1.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。
()A:错B:对答案:B第一章测试1.图挖掘技术在社会网络分析中扮演了重要的角色。
()A:错B:对答案:B2.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
( )A:对B:错答案:A3.DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。
()A:错B:对答案:B4.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( )A:建模描述B:预测建模C:寻找模式和规则D:根据内容检索答案:B5.以下哪些学科和数据挖掘有密切联系?( )A:矿产挖掘B:统计C:计算机组成原理D:人工智能答案:BD第二章测试1.下面哪个不属于数据的属性类型:( )A:区间B:标称C:序数答案:D2.在上题中,属于定量的属性类型是:( )A:序数B:标称C:相异D:区间答案:D3.只有非零值才重要的二元属性被称作:( )A:离散属性B:对称属性C:非对称的二元属性D:计数属性答案:C4.以下哪种方法不属于特征选择的标准方法: ( )A:包装B:抽样C:嵌入D:过滤答案:B5.离群点可以是合法的数据对象或者值。
()A:对B:错答案:A第三章测试1.下面哪些属于可视化高维数据技术 ( )A:矩阵B:散布图C:Chernoff脸D:平行坐标系E:星形坐标答案:ACDE2.下面哪种不属于数据预处理的方法? ( )A:变量代换B:估计遗漏值C:离散化D:聚集答案:B3.联机分析处理包括以下哪些基本分析功能? ( )A:分类C:切块D:聚类E:转轴答案:BCE4.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。
A:密度B:邻近度C:聚类技术D:统计方法答案:D5.离散属性总是具有有限个值。
()A:错B:对答案:A第四章测试1.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分. ( )A:对B:错答案:B2.数据仓库中间层OLAP服务器只能采用关系型OLAP ()A:对B:错答案:B3.下面列出的条目中,哪些是数据仓库的基本特征: ( )A:数据仓库是面向事务的B:数据仓库的数据是反映历史变化的C:数据仓库的数据是集成的D:数据仓库是面向主题的E:数据仓库的数据是相对稳定的答案:BDE4.以下各项均是针对数据仓库的不同说法,你认为正确的有()。
第六章数据挖掘导论1。
对于每个下列问题,提供一个关联规则的一个例子从市场购物篮域,满足下列条件。
同样,这些规则是主观地描述是否有趣。
(一)一个规则,具有较高的支持和高的信心。
答:牛奶−→面包。
这种明显的规则往往是无趣的。
(b)规则,有相当高的支持,但信心不足。
答:牛奶−→金枪鱼。
而出售金枪鱼和牛奶可能是高于阈值,并不是所有的事务,包含牛奶也包含金枪鱼。
这种低规则往往是无趣的。
(c)一个规则,低的支持和信心不足。
答:食用油−→洗衣粉。
如此低的信心规则往往是无趣的。
(d)规则,低支持和高的信心。
答:伏特加−→鱼子酱。
这样的规则往往是有趣的2。
考虑到数据集显示于表格6.1。
(一)计算支持项集{ e },{ b、d },{ b、d、e }通过治疗每个事务ID作为一个市场购物篮。
答:(b) Use the results in part (a) to compute the confidence for the association rules {b, d} −→{e} and {e} −→{b, d}. Is confidence a symmetric measure?c、重复部分(一)通过将每个客户ID作为一个市场购物篮。
每个项目应被视为一个二进制变量(1如果一个项目出现在至少有一个交易购买的顾客,和0否则。
)de 没有明显关系s1,s2,c1和c2所以c2有最低的置信度4、因为年代(A,B,C)≤年代(A,B)和max(s(一个),s(B),s(C))≥max(s(一个),s(B)), 因此ζ({ A、B })≥ζ({ A,B,C })。
(b)因为s(A,B,C)≤s(A,B)和最小(s(A,B),s(A,C),s(B,C))≤min(s(一个),s(B),s(C))≤min(s(一个),s(B))、η({ A,B,C })可以大于或小于η({ A、B })。
因此,这些措施是单调。
(一)的最大数量,可以提取关联规则从这个数据(包括规则,零支持)?答:有六项数据集。
本科生实验报告
实验课程数据挖掘
学院名称信息科学与技术学院
专业名称计算机科学与技术
学生姓名代星
学生学号201413030317
指导教师
实验地点
实验成绩
二〇一六年11月二〇一六年11月
第1章实验内容
使用心脏病患者数据集(CardiologyNumerical.arff)的前两百个实例进行反向传播学习训练,剩余的103个实例作为检验集实例进行模型检验。
改变网络结构和参数,使之达到更为理想的检验及效果。
第2章实验目的
对心脏病患者数据集中的数据用反向传播学习训练方法进行分类,查看分类的效果。
并通过改变网络的结构和参数,使分类效果更加理想。
第3章算法思想
BP算法是一种有监督式的学习算法,其主要思想是:输入学习样本,使用反向传播算法对网络的权值和偏差进行反复的调整训练,使输出的向量与期望向量尽可能地接近,当网络输出层的误差平方和小于指定的误差时训练完成,保存网络的权值和偏差。
具体步骤如下:
(1)初始化,随机给定各连接权[w],[v]及阀值θi,rt。
(2)由给定的输入输出模式对计算隐层、输出层各单元输出。
(3)选取下一个输入模式对返回第2步反复训练直到网络设输出误差达到要求结束训练。
第4章实验过程
4.1数据准备
从网上下载数据集,生成.csv文件,加载到Weka。
4.2 建立神经网络结构
1、在Weka Explorer中切换到Classify选项卡,单击Classify窗口的Choose 按钮,选择分类器MultilayerPerceptron,即基于BP学习算法的多层前馈神经网络。
2、在Choose按钮右边的文本框点击,打开分类器的属性设置对话框,将GUi 设置为true,使得在训练前,可查看包含神经网络体系结构的GUI界面,并可交互式地修改结构和设置其他参数,且可以在网络训练过程中暂停,进行结构和参数的反复修改。
在属性设置对话框中,设置hiddenLayers为“5,3”,表示有两个隐层,分别有5个和3个隐层节点;设置learning-Rate为0.5,trainingTime 为5000.
3、单击OK按钮,回到Weka Explorer的Classifier窗口,在测试集的选择上题目要求前两百个数据作为实例,最后103个作为检验集,设置Test Options 为Percentage split(取实例个数的百分比作为检验集),并设置为34%满足题目要求。
单击More options按钮,打开Classifier evaluation options对话框,选中Output复选框,以确保在输出中能够看到检验集的分类情况。
4、单击start按钮,开始神经网络的训练过程。
弹出神经网络的GUI界面,单击start按钮,执行训练,并选择accept训练结果。
5、修改参数,重复上述步骤,重新实验,并对比实验结果。
第5章实验结果
实验一:全部作为实例
此实验实例个数为303,分类正确率只有61.3362%,较低。
实验二:前200作为实例,剩余103作为检验集
此实验实例个数为200个,分类正确率为98.5273%,比之前经所有数据全部作为
实例的正确率大大提高,并且按照题意,将此实验作为之后实验的对照。
实验三:只改变隐层为(7,3),其他不变
此实验实例个数为200个,正确率为98.5593%,与上图的隐层的节点数为(5,3)的分类正确率98.5273%相比分类正确率稍稍升高,由此可知节点数要根据需要适当选择。
实验四:只改变learningRate为0.5,其他不变
实例个数为200个,分类正确率为98.5273%,与实验二的学习率为0.3分类正确率相比正确率相同,所以猜想学习率对实验结果影响较小。
3、只改变trainingTime为500,其他不变:
实例个数为200个,分类正确率为98.5273%,与实验二的周期数为5000分类正
确率相同。
第6章结果分析
通过改变参数进行对比试验结果表明,将所有数据的部分作为实例,其他作为检验数据集的实验结果较为准确。
在此实验中改变其它条件对于准确率的影响都不是很大,但是可能是由于输入数据的特殊性造成的,之后的实验中还要更进一步验证。
第7章心得体会
从这次的作业中更加深入的了解神经网络算法以及Weka软件的使用。
实验中经过多次不同实验的对比也了解了不同参数对于实验的影响。