大数据挖掘作业

格式：doc
大小：73.03 KB
文档页数：6

下载文档原格式

/ 6

《第12课走近大数据》作业设计方案-初中信息技术浙教版20七年级上册自编模拟

《走近大数据》作业设计方案（第一课时）一、作业目标本次作业旨在帮助学生了解大数据的基本概念和特点，熟悉大数据技术的应用领域，并掌握一些基本的数据处理和分析方法。

通过实践操作，培养学生的信息技术素养和解决问题的能力。

二、作业内容1. 阅读资料：学生需要阅读关于大数据的介绍性资料，了解大数据的基本概念、特点、应用领域等。

阅读资料可以通过在线阅读或纸质阅读的方式完成。

2. 小组讨论：学生以小组为单位，围绕大数据的应用领域展开讨论，每个小组选择一个具体的大数据应用案例进行分析。

讨论过程中，学生需要用PPT记录讨论过程和结果，PPT要求内容清晰、图文并茂。

3. 数据采集和处理：学生需要从网上收集一些数据，并使用Excel等工具进行数据采集、清洗和处理。

过程中需要学生了解数据的来源、格式和数据处理的方法。

4. 数据分析和可视化：学生需要对处理后的数据进行初步的分析，并使用图表等形式进行可视化展示。

分析过程中需要学生了解一些基本的数据分析方法，如描述性统计、相关性分析等。

三、作业要求1. 作业应在规定时间内完成，具体时间请参照课程安排；2. 作业应独立完成，如有小组合作，需明确分工并确保每位成员都有参与；3. 提交作业时需附上对所使用工具的介绍和使用方法，以便教师了解学生的操作过程和技能水平；4. 作业应按照要求进行规范整理和保存，以便教师查阅。

四、作业评价1. 评价标准：作业质量、完成时间、工具使用方法等；2. 评价方式：教师评价与学生互评相结合；3. 评价结果反馈：对于作业中存在的问题和不足，教师将在课程中给予指导和完善，对于优秀的作业，将给予表扬和鼓励。

五、作业反馈1. 学生应认真对待作业，积极寻求帮助和指导，对于作业中遇到的问题应及时解决；2. 教师将根据作业完成情况、学生反馈和评价结果，对课程内容和教学方法进行不断改进和完善，以提高教学质量；3. 针对学生在作业中反映较多的问题和难点，教师将在课程中加强讲解和示范，以帮助学生更好地理解和掌握相关知识。

东北财经大学《大数据——概念、方法与应用》在线作业1-0012

东财《大数据——概念、方法与应用》在线作业1-0012
( )可以帮助我们捕捉现在和预测未来。

A:因果分析
B:统计分析
C:随机抽样
D:相关关系分析
参考选项：D
对于大数据,其最大的风险就是( )。

A:隐私
B:非结构化
C:数据量大
D:成本
参考选项：A
建立在相关关系分析法基础上的预测是大数据的( )。

A:核心
B:前提
C:基础
D:条件
参考选项：A
相比依赖于小数据和精确性的时代,大数据因为更强调数据的( ),帮助我们进一步接近事实的真相。

A:完整性
B:完整性和混杂性
C:安全性
D:混杂性
参考选项：B
常用的挖掘算法都以( )为主。

A:单线程
B:多线程
C:以上都不是
D:死锁
参考选项：A
可视化是给人看的,( )是给机器看的。

A:数据挖掘
B:数据质量和管理
C:语音引擎
D:预测性分析
1。

东北财经大学《大数据——概念、方法与应用》在线作业2-0017

东财《大数据——概念、方法与应用》在线作业2-0017
大数据的核心是( )。

A:预测
B:匿名化
C:规模化
D:告知与许可
参考选项：A
采样分析的精确性随着采样随机性的增加而( ),但与样本数量的增加关系不大。

A:提高
B:降低
C:不变
D:无关
参考选项：A
( )一些基金公司开始借助社交媒体大数据,分析市场情绪变动。

A:美国
B:法国
C:英国
D:中国
参考选项：A
在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于( )为其行为承担责任。

A:数据分析者
B:数据提供者
C:数据使用者
D:个人许可
参考选项：C
对于大数据,其最大的风险就是( )。

A:隐私
B:非结构化
C:数据量大
D:成本
参考选项：A
小数据时代,( )成为现代社会、现代测量领域的主心骨。

A:统计分析
B:主观采样
C:随机采样
1。

东北财经大学《大数据——概念、方法与应用》在线作业3-0020

东财《大数据——概念、方法与应用》在线作业3-0020
两个或多个变量的( )之间存在某种规律性,就称为关联。

A:范围
B:特点
C:取值
D:字段
参考选项：C
银行建立第三方数据中介,专门挖掘金融数据的核心是对客户的( )进行分析。

A:选择数据
B:偏好数据
C:交易数据
D:消费数据
参考选项：C
( )可以帮助我们捕捉现在和预测未来。

A:因果分析
B:统计分析
C:随机抽样
D:相关关系分析
参考选项：D
对于大数据,其最大的风险就是( )。

A:隐私
B:非结构化
C:数据量大
D:成本
参考选项：A
( )央行已经开始运用大数据对房地产市场和劳动力市场趋势作出快速判断。

A:中国
B:法国
C:美国
D:英国
参考选项：D
促进隐私保护的一种创新途径是( ):故意将数据模糊处理,促使对大数据库
的查询不能显示精确的结果。

A:个人隐私保护
B:差别隐私
C:匿名化
D:信息模糊化
1。

东北财经大学《大数据——概念、方法与应用》在线作业2-0002

东财《大数据——概念、方法与应用》在线作业2-0002
根据国家数据公司(IDC)统计,2010年人类已经进入( )时代。

A:ZB
B:GB
C:MB
D:TB
参考选项：A
两个或多个变量的( )之间存在某种规律性,就称为关联。

A:范围
B:特点
C:取值
D:字段
参考选项：C
下列属于半结构化数据的是( )。

A:视频数据
B:网络日志
C:文本数据
D:音频数据
参考选项：B
关于数据创新,下列说法正确的是( )。

A:数据只有开放价值才能得到真正释放
B:由于数据的再利用，数据应该永久保存下去
C:多个数据集的总和价值等于单个数据集价值相加
D:相同数据多次用于相同或类似用途，其有效性会降低
参考选项：A
大数据的样本空间是数据的( )。

A:抽样
B:关键部分
C:总体
D:部分
参考选项：C
数据挖掘的分类方法是找出数据库中一组数据对象的( )并按照分类模式将其划分为不同的类。

A:属性
B:值
C:不同点
D:共同点
1。

东北财经大学《大数据——概念、方法与应用》在线作业2-0016

东财《大数据——概念、方法与应用》在线作业2-0016
回归分析方法反映的是将事务数据库中属性值在( )的特征。

A:以上都不是
B:空间上
C:地点上
D:时间上
参考选项：D
采样分析的精确性随着采样随机性的增加而( ),但与样本数量的增加关系不大。

A:提高
B:降低
C:不变
D:无关
参考选项：A
大数据公司的多样性表明了( )。

A:数据技术的发展
B:数据思维的创新
C:数据作用的体现
D:数据价值的转移
参考选项：D
只要得到了合理的利用,而不单纯只是为了“数据”而“数据”,大数据就会变成( )。

A:强大的威胁
B:分析工具
C:预测工具
D:强大的武器
参考选项：D
本质上,世界是由( )构成的。

A:数据
B:信息
C:数字
D:知识
参考选项：B
在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于( )为其行为承担责任。

A:数据分析者
B:数据提供者
1。

东北财经大学《大数据——概念、方法与应用》在线作业2-0006

东财《大数据——概念、方法与应用》在线作业2-0006
对于大数据,其最大的风险就是( )。

A:隐私
B:非结构化
C:数据量大
D:成本
参考选项：A
采样分析的精确性随着采样随机性的增加而( ),但与样本数量的增加关系不大。

A:提高
B:降低
C:不变
D:无关
参考选项：A
( )将在大数据价值链中获益最大。

A:拥有技术的人
B:拥有大数据库的人
C:拥有大数据思维的人
D:拥有大数据的人
参考选项：C
数据存储空间的收费方式是( )。

A:易于使用的API
B:按数据安全性要求
C:按存储数据的种类
D:按次收费
参考选项：A
当前,( )成为登录互联网的主要手段。

A:固定电话
B:手机
C:电视
D:电脑
参考选项：B
本质上,世界是由( )构成的。

A:数据
B:信息
C:数字
D:知识
1。

东北财经大学《大数据——概念、方法与应用》在线作业3-0023

东财《大数据——概念、方法与应用》在线作业3-0023
以下哪种说法是错误的?( )
A:预测与惩罚，不是因为所做，而是因为将做
B:随着数据量和种类的增多，大数据促进了数据内容的交叉检验，匿名化的数据不会威胁到任何人的隐私
C:采集个人数据的工具就隐藏在我们日常生活所必备的工具当中，比如网页和智能手机应用程序
D:将罪犯的定罪权放在数据手中，借以表达对数据和分析结果的崇尚，这实际上是一种滥用
参考选项：B
在企业危机管理及其预警中,管理者更感兴趣的是( )。

A:依赖规则
B:关联规则
C:相关规则
D:意外规则
参考选项：D
( )是一些管理方面的最佳实践。

A:数据质量和管理
B:数据挖掘
C:可视化分析
D:预测性分析
参考选项：A
大数据时代,我们是要让数据自己“发声”,没必要知道为什么,只需要知道( )。

A:是什么
B:关联物
C:预测的关键
D:原因
参考选项：A
采样分析的精确性随着采样随机性的增加而( ),但与样本数量的增加关系不大。

A:提高
B:降低
C:不变
D:无关
参考选项：A
从商业层面上看,数据挖掘是一类( )数据分析方法。

1。

数据挖掘结课论文_袁博

数据挖掘课程论文题目：数据挖掘中神经网络方法综述学号：专业：工业工程名：目录一、引言 (3)(一)数据挖掘的定义 (3)(二)神经网络简述 (3)二、神经网络技术基础理论 (3)(一)神经元节点模型 (3)(二)神经网络的拓扑结构 (4)(三)神经网络学习算法 (4)(四)典型神经网络模型 (5)三、基于神经网络的数据挖掘过程 (6)(一)数据准备 (6)(二)规则提取 (7)(三)规则评估 (8)四、总结 (8)一、引言(一)数据挖掘的定义关于数据挖掘的定义不少，其中被广泛接受的定义是：数据挖掘是一个从不完整的、不明确的、大量的并且包含噪声，具有很大随机性的实际应用数据中，提取出隐含其中、事先未被人们获知、却潜在实用的知识或者模式的过程。

该定义包含了一下几个含义： (1)数据源必须为大量的、真正的并且包含噪声的；(2) 挖掘到的新知识必须为用户需求的、感兴趣的； (3)挖掘到的知识为易理解的、可接受的、有效并且可运用的； (4)挖掘出的知识并不要求合用于所有领域，可以仅支持某个特定的应用发现问题。

[1]这个定义准确的叙述了数据挖掘的作用，即对海量、杂乱无章的数据进行处理和分析，并发现隐藏在这些数据中的实用的知识，为决策提供支持。

(二)神经网络简述神经网络是摹拟人类的形象直觉思维，在生物神经网络研究的基础上，根据生物神经元和神经网络的特点，通过简化、归纳，提炼总结出来的一类并行处理网络，利用其非线性映射的思想和并行处理的方法，用神经网络本身的结构来表达输入和输出的关联知识。

[2]起初，神经网络在数据挖掘中的应用并未被看好，其主要原因是神经网络具有结构复杂、可解释性差、训练时间长等缺陷。

但其对噪声数据的高承受能力和低错误率的优点，以及各种网络训练算法的陆续提出与优化，特别是各种网络剪枝算法和规则提取算法的不断提出与完善，使得神经网络在数据挖掘中的应用越来越为泛博使用者所青睐。

二、神经网络技术基础理论(一) 神经元节点模型生物神经元，也成神经细胞，是构成神经系统的基本单元。

《大数据导论》在线作业

《大数据导论》在线作业一、单选题共15题，30分1基础设施即服务的英文简称是A IaaSB PaaSC SaaS我的答案：A2用于描述相等时间间隔下连续数据随时间变化趋势的是()A折线图B散点图C条形图D饼图我的答案：A3下列不属于商业大数据类型的是A传统企业数据B机器和传感器数据C社交数据D电子商务数据我的答案：B4以下哪项不是数据可视化工具的特性()A实时性B简单操作C更丰富的展现D仅需一种数据支持方式即可我的答案：D5MapReduce中的Map和Reduce函数使用()进行输入输出A key/value对B随机数值C其他计算结果我的答案：A6以下不是数据仓库基本特征的是()A数据仓库是面向主题的B数据仓库是面向事务的C数据仓库的数据是相对稳定的D数据仓库的数据是反映历史变化的我的答案：B7IaaS是()的简称A软件即服务B平台即服务C基础设施即服务D硬件即服务我的答案：C8大数据的最显著特征是() 。

A数据规模大B数据类型多样C数据处理速度快D数据价值密度高我的答案：A9大数据的特点不包含A数据体量大B价值密度高C处理速度快D数据不统一我的答案：D10数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。

A运营式系统阶段B用户原创内容阶段C感知式系统阶段我的答案：B11数据仓库是随着时间变化的,下列不正确的是()A数据仓库随时间变化不断增加新内容B捕捉到的新数据会覆盖原来的快照C数据仓库随事件变化不断删去旧的数据内容D数据仓库中包含大量的综合数据，这些综合数据会随时间的变化不断进行重新综合我的答案：C12下列哪个工具常用来开发移动友好地交互地图()A LeafletB Visual.lyC BPizza Pie ChartsD Gephi我的答案：A13购物篮问题是的典型案例A数据变换B关联规则挖掘C数据分类我的答案：B14哪个选项不属于大数据4V特点?A VolumeB ValidC VarietyD Value我的答案：B15GFS中的文件切分成()的块进行存储A32MBB64MBC128MBD1G我的答案：B二、多选题共15题，30分1大数据采集主要包括()四种。

《挖掘作业》课件

按照挖掘深度分类：浅层挖掘、中层挖掘、深层挖掘
按照挖掘目的分类：采矿挖掘、工程挖掘、考古挖掘
添加标题
添加标题
添加标题
添加标题
按照挖掘方式分类：人工挖掘、机械挖掘、爆破挖掘
按照挖掘环境分类：陆地挖掘、水下挖掘、空中挖掘
建筑施工：挖掘地基、开挖沟槽等
采矿：露天矿、地下矿的开采
水利工程：河道疏浚、水库建设等
挖掘过程中，需遵守相关环保法律法规，如《环境保护法》等
采用低排放、低噪音的挖掘机
使用环保型润滑油和冷却液
采用封闭式挖掘作业，减少扬尘
采用环保型挖掘机，减少废气排放
采用环保型挖掘机，减少噪音污染
采用环保型挖掘机，减少废油排放
提高环保意识：了解挖掘作业对环境的影响，增强环保意识
制定环保措施：制定详细的环保措施，确保挖掘作业符合环保要求
规划挖掘方案：制定详细的挖掘方案，包括挖掘深度、宽度、长度等
准备挖掘设备：选择合适的挖掘设备，如挖掘机、装载机等
开始挖掘：按照挖掘方案进行挖掘，注意安全操作
清理现场：挖掘完成后，清理现场，确保安全
验收：对挖掘成果进行验收，确保符合工程要求
清理现场：将挖掘出的土石方、机械设备等清理干净检查设备：检查挖掘设备的运行情况，确保安全可靠修复地面：对挖掘后的地面进行修复，确保地面平整、稳固安全检查：对现场进行安全检查，确保无安全隐患
培训员工：对员工进行环保培训，提高员工的环保意识和技能
加强监管：加强环保监管，确保挖掘作业符合环保要求
环保化：采用环保型挖掘设备和技术，减少对环境的影响
智能化：通过人工智能、大数据等技术实现挖掘设备的智能化操作和维护

海致大数据建模第一次作业中级

海致大数据建模第一次作业中级一、作业要求与目标在海致大数据建模课程中，第一次作业的目标是帮助学员掌握大数据分析的基本流程和方法。

本作业要求学员对给定的数据进行处理和分析，通过数据建模实现对数据特征的挖掘，从而达到对现实问题进行预测或解释的目的。

二、数据准备与处理1.收集数据：学员需要从给定的数据源中选取合适的数据集。

数据集应具有现实意义，以便能更好地应用于实际问题。

2.数据预处理：对收集到的数据进行清洗，包括去除重复记录、缺失值处理、数据类型转换等。

此外，还需对数据进行归一化或标准化处理，以消除数据量纲对分析结果的影响。

3.数据拆分：将数据集分为训练集、验证集和测试集，以便进行模型训练、参数调整和模型性能评估。

三、数据可视化与探索1.描述性统计分析：通过绘制柱状图、箱线图、散点图等，对数据进行初步可视化分析，了解数据的分布、相关性等特点。

2.数据探索：利用数据探索方法，如聚类、关联规则挖掘等，发现数据中的潜在规律和关联关系。

四、数据建模与优化1.选择模型：根据实际问题和数据特点，选取合适的建模方法，如线性回归、逻辑回归、决策树、支持向量机等。

2.模型训练：利用训练集对所选模型进行训练，通过调整模型参数提高模型性能。

3.模型优化：根据验证集的性能指标，对模型进行优化，如调整权重、学习率等。

五、结果评估与分析1.模型评估：利用测试集对模型进行评估，计算各项性能指标，如准确率、召回率、R方等。

2.结果分析：对建模结果进行解读，分析模型在实际问题中的应用价值，并提出改进措施。

六、总结与展望本次作业旨在帮助学员掌握大数据建模的基本方法和技巧。

通过完成作业，学员应能独立完成数据处理、可视化、建模和评估等环节，为解决现实问题提供数据支持。

东北财经大学《大数据——概念、方法与应用》在线作业3-0014

东财《大数据——概念、方法与应用》在线作业3-0014
以下哪种说法是错误的?( )
A:预测与惩罚，不是因为所做，而是因为将做
B:随着数据量和种类的增多，大数据促进了数据内容的交叉检验，匿名化的数据不会威胁到任何人的隐私
C:采集个人数据的工具就隐藏在我们日常生活所必备的工具当中，比如网页和智能手机应用程序
D:将罪犯的定罪权放在数据手中，借以表达对数据和分析结果的崇尚，这实际上是一种滥用
参考选项：B
只要得到了合理的利用,而不单纯只是为了“数据”而“数据”,大数据就会变成( )。

A:强大的威胁
B:分析工具
C:预测工具
D:强大的武器
参考选项：D
( )可以帮助我们捕捉现在和预测未来。

A:因果分析
B:统计分析
C:随机抽样
D:相关关系分析
参考选项：D
对大数据使用进行正规评测及正确引导,可以为数据使用者带来什么切实的好处( )。

A:所有项目，管理者必须设立规章，规定数据使用者应如何评估风险、如何规避或减轻潜在伤害
B:数据使用者的责任不需要强制力规范就能确保履行到位
C:数据使用者不需要为敷衍了事的评测和不达标准的保护措施承担法律责任D:他们无须再取得个人的明确同意，就可以对个人数据进行二次利用
参考选项：D
下列说法正确的是( )。

A:有价值的数据是附属于企业经营核心业务的一部分数据
B:数据挖掘它的主要价值后就没有必要再进行分析了
C:在大数据时代，收集、存储和分析数据非常简单
D:所有数据都是有价值的
参考选项：D
1。

东北财经大学《大数据——概念、方法与应用》在线作业1-0015

东财《大数据——概念、方法与应用》在线作业1-0015
回归分析方法反映的是将事务数据库中属性值在( )的特征。

A:以上都不是
B:空间上
C:地点上
D:时间上
参考选项：D
K-Means算法不适合处理( )属性。

A:离散型
B:随机型
C:稳定型
D:连续型
参考选项：A
( )将在大数据价值链中获益最大。

A:拥有技术的人
B:拥有大数据库的人
C:拥有大数据思维的人
D:拥有大数据的人
参考选项：C
在大数据时代,下列说法正确的是( )。

A:收集数据很简单
B:数据是最核心的部分
C:对数据的分析技术和技能是最重要的
D:数据非常重要，一定要很好的保护起来，防止泄露
参考选项：B
大数据公司的多样性表明了( )。

A:强大的威胁
B:分析工具
C:预测工具
D:强大的武器
1。

东北财经大学《大数据——概念、方法与应用》在线作业3-0027

东财《大数据——概念、方法与应用》在线作业3-0027
大数据不是要教机器像人一样思考。

相反,它是( )。

A:预测与惩罚
B:把数学算法运用到海量的数据上来预测事情发生的可能性
C:被视为人工智能的一部分
D:被视为一种机器学习
参考选项：B
( )央行已经开始运用大数据对房地产市场和劳动力市场趋势作出快速判断。

A:中国
B:法国
C:美国
D:英国
参考选项：D
大数据的简单算法与小数据的复杂算法相比( )。

A:相当
B:更有效
C:不具备可比性
D:无效
参考选项：B
( )是一些管理方面的最佳实践。

A:数据质量和管理
B:数据挖掘
C:可视化分析
D:预测性分析
参考选项：A
相关关系强是指当一个数据值增加时,另一个数据值有可能也随着( )。

A:减少
B:不变
C:无法确定
D:增加
参考选项：D
大数据的样本空间是数据的( )。

A:抽样
B:关键部分
C:总体
D:部分
参考选项：C
1。

南开24秋学期《大数据导论》作业参考三

24秋学期《大数据导论》作业参考1.大数据的特点不包含选项A：数据体量大选项B：价值密度高选项C：处理速度快选项D：数据不统一参考答案：D2.下列不属于Google云计算平台技术架构的是()选项A：并行数据处理MapReduce选项B：分布式锁Chubby选项C：结构化数据表BigTable选项D：弹性云计算EC2参考答案：D3.以下哪项不是数据可视化工具的特性()选项A：实时性选项B：简单操作选项C：更丰富的展现选项D：仅需一种数据支持方式即可参考答案：D4.以下不是数据仓库基本特征的是()选项A：数据仓库是面向主题的选项B：数据仓库是面向事务的选项C：数据仓库的数据是相对稳定的选项D：数据仓库的数据是反映历史变化的参考答案：B5.下列哪个工具常用来开发移动友好地交互地图()选项A：Leaflet选项B：Visual.ly选项C：BPizza Pie Charts选项D：Gephi参考答案：A6.()是Microsoft Office的核心组件选项A：SQL选项B：WORD选项C：PPT选项D：EXCEL参考答案：D7.PaaS是()的简称选项A：软件即服务选项B：平台即服务选项C：基础设施即服务选项D：硬件即服务参考答案：B8.DAS代表的意思是()选项A：两个异步存储选项B：数据归档软件选项C：连接一个可选的存储选项D：直连存储参考答案：D9.大数据的最显著特征是() 。

选项A：数据规模大选项B：数据类型多样选项C：数据处理速度快选项D：数据价值密度高参考答案：A。

学生大数据分析实验报告(3篇)

第1篇一、实验背景随着信息技术的飞速发展，大数据已经成为当今社会的一个重要特征。

在教育领域，学生数据作为教育信息化的重要组成部分，蕴含着丰富的教育资源。

通过对学生大数据的分析，可以揭示学生学习的规律，为教育决策提供科学依据，提高教育教学质量。

本实验旨在通过大数据分析方法，探究学生学习行为和成绩之间的关系，为教育工作者提供有益的参考。

二、实验目的1. 掌握大数据分析的基本方法，包括数据采集、处理、分析和可视化等。

2. 运用大数据分析技术，探究学生学习行为与成绩之间的关系。

3. 评估大数据分析在教育教学中的应用价值，为教育决策提供支持。

三、实验内容1. 数据采集实验数据来源于某中学2019-2020学年的学生成绩数据库，包括学生基本信息、课程成绩、课堂表现、作业完成情况等数据。

数据格式为CSV文件，共包含1000名学生和20门课程的数据。

2. 数据预处理（1）数据清洗：检查数据是否存在缺失值、异常值等，并进行相应的处理。

（2）数据转换：将课程成绩转换为百分制，便于后续分析。

（3）特征工程：根据实验目的，选取与学习行为和成绩相关的特征，如课堂表现、作业完成情况、考试成绩等。

3. 数据分析（1）描述性分析：对学生的基本情况进行统计分析，如平均成绩、最高成绩、最低成绩等。

（2）相关性分析：探究学习行为与成绩之间的相关性，如课堂表现与考试成绩之间的相关系数。

（3）聚类分析：将学生根据学习行为和成绩进行聚类，分析不同类别学生的特点。

（4）回归分析：建立学生成绩与学习行为之间的回归模型，预测学生成绩。

4. 数据可视化（1）绘制学生成绩分布图，展示学生成绩的整体情况。

（2）绘制学习行为与成绩之间的散点图，直观地展示两者之间的关系。

（3）绘制聚类分析结果的热力图，展示不同类别学生的特点。

四、实验结果与分析1. 描述性分析通过对学生成绩的描述性分析，发现：（1）平均成绩为75.2分，最高成绩为98分，最低成绩为30分。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实用标准文案
数据挖掘的第二次作业

1.下表由雇员数据库的训练数据组成，数据已泛化。例如，年龄“31…35”表示31到35的之间。
对于给定的行，count表示department, status, age和salary在该行上具有给定值的元组数。
status是类标号属性。

department status age salary count
sales senior 31...35 46K...50K 30
sales junior 26...30 26K...30K 40
sales junior 31...35 31K...35K 40
systems junior 21...25 46K...50K 20
systems senior 31...35 66K...70K 5
systems junior 26...30 46K...50K 3
systems senior 41...45 66K...70K 3
marketing senior 36...40 46K...50K 10
marketing junior 31...35 41K...45K 4
secretary senior 46...50 36K...40K 4
secretary junior 26...30 26K...30K 6

1)如何修改基本决策树算法，以便考虑每个广义数据元组（即每个行）的count。

Status 分为2个部分： Department分为4个部分：
Senior 共计52 Sales 共计110
Junior 共计113 Systems 共计 31
Marketing 共计14
Secretary 共计10

Age分为6个部分： Salary分为6各部分：
21…25 共计20 26K…30K 共计46
26…30 共计49 31K…35K 共计40
31…35 共计79 36K…40K 共计4
36…40 共计10 41K…45K 共计4
41…45 共计3 46K…50K 共计63
46…50 共计4 66K…70K 共计8
位

精彩文档．
实用标准文案

位
位

位
位
，所以departmentagesalary由以上的计算知按信息增益从大到小对属性排列依次为：、、作为
第一层，之后剩下的数据如下：定salary
department status age salary count
sales senior 31...35 46K...50K 30
systems junior 21...25 46K...50K 20
systems junior 26...30 46K...50K 3
marketing senior 36...40 46K...50K 10

由这个表可知department和age的信息增益将都为0。所以第二层可以为age也可以为
department。
2)构造给定数据的决策树。
由上一小问的计算所构造的决策树如下：

精彩文档．
实用标准文案

Salary
26K:30K 66K:70K

31K:35K Junior
Senior
36K:40K 41K:45K
46K:50K
Junior Junior
Senior

Age

21:25
26:30
36:40
31:35
Junior

Senior
Junior Senior

，systems”salary3)给定一个数据元组，它在属性department, age和上的值分别为“ 的朴素
贝叶斯分类结果是什么？46...50K”和“”。该元组status“26...30
P(status=senior)=52/165=0.3152
P(status=junior)=113/65=0.6848
P(department=systems|status=senior)=8/52=0.1538
P(department=systems|status=junior)=23/113=0.2035
30|status=senior)=1/52=0.0192 P(age=26…30|status=junior)=49/113=0.4336 P(age=26…
50K|status=senior)=40/52=0.7692 …P(salary=46K50K|status=junior)=23/113=0.2035 …
P(salary=46K 使用上面的概率，得到：…
P(X|status=senior)=P(department=systems|status=senior)*P(age=2650K|status=senior)=0
.0023
30|status=senior)* P(salary=46K…
精彩文档．

实用标准文案

P(X|status=junior)=P(department=systems|status=junior)*P(age=26…50K|status=
junior)=0.0180 30|status=junior)* P(salary=46K…P(X|status=senior)*
P(status=senior)= 7.2496e-004
P(X|status=junior)* P(status=junior)=0.0123
status=junior
的类为X因此，对于元组X，朴素贝叶斯分类预测元组运用决策树或者贝叶斯算法，对鸢尾花
数据集进行分类，显示分类结果。2.
工具或者其他方法）（可以采用Weka

上运用决策树算法对鸢尾花数据集进行分类，分类结果如下图所示：在weka

上运用贝叶斯算法对鸢尾花数据进行分类，结果的具体情况如下：在weka
精彩文档．

实用标准文案

精彩文档．

大数据挖掘作业

合集下载

《第12课走近大数据》作业设计方案-初中信息技术浙教版20七年级上册自编模拟

东北财经大学《大数据——概念、方法与应用》在线作业1-0012

东北财经大学《大数据——概念、方法与应用》在线作业2-0017

东北财经大学《大数据——概念、方法与应用》在线作业3-0020

东北财经大学《大数据——概念、方法与应用》在线作业2-0002

东北财经大学《大数据——概念、方法与应用》在线作业2-0016

东北财经大学《大数据——概念、方法与应用》在线作业2-0006

东北财经大学《大数据——概念、方法与应用》在线作业3-0023

数据挖掘结课论文_袁博

《大数据导论》在线作业

《挖掘作业》课件

海致大数据建模第一次作业中级

东北财经大学《大数据——概念、方法与应用》在线作业3-0014

东北财经大学《大数据——概念、方法与应用》在线作业1-0015

东北财经大学《大数据——概念、方法与应用》在线作业3-0027

南开24秋学期《大数据导论》作业参考三

学生大数据分析实验报告(3篇)

文档推荐

最新文档

大数据挖掘作业

合集下载

《第12课 走近大数据》作业设计方案-初中信息技术浙教版20七年级上册自编模拟

东北财经大学《大数据——概念、方法与应用》在线作业1-0012

东北财经大学《大数据——概念、方法与应用》在线作业2-0017

东北财经大学《大数据——概念、方法与应用》在线作业3-0020

东北财经大学《大数据——概念、方法与应用》在线作业2-0002

东北财经大学《大数据——概念、方法与应用》在线作业2-0016

东北财经大学《大数据——概念、方法与应用》在线作业2-0006

东北财经大学《大数据——概念、方法与应用》在线作业3-0023

数据挖掘结课论文_袁博

《大数据导论》在线作业

《挖掘作业》课件

海致大数据建模第一次作业中级

东北财经大学《大数据——概念、方法与应用》在线作业3-0014

东北财经大学《大数据——概念、方法与应用》在线作业1-0015

东北财经大学《大数据——概念、方法与应用》在线作业3-0027

南开24秋学期《大数据导论》作业参考三

学生大数据分析实验报告(3篇)

文档推荐

最新文档

《第12课走近大数据》作业设计方案-初中信息技术浙教版20七年级上册自编模拟