教材及参考书目录-大数据工具应用-微课视频版-钟雪灵-清华大学出版社
- 格式:docx
- 大小:16.81 KB
- 文档页数:1
广东金融学院实验报告课程名称:大数据工具应用6. 使用EM聚类器对数据集进行聚类,选择2个簇,其他参数保持默认值,忽略play属性。
四、实验结果(对必要的实验步骤进行截图,并加以文字描述)1、完成文件到arff文件的转换。
(1)打开“”-点击“文件”-点击“另存为”-保存类型选中“CSV(逗号分隔)”-点击“保存”。
(2)打开weka-点击“Tools”-点击“ArffViewer”-点击“File-open”–文件类型选中“所有文件”-选中“”-“打开”点击“file”-点击“save as”-文件类型选中“Arff data files ”-“保存”2、对数据集中的数值型属性“温度(temperature)”离散成低温(cool),中温(mild),高温(hot)三个等级。
(1)打开weka-点击“Explorer”-点击“Open file”-选中“点击“打开”点击“Choose”-选中“Discretize”-点击空白处-在“attributelndices”中输入2,在“bins”中输入3,其他保持不变-点击“OK”,再点击“Apply”为避开可读性较差的问题,先另存为,点击“Save”。
(2)打开“word”,打开“这个文件选中“'\'(-inf-71]\''”,点击“替换”选中“'\'(71-78]\''”,替换成“mild”选中“'\'(78-inf)\''”,替换成“hot”点击“保存”。
(3)用weka打开查看3、生成数据集的决策树。
(1)打开weka-点击“Explorer”-点击“Open file”-选中“点击“打开”,切换到“Classify”-单击“Choose”-打开“trees”条目-点击“J48”,选择“Use traning set”,单击“Strart”。
(2)在结果列表中右击“J48”条目,选择可视化菜单项“Visualize tree”4. 对数据集使用M5P分类器进行线性回归。
《大数据》课程教学大纲课程编号:04224课程名称:大数据英文名称:Big Data课程类型:学科选修课课程要求:选修学时/学分:32/2 (讲课学时:28上机学时:4)适用专业:智能科学与技术一、课程性质与任务大数据分析是智能科学与技术、计算机科学技术等专业的一门学科选修课,该课程涉及各类常用的挖掘与分析方法,提供了从数据准备到统计分析、关联规则建立及集成学习等整个数据分析过程的内容。
本课程全面地介绍了大数据处理相关的基本概念和原理,着重讲述了介绍数据挖掘、分析相关的理论、方法及实现工具。
本课程在教学内容方面着重基本知识、基本理论和基本设计方法的讲解;在培养实践能力方面着重数据分析的基本训练,为学生今后从事大数据的研究与预测打下坚实的基础。
(本课程可支撑毕业要求中的3.3, 7.2, 10.1, 12.2)二、课程与其他课程的联系本课程的先修课程为人工智能基础、机器学习等专业基础课程。
通过对人工智能基础的学习能够掌握智能的算法和搜索技术,通过对机器学习能够了解数据的分类、过滤等方法。
这些先修课程为本课程的讲授打下了基础。
本课程的后续课程包括智能机器人、模式识别等。
通过本课程可为后续课程提供理论与方法实践基础。
三、课程教学目标1.考虑社会、健康、安全、法律、文化以及环境等因素,设计一个能实现预期功能的硬件或软件系统,进行仿真研究或开发出系统原型或实物(支撑毕业要求中的3.3);2.能够评价智能系统工程实践对环境、社会可持续发展的影响(支撑毕业要求中的7.2);3.将大数据技术作为重点,以应用为目的,全面介绍大数据的数据挖掘与预测方法。
使学生既能对大数据处理技术有一个全景的把握,又能深入理解和使用大数据进行决策。
4.有不断学习和适应智能科学与技术发展的能力(支撑毕业要求中的12.2)5.了解大数据挖掘与预测分析学科的前沿和最新发展动向,具有跟踪学科发展前沿的意识和文献检索基本技能。
(支撑毕业要求中的10.1)四、教学内容、基本要求与学时分配五、其他教学环节(课外教学环节、要求、目标)大作业:1.对数据挖掘的认识。
《Hadoop大数据技术原理与应用》课程教学大纲课程编号:3250578学分:4学分学时:72学时(其中:讲课学时36 上机学时:36)先修课程:《Linux基础》、《关系数据库基础》、《程序设计基础》、《Java面向对象编程》后续课程:Spark,《Python编程基础》、《Python数据分析与应用》适用专业:大数据应用技术一、课程的性质与目标《大数据应用开发》本课程是软件技术专业核心课程,大数据技术入门课程。
通过学习课程使得学生掌握大数据分析的主要思想和基本步骤,并通过编程练习和典型应用实例加深了解;同时对Hadoop平台应用与开发的一般理论有所了解,如分布式数据收集、分布式数据存储、分布式数据计算、分布式数据展示。
开设本学科的目的是让学生掌握如何使用大数据分析技术解决特定业务领域的问题。
完成本课程学习后能够熟练的应用大数据技术解决企业中的实际生产问题。
二、教学条件要求操作系统:Center OSHadoop版本:Hadoop2.7.4开发工具:Eclipse三、课程的主要内容及基本要求第1章初识Hadoop第2章构建Hadoop集群第3章 HDFS分布式文件系统第4章 MapReduce分布式计算系统第5章 Zookeeper分布式协调服务第6章 Hadoop2.0新特性第7章 Hive数据仓库第8章 Flume日志采集系统第9章 Azkaban工作流管理器第10章 Sqoop数据迁移第11章综合项目——网站流量日志数据分析系统四、学时分配五、考核模式与成绩评定办法本课程为考试课程,期末考试采用百分制的闭卷考试模式。
学生的考试成绩由平时成绩(30%)和期末考试(70%)组成,其中,平时成绩包括出勤(5%)、作业(5%)、上机成绩(20%)。
六、选用教材和主要参考书本大纲是参考教材《Hadoop大数据技术原理与应用》所设计的。
七、大纲说明本课程的授课模式为:课堂授课+上机,其中,课堂主要采用多媒体的方式进行授课,并且会通过测试题阶段测试学生的掌握程度;上机主要是编写程序,要求学生动手完成指定的程序设计或验证。
大数据工具应用广东金融学院互联网金融与信息工程学院大数据工具应用•“大数据”的相关技术和应用正在快速改变着整个社会生活的方方面面。
它对“大数据”人才培养也提出新的要求和挑战:一方面需要具备一定的理论和技术基础,和使用工具的技术能力;另一方面需要能将技术手段与具体业务结合的“落地”能力。
•本课程从经济、管理类专业学生的需求出发,强调基本思想方法和快速工具应用,淡化理论推导和技术细节。
以案例驱动和操作演示来完成“大数据应用”入门课程的学习。
2大数据工具应用•课程章节包括:•第1章大数据基本概念与应用案例•第2章数据获取•第3章数据分析入门•第4章数据分析进阶3•2011年5月,麦肯锡研究院第一次给大数据做出相对清晰的定义:“大数据是指其大小超出了常规数据库工具获取、存储、管理和分析能力的数据集。
”第一章大数据基本概念与应用案例41.1 基本概念4 V 特征种类多(V a r i e ty )速度快(V e l o c i t y )价值高/低(V a lu e )体量大(V o l u m e )大数据与传统数据相比,数据来源广、维度多、类型杂,相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
随着现代感测、互联网、计算机技术的发展,数据生成、储存、分析、处理的速度远远超出人们的想象力,这是大数据区别于传统数据或小数据的显著特征。
价值密度的高低与数据总量的大小成反比。
以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。
如何通过强大的机器算法更迅速地完成数据的价值“提纯”,成为目前大数据背景下亟待解决的难题。
从2013年至2020年,人类的数据规模将扩大50倍,每年产生的数据量将增长到44万亿GB ,相当于美国国家图书馆数据量的数百万倍,且每18个月翻一番。
51.1 基本概念•大数据获取•新产生的格式化、半格式化数据:•典型的格式化数据如银行产生的交易数据•典型的非格式化数据如医院产生的病历数据•物联网产生的大量传感器数据(包括地理位置、周边环境等等)•新获取的半格式化、无格式化数据:•网络爬虫获取的网页内容信息•类似Google图书馆项目产生的书籍扫描数据•导入的格式化、半格式化历史数据:•各种现有数据库数据•现存的孤立系统统一数据接口后的可交换数据61.1 基本概念•大数据存储•导入预处理•包括数据清理、数据集成、数据变换和数据规约等步骤•关系/非关系数据库作为基础存储数据库•本地/云存储硬件设备71.1 基本概念•大数据管理•数据资源管理•“大”中取精,取优•大数据硬件平台管理•硬件平台的稳定性、可靠性、先进性等•大数据软件平台管理•软件平台的兼容性、可扩展性、维护性等•大数据应用管理•数据挖掘算法的开发、运行、优化等81.1 基本概念•大数据分析•分类•根据数据集的特点把未知类别的样本归类到给定类别中(贴标签)•聚类•将数据集内具有相似特征属性的数据聚集在一起,同一个数据群中的数据特征要尽可能相似,不同的数据群中的数据特征要有明显的区别(找朋友)•关联规则•找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则(拉关系)•时间序列分析/预测•在结构化与非结构化数据中使用以确定未来结果的算法和技术(测将来)91.2 应用案例•随着国内互联网和移动互联网产业的迅速发展,依托全世界最大规模的用户数量,国内的互联网大数据应用涌现了非常多的代表性案例。
《大数据挖掘及应用》课程教学大纲一、课程基本情况表1 课程基本情况表二、课程简介(中英文版)《大数据挖掘及应用》是计算机科学与技术院智能科学技术的必修课,是掌握数据分析能力的一门重要基础课程。
本课程首先讲授了数据分析的基本知识概念、数据分析预处理的手段,接着从数据分析方法的角度,介绍了数据挖掘关联分析、分类以及聚类三大类算法的基本知识、必要理论基础以及一些经典的数据挖掘算法。
通过对本门课程的学习,学生能够系统地获得数据分析方法的基本概念和理论技术,掌握关联规则分析、分类和聚类等数据挖掘算法,从而使学生学会利用数据预处理和数据挖掘的技术去分析和解决不同行业应用领域中对数据进行处理和获取知识的问题,对培养学生形成良好的计算机科学技术和人工智能领域知识的运用能力有很大的帮助。
《大数据挖掘及应用》是计算机科学与技术学院智能科学与技术专业的必修课,是培养学生具备数据分析能力的重要专业课程。
本课程教学内容涵盖了数据分析从特征提取,特征工程直至模型构建和可视化的全流程。
具体包括数据分析的基本知识概念,各种不同数据分析预处理的手段,以及不同类型的经典数据分析方法,如数据分析的关联分析、无标签分析以及有标签分析三大类算法的基本知识和理论原理。
和实际工程应用中的数据仓库基础知识介绍。
三、课程目标通过本课程的学习,使学生系统地获得数据挖掘基本知识和基本理论;本课程重点学习关联规则挖掘算法、分类和聚类算法,并注重培养学生熟练的编程能力和较强的抽象思维能力﹑逻辑推理能力﹑以及从海量数据中挖掘知识的能力,有助于学生能够利用相关算法去分析法和解决一些实际问题,为学习后续课程和进一步增强计算机编程能力奠定必要的算法基础.课程目标对应的学生知识和能力要求如下:课程目标1: 掌握数据挖掘基本概念和数据预处理知识(支撑毕业要求2.2)课程目标2:掌握关联规则分析、分类分析、聚类分析、深度学习中的经典算法,熟悉算法原理和理论基础(支撑毕业要求3.2)课程目标3: 掌握关联规则分析、分类分析、聚类分析、深度学习中的实验评价指标(支撑毕业要求4.2)课程目标4:熟悉分布式与并行计算基本概念及技术知识,能够对各类数据分析算法进行综合运用,具备分析和解决复杂工程实际问题的能力(支撑毕业要求5.3)课程目标5:通过撰写报告和口头表达,具有良好的沟通交流能力(支撑毕业要求10.1)四、“立德树人”育人内涵结合数据挖掘课程的相关教学内容,通过对数据分析算法与应用技术的讲授、课程大作业、前沿技术探讨等教学组织形式,在培养学生的创新意识和复杂工程问题解决能力的同时,培养学生的辩证思维、人工智能伦理和法律意识,以及求真务实精益求精的专业精神,踏实严谨的科学素养和理论联系实际的学习与创新方法,引导学生认识到新一代人工智能技术变革带来的机遇与挑战,爱党爱国,自觉践行社会主义核心价值观,坚定理想信念,勇担时代使命。
大数据技术原理与应用教学大纲课程概述入门级大数据课程,适合初学者,完备的课程在线服务体系,可以帮助初学者实现“零基础”学习大数据课程。
课程采用厦门大学林子雨老师编著的国内高校第一本系统性介绍大数据知识专业教材《大数据技术原理与应用》。
课程紧紧围绕“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”的指导思想,对大数据知识体系进行系统梳理,做到“有序组织、去粗取精、由浅入深、渐次展开”。
课程由国内高校知名大数据教师厦门大学林子雨副教授主讲。
授课目标课程的定位是入门级课程,本课程的目标是为学生搭建起通向“大数据知识空间”的桥梁和纽带。
本课程将系统梳理总结大数据相关技术,介绍大数据技术的基本原理和大数据主要应用,帮助学生形成对大数据知识体系及其应用领域的轮廓性认识,为学生在大数据领域“深耕细作”奠定基础、指明方向。
课程大纲第1讲大数据概述1.1 大数据时代1.2 大数据概念和影响1.3 大数据的应用1.4 大数据的关键技术1.5 大数据与云计算、物联网本讲配套讲义PPT-第1讲-大数据概述第1讲大数据概述章节单元测验第2讲大数据处理架构Hadoop本讲实验答疑-第2讲-大数据处理架构Hadoop2.1 概述2.2 Hadoop项目结构2.3 Hadoop的安装与使用2.4 Hadoop集群的部署和使用本讲配套讲义PPT-第2讲-大数据处理架构Hadoop 大数据处理架构Hadoop单元测验第3讲分布式文件系统HDFS3.1 分布式文件系统HDFS简介3.2 HDFS相关概念3.3 HDFS体系结构3.4 HDFS存储原理3.5 HDFS数据读写过程3.6 HDFS编程实践本讲配套讲义PPT-第3讲-分布式文件系统HDFS 分布式文件系统HDFS单元测验第4讲分布式数据库HBase4.1 HBase简介4.2 HBase数据模型4.3 HBase的实现原理4.4 HBase运行机制4.5 HBase应用方案4.6 HBase安装配置和常用Shell命令4.7 HBase常用Java API及应用实例本讲配套讲义PPT-第4讲-分布式数据库HBase 分布式数据库HBase单元测验第5讲NoSQL数据库5.1 NoSQL概述5.2 NoSQL与关系数据库的比较5.3 NoSQL的四大类型5.4 NoSQL的三大基石5.5 从NoSQL到NewSQL数据库5.6 文档数据库MongoDB本讲配套讲义PPT-第5讲-NoSQL数据库NoSQL数据库单元测验第6讲云数据库6.1 云数据库概述6.2 云数据库产品6.3 云数据库系统架构6.4 Amazon AWS和云数据库6.5 微软云数据库SQL Azure6.6 云数据库实践本讲配套讲义PPT-第6讲-云数据库云数据库单元测验第7讲MapReduce7.1 MapReduce概述7.2 MapReduce的体系结构7.3 MapReduce工作流程7.4 Shuffle过程原理7.5 MapReduce应用程序执行过程7.6 实例分析:WordCount7.7 MapReduce的具体应用7.8 MapReduce编程实践本讲配套讲义PPT-第7讲-MapReduce MapReduce单元测验第8讲Hadoop再探讨8.1 Hadoop的优化与发展8.2 HDFS2.0的新特性8.3 新一代资源管理调度框架YARN8.4 Hadoop生态系统中具有代表性的功能组件本讲配套讲义PPT-第9讲-Hadoop再探讨Hadoop再探讨单元测验第9讲数据仓库Hive9.1 数据仓库概念9.2 Hive简介9.3 SQL转换成MapReduce作业的原理9.4 Impala9.5 Hive编程实践本讲配套讲义PPT-第9讲-数据仓库Hive数据仓库Hive单元测验第10讲Spark10.1 Spark概述10.2 Spark生态系统10.3 Spark运行架构10.4 Spark SQL10.5 Spark的部署和应用方式10.6 Spark编程实践本讲配套讲义PPT-第10讲-SparkSpark单元测验第11讲流计算11.1 流计算概述11.2 流计算处理流程11.3 流计算的应用11.4 开源流计算框架Storm11.5 Spark Streaming、Samza以及三种流计算框架的比较11.6 Storm编程实践本讲配套讲义PPT-第11讲-流计算流计算单元测验第12讲Flink12.1Flink简介12.2为什么选择Flink12.3Flink应用场景12.4Flink技术栈、体系架构和编程模型12.5 Flink的安装与编程实践本讲配套讲义PPT-第12讲-FlinkFlink单元测验第13讲图计算13.1 图计算简介13.2 Pregel简介13.3 Pregel图计算模型13.4 Pregel的C++ API13.5 Pregel的体系结构13.6 Pregel的应用实例——单源最短路径13.7 Hama的安装和使用本讲配套讲义PPT-第13讲-图计算图计算单元测验第14讲大数据在不同领域的应用14.1 大数据应用概览14.2 推荐系统14.3 大数据在智能医疗和智能物流领域运用本讲配套讲义PPT-第14讲-大数据在不同领域的应用大数据在不同领域的应用单元测验预备知识面向对象编程(比如Java)、数据库、操作系统参考资料林子雨.大数据技术原理与应用(第3版),人民邮电出版社,2020年9月(教材官网)。
课程实验报告专业年级课程名称大数据技术原理与应用指导教师学生姓名学号实验日期实验地点实验成绩教务处制实验项目名称Liunx基本操作实验目的及要求1.了解Liunx操作系统发展历史。
2.学习Liunx操作系统基本概念及操作。
3.学习Liunx操作系统用户及文件权限管理。
4.Linux 目录结构及文件基本操作。
实验内容1.实验楼环境介绍,常用 Shell 命令及快捷键,Linux 使用小技巧。
2.Linux 中创建、删除用户,及用户组等操作。
Linux 中的文件权限设置。
3.Linux 的文件组织目录结构,相对路径和绝对路径,对文件的移动、复制、重命名、编辑等操作。
实验步骤1.Liunx输入输出命令。
2.使用touch命令创建文件夹,后缀都为txt。
3.学会在命令行中获取帮助。
4.输出图形字符。
5.查看用户。
6.创建新用户。
7.删除用户。
8.查看文件权限。
9.用ls –A/Al/dl/AsSh查看文件。
10.变更文件所有者。
11.修改文件权限。
12.目录路径。
13.新建空白文件。
14.文件的复制、删除、移动、重命名。
实验环境Liunx 操作系统实验结果与分析通过学习Liunx操作系统的发展历史、基本操作、用户及文件权限管理以及Linux 目录结构及文件基本操作。
是得我大致了解Liunx操作系统的使用,并且能够完成相应的练习。
教师评语课程实验报告专业年级课程名称大数据技术原理与应用指导教师学生姓名学号实验日期实验地点实验成绩教务处制实验项目名称Hadoop的基本操作实验目的及要求1.Hadoop单机模式安装.2.Hadoop伪分布模式配置部署.3.Hadoop介绍及1.X伪分布式安装.4.adoop2.X 64位编译.5.Hadoop2.X 64位环境搭建.实验内容1.hadoop三种安装模式介绍,hadoop单机模式安装,测试安装2.hadoop配置文件介绍及修改,hdfs格式化,启动hadoop进程,验证安装.3.Hadoop1.X伪分布安装, Hadoop介绍,Hadoop变量配置.4.Hadoop2.X 64位编译, 编译Hadoop2.X 64位, 编译Hadoop.5.搭建环境,部署Hadooop2.X,启动Hadoop.实验步骤1.用户及用户组,添加用户及用户组,添加sudo权限.2.安装及配置依赖的软件包,安装openssh-server、java、rsync等,配置ssh免密码登录.3.下载并安装Hadoop, 下载Hadoop 2.6.0, 解压并安装, 配置Hadoop.4.测试验证.5.相关配置文件修改:修改core-site.xml:6.格式化HDFS文件系统.7.Hadoop集群启动.8.测试验证.9.设置Host映射文件.10.下载并解压hadoop安装包11.在Hadoop-1.1.2目录下创建子目录.12.启动hadoop.13. 编译Hadoop2.X 64位.14.使用yum安装sun.15. 部署Hadooop2.X.与Hadoop1.X类似。