《大数据导论》复习资料
- 格式:docx
- 大小:55.13 KB
- 文档页数:33
大数据导论第一章总结大数据导论是一门介绍大数据的基本概念、技术和应用的课程。
通过学习这门课程,我们可以深入了解大数据的定义、特点和挑战,以及大数据的处理和分析方法。
本章主要介绍了大数据的概念和背景,并讨论了大数据对社会和经济的影响。
本章明确了大数据的概念。
大数据是指规模巨大、种类繁多且产生速度快的数据集合。
这些数据通常无法使用传统的数据处理方法进行管理和分析。
大数据的特点包括四个方面:数据量大、速度快、多样性和价值密度低。
接着,本章介绍了大数据的背景和发展。
随着互联网的快速发展和智能设备的普及,大数据的产生和积累呈现出指数级的增长。
大数据的发展给各行业带来了巨大的机遇和挑战。
通过对大数据的分析,我们可以发现隐藏在数据中的规律和趋势,从而为决策提供科学依据。
然后,本章探讨了大数据对社会和经济的影响。
大数据的广泛应用已经改变了许多行业的商业模式和运营方式。
例如,在医疗健康领域,大数据可以帮助医生进行个性化诊断和治疗,提高医疗服务的质量和效率。
在金融领域,大数据可以用于风险管理和反欺诈等方面,提高金融机构的安全性和稳定性。
本章总结了大数据的重要性和挑战。
大数据具有巨大的潜力,可以为社会和经济发展带来巨大的推动力。
然而,大数据的处理和分析也面临着诸多挑战,如数据隐私和安全、数据质量和数据分析能力等方面。
因此,我们需要不断发展和完善大数据的技术和方法,以应对这些挑战。
大数据导论第一章介绍了大数据的概念、背景和发展,以及大数据对社会和经济的影响。
通过学习这门课程,我们可以深入了解大数据的本质和应用,为未来的数据科学和数据分析奠定基础。
大数据的时代已经来临,我们需要积极适应和应对,以更好地利用大数据的潜力推动社会和经济的发展。
不是技术也能看懂云计算,大数据,人工智能我今天要讲这三个话题,一个是云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之间好像互相有关系,一般谈云计算的时候也会提到大数据,谈人工智能的时候也会提大数据,谈人工智能的时候也会提云计算。
所以说感觉他们又相辅相成不可分割,如果是非技术的人员来讲可能比较难理解说这三个之间的相互关系,所以有必要解释一下。
一、云计算最初是实现资源管理的灵活性我们首先来说云计算,云计算最初的目标是对资源的管理,管理的主要是计算资源,网络资源,存储资源三个方面。
管数据中心就像配电脑什么叫计算,网络,存储资源呢?就说你要买台笔记本电脑吧,你是不是要关心这台电脑什么样的CPU啊?多大的内存啊?这两个我们称为计算资源。
这台电脑要能上网吧,需要有个网口可以插网线,或者有无线网卡可以连接我们家的路由器,您家也需要到运营商比如联通,移动,电信开通一个网络,比如100M的带宽,然后会有师傅弄一根网线到您家来,师傅可能会帮您将您的路由器和他们公司的网络连接配置好,这样您家的所有的电脑,手机,平板就都可以通过您的路由器上网了。
这就是网络。
您可能还会问硬盘多大啊?原来硬盘都很小,10G之类的,后来500G,1T,2T的硬盘也不新鲜了。
(1T是1024G),这就是存储。
对于一台电脑是这个样子的,对于一个数据中心也是同样的。
想象你有一个非常非常大的机房,里面堆了很多的服务器,这些服务器也是有CPU,内存,硬盘的,也是通过类似路由器的设备上网的。
这个时候的一个问题就是,运营数据中心的人是怎么把这些设备统一的管理起来的呢?灵活就是想啥时要都有,想要多少都行管理的目标就是要达到两个方面的灵活性。
哪两个方面呢?比如有个人需要一台很小很小的电脑,只有一个CPU,1G内存,10G的硬盘,一兆的带宽,你能给他吗?像这种这么小规格的电脑,现在随便一个笔记本电脑都比这个配置强了,家里随便拉一个宽带都要100M。
大数据导论知识点总结大数据是指数据量巨大、传统数据处理工具无法处理的数据集合。
随着信息科技的快速发展,大数据的意义与作用也越来越受到关注。
在大数据领域,有一些重要的知识点需要我们了解和掌握。
本文将对大数据导论的知识点进行总结,包括大数据的定义、特点、挑战以及应用等方面。
一、大数据的定义大数据的定义尚无统一标准,但通常包括以下几个方面:数据量大、数据类型多样、数据生成速度快、数据价值高等。
简单来说,大数据是指规模庞大、难以用传统的数据处理工具进行存储、管理和分析的数据集合。
二、大数据的特点1. 高容量:大数据所包含的数据量庞大,远远超出传统数据库的存储能力。
2. 多样性:大数据涵盖了多种类型的数据,包括结构化数据(如数据库、电子表格等)和非结构化数据(如文本、图像、音频等)。
3. 实时性:大数据的生成速度极快,有些数据源甚至以每秒钟数十万条的速度产生。
4. 不确定性:大数据往往具有一定的噪音和不准确性,需要采用特殊的处理方式。
三、大数据的挑战1. 存储挑战:大数据的存储需求极大,传统的数据库和文件系统无法满足其存储需求。
2. 处理挑战:大数据的处理需要使用分布式计算、并行计算等技术,传统的串行计算方式已无法满足需求。
3. 分析挑战:大数据分析需要解决大规模数据的算法设计和计算模型的问题,如数据挖掘、机器学习等。
4. 隐私保护挑战:大数据的应用涉及大量的个人隐私信息,如何保护隐私成为一大挑战。
四、大数据的应用1. 商业智能:大数据分析可以帮助企业了解用户行为、市场趋势等,从而为决策提供依据。
2. 社交网络分析:大数据分析可以揭示社交网络中的关系、影响力等,为社会学、心理学等领域提供支持。
3. 金融领域:大数据分析可以帮助金融机构发现欺诈行为、进行风险评估等。
4. 医疗健康:大数据分析可以帮助医疗机构提供个性化治疗方案、预测疾病传播等。
5. 城市管理:大数据分析可以帮助城市进行交通管理、环境监测等,提升城市的智能化水平。
浅谈开展优质护理服务示范病房的体会【摘要】本文主要谈论了开展优质护理服务示范病房的相关内容。
首先从背景介绍和问题提出入手,引出了创建示范病房的意义和优质护理服务的重要性。
接着探讨了示范病房的建设要点,以及实施过程中可能遇到的困难与挑战。
最后分析了改进措施与效果评估,并对其进行总结体会和展望未来的展望。
通过本文的阐述,可以深刻理解开展优质护理服务示范病房的必要性,以及如何有效地实施和评估这一工作,为推进医疗服务质量提升提供有益的参考和指导。
【关键词】优质护理服务、示范病房、体会、意义、重要性、建设要点、困难与挑战、改进措施、效果评估、总结、展望未来。
1. 引言1.1 背景介绍背景介绍:随着医疗水平和患者期望的不断提高,提供优质的护理服务已经成为医疗机构的必然选择。
而创建示范病房作为提供优质护理服务的有效手段,正在逐渐受到医疗行业的关注和重视。
示范病房以其专业、规范、高效的护理服务模式,成为了医院推进护理服务质量提升的突破口。
为了更好地满足患者的需求和期待,不少医疗机构都已经开始探索开展优质护理服务示范病房的建设。
在此背景下,开展优质护理服务示范病房已经成为医院加强护理服务品质建设、提升医疗服务水平的一项重要举措。
1.2 问题提出在开展优质护理服务示范病房的过程中,我们常常会面临各种问题和挑战。
一个主要的问题是如何确保病房的护理服务质量能够持续提升,满足患者的需求。
人力资源不足、技术设备不足、管理经验不足等也是我们在开展示范病房建设过程中需要面对和解决的问题。
如何有效地解决这些问题,提升病房的服务质量,让患者得到更好的护理服务,是我们需要深入思考和探讨的课题。
通过建立示范病房,我们可以不断总结经验,找到问题的症结所在,进一步完善护理服务体系,提高医护人员的服务意识和技能水平,为患者提供更加贴心、专业的护理服务,实现医院和患者的双赢局面。
2. 正文2.1 创建示范病房的意义创建示范病房的意义在于提高医疗服务质量,为患者提供更加安全、便捷和舒适的医疗环境,同时也有利于医院树立良好的形象和信誉。
一、选择题1可视分析是一种()?【A.】交互式用户界面模型【B.】结构化用户界面模型【C.】非结构化用户界面模型【D.】独立式用户界面模型【答案】A2数据科学的研究对象是()?【A.】药品成分【B.】文学作品【C.】数据界的数据【D.】人类历史【答案】C3下面不是研究数据方法的是()?【A.】统计学【B.】机器学习【C.】心理分析【D.】数据挖掘【答案】C4下面是数据科学的主要研究内容的是()?【A.】数据泄露【B.】数据交易【C.】数据盗窃【D.】数据分析【答案】D5下面不是数据产品开发的特征的是()?【A.】多样性【B.】无竞争性【C.】增值性【D.】层次性【答案】B6下面不属于互联网大数据的是()?【A.】视频【B.】图片【C.】音频【D.】心情【答案】D7下面不属于大数据的特性是()?【A.】数据量大【B.】多样性【C.】真实性差【D.】具有价值【答案】C8下面属于结构化数据的是()?【A.】表格数据【B.】图形【C.】图像【D.】HTML文档【答案】A9下面不属于大数据的处理过程的是()?【A.】数据获取、储存【B.】数据清洗【C.】数据分析【D.】数据安全【答案】D10下面不属于大数据离线处理特点的是()?【A.】数据保存时间短【B.】数据不会发生改变【C.】可进行复杂的批量计算【D.】方便查询计算结果【答案】A11下面不属于大数据处理模式的是()?【A.】离线处理【B.】在线处理【C.】手动计算【D.】交互处理【答案】C12下面仅属于大数据在线处理模式的是()?【A.】批量计算【B.】流式计算【C.】手动计算【D.】交互处理【答案】B13下面不属于流式数据源的是()?【A.】硬盘数据【B.】传感器数据【C.】图像数据【D.】流媒体传输【答案】A14下面不属于流式数据的特点的是()?【A.】实时性【B.】层次性【C.】易失性【D.】突发性【答案】B15下面不属于大数据计算模式的类型的是()?【A.】批量计算【B.】手动计算【C.】流式计算【D.】交互式计算【答案】B16下面不属于数据流技术应用的方式是()?【A.】指定查询【B.】模糊查询【C.】即席计算【D.】中间计算【答案】B17下面不属于判断大数据应用成功的指标是()?【A.】创造价值【B.】具备高速度【C.】在本质上提高【D.】低性能【答案】D18基于任务的定义和分类,下列不属于可视分析关注点的是()?【A.】以用户价值为关注点【B.】以用户意图为关注点【C.】以同户行为为关注点【D.】以软件操作为关注点【答案】A19下面不属于企业大数据应用成功的考虑因素是()?【A.】成本【B.】客户满意度【C.】附加收益【D.】工人满意度【答案】D20下面不属于大数据在通讯行业的应用是()?【A.】预测客户行为【B.】市场监控【C.】智能电表【D.】市场预警【答案】C21MapReduce以什么方式进行分布式计算()?【A.】文本【B.】函数【C.】数据集【D.】矩阵【答案】B22在Hadoop中,将每一次计算请求称为一个()?【A.】文本【B.】函数【C.】数据集【D.】作业【答案】D23在Hadoop中,将每个作业拆分为若干个()?【A.】文本【B.】Map任务【C.】数据集【D.】Reduce任务【答案】B24在Hadoop中,作业服务器被称为()?【A.】Job【B.】Map【C.】Master【D.】Reduce【答案】C25下列不属于一个作业的计算流程的是()?【A.】作业开始【B.】作业修改【C.】Map任务分配【D.】Reduce任务执行【答案】B26下列不属于Map任务的执行的子步骤的是()?【A.】输入准备【B.】输入修改【C.】算法执行【D.】输出生成【答案】B27在MapReduce模型编程中,不属于其步骤的是()?【A.】遍历数据【B.】映射键值【C.】数据分组【D.】数据插补【答案】D28Hadoop的核心是()和MapReduce。
第十一章《大数据导论》教育大数据在当今数字化的时代,大数据已经成为了推动各个领域发展的重要力量,教育领域也不例外。
教育大数据作为大数据的一个重要分支,正逐渐改变着我们对教育的理解和实践方式。
教育大数据是什么呢?简单来说,它是指在教育领域中产生的大量数据,包括学生的学习行为、学习成绩、教师的教学过程、课程设置等等。
这些数据来源广泛,形式多样,比如在线学习平台上学生的浏览记录、答题情况,学校管理系统中的学生信息、考勤记录,以及课堂教学中的互动数据等等。
教育大数据的价值是巨大的。
首先,它能够帮助我们更好地了解学生。
通过对学生学习数据的分析,我们可以知道每个学生的学习特点、优势和不足,从而为他们提供个性化的学习方案。
比如,有的学生在数学方面理解较慢,但在语言学习上表现出色。
教育大数据就能让教师发现这一点,针对数学学习为其提供更多的辅导和练习,同时在语言学习上给予更多的拓展和挑战。
其次,教育大数据有助于提升教学质量。
教师可以通过分析教学过程中的数据,了解哪种教学方法更有效,哪个知识点学生理解困难,从而及时调整教学策略。
比如,如果发现大部分学生在某个概念的理解上存在问题,教师就可以重新讲解或者采用更直观的教学方式。
再者,对于教育管理者来说,教育大数据能够为决策提供依据。
通过分析学校整体的教育数据,管理者可以了解学校的教学资源分配是否合理,课程设置是否满足学生的需求,从而做出更科学的决策。
比如,如果发现某些课程选修人数过少,可能就需要重新评估课程的设置和教学内容。
然而,要充分发挥教育大数据的作用,也面临着一些挑战。
数据的质量和准确性就是一个关键问题。
如果收集的数据存在错误或者不完整,那么分析结果就会出现偏差,从而影响决策和教学指导。
比如,学生的成绩录入错误,就可能导致对学生学习情况的误判。
数据的安全和隐私保护也是不容忽视的。
教育数据中包含了大量学生和教师的个人信息,如果这些信息被泄露,将会造成严重的后果。
因此,必须建立严格的数据管理制度和安全防护措施,确保数据的安全。
大数据导论期末试题及答案一、选择题1. 大数据技术主要用于处理哪方面的数据?A. 小规模结构化数据B. 中等规模半结构化数据C. 大规模非结构化数据D. 所有规模的数据答案:D2. 大数据的四个关键特征分别是什么?A. 数据量大、多样性、高速度、价值高B. 数据量大、多样性、冗余性、处理速度快C. 数据量大、结构化、半结构化、非结构化D. 数据量大、多样性、快速计算、可扩展性答案:A3. Hadoop是一个开源框架,用于分布式处理大规模数据。
它的核心组件包括:A. HDFS和MapReduceB. MySQL和MongoDBC. Tomcat和NginxD. Spark和Storm答案:A4. 哪个技术经常与大数据技术一同使用,可以实现流数据的实时处理?A. 机器学习B. 数据挖掘C. 数据仓库D. 流处理答案:D5. 大数据分析可以为企业带来哪些优势?A. 提供更好的决策支持B. 降低成本和风险C. 发现新的商业机会D. 所有选项都是正确的答案:D二、填空题1. 大数据的主要特征之一是_______。
答案:数据量大2. _______是一个用于处理大规模结构化和半结构化数据的开源框架。
答案:Hadoop3. 大数据技术的应用通常需要具备_______的能力。
答案:高速计算4. _______是一种用于实时处理流数据的技术。
答案:流处理5. 大数据分析能够带来企业的多个优势,包括提供更好的_______、降低成本和风险,以及发现新的商业机会。
答案:决策支持三、简答题1. 请简要介绍大数据的定义及其特征。
答:大数据是指规模超过传统数据库处理能力范围的数据集合。
它具有四个关键特征:数据量大、多样性、高速度和价值高。
数据量大指的是数据量远远超过传统数据库的处理能力,往往需要分布式系统来处理。
多样性表示数据可以是结构化、半结构化或非结构化的。
高速度指的是大数据的产生速度很快,需要进行实时或近实时的处理和分析。
《大数据导论》课程期末复习资料《大数据导论》课程讲稿章节目录:第1章大数据概述(1)大数据的概念(2)大数据的特征(3)大数据的数据类型(4)大数据的技术(5)大数据的应用第2章大数据采集与预处理(1)大数据采集(2)大数据预处理概述(3)数据清洗(4)数据集成(5)数据变换(6)数据规约第3章大数据存储(1)大数据存储概述(2)数据存储介质(3)存储系统结构(4)云存储概述(5)云存储技术(6)新型数据存储系统(7)数据仓库第4章大数据计算平台(1)云计算概述(2)云计算平台(3)MapReduce平台(4)Hadoop平台(5)Spark平台第5章大数据分析与挖掘(1)大数据分析概述(2)大数据分析的类型及架构(3)大数据挖掘(4)大数据关联分析(5)大数据分类(6)大数据聚类(7)大数据分析工具第6章大数据可视化(1)大数据可视化概述(2)大数据可视化方法(3)大数据可视化工具第7章社交大数据(1)社交大数据(2)国内社交网络大数据的应用(3)国外社交网络大数据的应用第8章交通大数据(1)交通大数据概述(2)交通监测应用(3)预测人类移动行为应用第9章医疗大数据(1)医疗大数据简介(2)临床决策分析应用(3)医疗数据系统分析第10章大数据的挑战与发展趋势(1)大数据发展面临的挑战(2)大数据的发展趋势一、客观部分:(单项选择、多项选择)(一)、单项选择1.以下不是NoSQL数据库的是()A.MongoDBB.HBaseC.CassandraD.DB2★考核知识点:NoSQL与NewSQL主流系统参考讲稿章节:3.7附1.1.1(考核知识点解释):目前市场上主要的NoSQL数据存储工具有:BigTable、Dynamo 、Hbase、MongoDB、CouchDB、Hypertable还存在一些其他的开源的NoSQL数据库,Neo4j、Oracle Berkeley DB、Apache Cassandra等另外,NewSQL数据库。
《大数据导论》课程期末复习资料《大数据导论》课程讲稿章节目录:第1章大数据概述(1)大数据的概念(2)大数据的特征(3)大数据的数据类型(4)大数据的技术(5)大数据的应用第2章大数据采集与预处理(1)大数据采集(2)大数据预处理概述(3)数据清洗(4)数据集成(5)数据变换(6)数据规约第3章大数据存储(1)大数据存储概述(2)数据存储介质(3)存储系统结构(4)云存储概述(5)云存储技术(6)新型数据存储系统(7)数据仓库第4章大数据计算平台(1)云计算概述(2)云计算平台(3)MapReduce平台(4)Hadoop平台(5)Spark平台第5章大数据分析与挖掘(1)大数据分析概述(2)大数据分析的类型及架构(3)大数据挖掘(4)大数据关联分析(5)大数据分类(6)大数据聚类(7)大数据分析工具第6章大数据可视化(1)大数据可视化概述(2)大数据可视化方法(3)大数据可视化工具第7章社交大数据(1)社交大数据(2)国内社交网络大数据的应用(3)国外社交网络大数据的应用第8章交通大数据(1)交通大数据概述(2)交通监测应用(3)预测人类移动行为应用第9章医疗大数据(1)医疗大数据简介(2)临床决策分析应用(3)医疗数据系统分析第10章大数据的挑战与发展趋势(1)大数据发展面临的挑战(2)大数据的发展趋势一、客观部分:(单项选择、多项选择)(一)、单项选择1.以下不是NoSQL数据库的是()A.MongoDBB。
HBaseC.CassandraD。
DB2★考核知识点:NoSQL与NewSQL主流系统参考讲稿章节:3.7附1.1。
1(考核知识点解释):目前市场上主要的NoSQL数据存储工具有:BigTable、Dynamo 、Hbase、MongoDB、CouchDB、Hypertable还存在一些其他的开源的NoSQL数据库,Neo4j、Oracle Berkeley DB、Apache Cassandra等另外,NewSQL数据库。
《大数据导论》课程期末复习资料《大数据导论》课程讲稿章节目录:第1章大数据概述(1)大数据的概念(2)大数据的特征(3)大数据的数据类型(4)大数据的技术(5)大数据的应用第2章大数据采集与预处理(1)大数据采集(2)大数据预处理概述(3)数据清洗(4)数据集成(5)数据变换(6)数据规约第3章大数据存储(1)大数据存储概述(2)数据存储介质(3)存储系统结构(4)云存储概述(5)云存储技术(6)新型数据存储系统(7)数据仓库第4章大数据计算平台(1)云计算概述(2)云计算平台(3)MapReduce平台(4)Hadoop平台(5)Spark平台第5章大数据分析与挖掘(1)大数据分析概述(2)大数据分析的类型及架构(3)大数据挖掘(4)大数据关联分析(5)大数据分类(6)大数据聚类(7)大数据分析工具第6章大数据可视化(1)大数据可视化概述(2)大数据可视化方法(3)大数据可视化工具第7章社交大数据(1)社交大数据(2)国内社交网络大数据的应用(3)国外社交网络大数据的应用第8章交通大数据(1)交通大数据概述(2)交通监测应用(3)预测人类移动行为应用第9章医疗大数据(1)医疗大数据简介(2)临床决策分析应用(3)医疗数据系统分析第10章大数据的挑战与发展趋势(1)大数据发展面临的挑战(2)大数据的发展趋势一、客观部分:(单项选择、多项选择)(一)、单项选择1.以下不是NoSQL数据库的是()A.MongoDBB.HBaseC.CassandraD.DB2★考核知识点:NoSQL与NewSQL主流系统参考讲稿章节:3.7附1.1.1(考核知识点解释):目前市场上主要的NoSQL数据存储工具有:BigTable、Dynamo 、Hbase、MongoDB、CouchDB、Hypertable还存在一些其他的开源的NoSQL数据库,Neo4j、Oracle Berkeley DB、Apache Cassandra等另外,NewSQL数据库。
例如:GoogleSpanner、V oltDB、RethinkDB、Clustrix、TokuDB和MemSQL等。
2以下不是目前主流开源分布式计算系统的是()A.AzureB.HadoopC.SparkD.Storm★考核知识点:主流开源分布式计算系统参见讲稿章节:4.2附1.1.2:(考核知识点解释)由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。
Yahoo的工程师DougCutting和MikeCafarella在2005年合作开发了分布式计算系统Hadoop。
后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。
Hadoop采用MapReduce分布式计算框架,并根据GFS开发了HDFS 分布式文件系统,根据BigTable开发了HBase数据存储系统。
尽管和Google内部使用的分布式计算系统原理相同,但是Hadoop在运算速度上依然达不到Google论文中的标准。
不过,Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。
Yahoo,Facebook,Amazon以及国内的百度、阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。
Spark也是Apache基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。
它在Hadoop的基础上进行了一些架构上的改良。
Storm是Twitter主推的分布式计算系统,它由BackType团队开发,是Apache基金会的孵化项目。
它在Hadoop的基础上提供了实时运算的特性,可以实时地处理大数据流。
Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的、复杂的大数据处理,spark常用于离线的、快速的大数据处理,而storm常用于在线的、实时的大数据处理。
3.Apriori算法是一种()算法A.关联规则B.聚类C.分类D.预测★考核知识点:大数据挖掘算法参见讲稿章节:5.3-5.7附1.1.2:(考核知识点解释)关联分析(Association analysis)是从有噪声的、模糊的、随机的海量数据中,挖掘出隐藏的、事先不知道、但是有潜在关联的信息或知识的过程,或称关联规则学习(Association rule learning)。
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,算法有两个关键步骤:一是发现所有的频繁项集;二是生成强关联规则。
FP(Frequent Pattern)-growth算法基于Apriori构建,但采用了高级的数据结构减少扫描次数,大大加快了算法速度。
分类(Classification)任务是在给定数据基础上构建分类模型,根据分类模型确定目标对象属于哪个预定义的目标类别。
常用的分类算法有:决策树、感知机、K近邻、朴素贝叶斯、贝叶斯网络、逻辑斯谛回归、支持向量机、遗传算法、人工神经网络等。
聚类分析(Cluster analysis)简称聚类(Clustering),是把数据对象划分成子集(类)的过程,每个子集称为一个簇(Cluster),同一个簇中的数据之间存在最大相似性,不同簇之间的数据间存在最大的差异性。
K-MEANS(K-均值)算法是一种划分聚类方法,以k 为参数,将n 个对象分为k 个簇,以使簇(类)内具有较高的相似度,而簇间的相似度最低。
(二)、多项选择1.大数据的特征包括()A.体量大(V olume)B.多样性(Variety)C.速度快(Velocity)D.价值高(Value)★考核知识点:大数据的特征参考讲稿章节:1.2附1.2.1(考核知识点解释):目前在描述大数据特征时,一般是按照国际数据公司IDC所提的“4V”模型来刻画,即体量大(V olume)、多样性(Variety)、速度快(Velocity)、价值高(Value)。
1). 体量大(V olume):数据量大是大数据的基本属性。
数据规模的大小是用计算机存储容量的单位来计算的,数量的单位从TB级别跃升到PB级别、EB级别,甚至ZB级别。
2). 多样性(Variety):大数据除了体量大外,另一个最重要的特征就是数据类型的多样化。
即数据存在形式包括结构化数据、半结构化数据和非结构化数据。
3) 速度快(Velocity):大数据环境中速度快有两层含义:一是数据产生速度快;二是要求数据分析处理速度快。
4) 价值高(Value):大数据拥有大量有价值信息,通过提炼的信息,能够在更高的层面和视角,将在更大的范围帮助用户提高决策力,洞察未来创造出更大的价值和商机。
2. 按照数据结构分类,数据可分为()A.结构化数据B.半结构化数据C.非结构化数据D.无结构数据★考核知识点:按照数据结构分,大数据的数据类型参考讲稿章节:1.3附1.2.2(考核知识点解释):大数据不仅仅体现在数据量大,也体现在数据类型多。
按照数据结构分,数据可分为结构化数据、半结构化数据和非结构化数据。
在现有大数据的存储中,结构化数据仅有20%,其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据。
据统计,全球结构化数据增长速度约为32%,半结构化数据和非结构化数据的增速高达63%。
(1)结构化数据:结构化数据,通常存储在关系数据库中,并用二维表结构通过逻辑表达实现。
所有关系型数据库(如SQL Server、Oracle、MySQL、DB2等)中的数据全部为结构化数据。
生活中我们常见的结构化数据有企业计划系统(Enterprise Resource Planning,ERP)、医疗的医院信息系统(Hospital Information System,HIS)、校园一卡通核心数据库(2)半结构化数据就是介于完全结构化数据和完全无结构化的数据之间的数据。
例如邮件、HTML、报表、具有定义模式的XML数据文件等。
典型应用场景如邮件系统、档案系统、教学资源库等。
半结构化数据的格式一般为纯文本数据,其数据格式较为规范,可以通过某种方式解析得到其中的每一项数据。
最常见的半结构化数据是日志数据,采用XML、JSON等格式的数据(3)非结构化数据是指非纯文本类数据,没有标准格式,无法直接解析出相应的值。
非结构化数据无处不在,常风的包括Web网页.即时消息或者时间数据(如微博、微信、Twitter等数据)、富文本文档(Rich Text Format , RTF)、富媒体文件(Rich Media)、实时多媒体数据(如各种视频,音频、图像文件)3. 根据产生主体的不同,大数据可以分为()A.产量企业应用产生的数据B.大量个人用户产生的数据C.由巨量机器产生的数据D.科研数据★考核知识点:根据产生主体分,大数据的数据类型参考讲稿章节:1.3附1.2.3(考核知识点解释):数据可根据产生主体的不同分为三类:(1)由少量企业应用而产生的数据。
关系型数据库中的数据、数据仓库中的数据。
(2)大量个人用户产生的数据。
社交媒体,如微博、博客、QQ、微信、Facebook、Twitter等产生的大量文字、图片、视频、音频数据)、企业应用的相关评论数据、电子商务在线交易、供应商交易的日志数据。
(3)由巨量机器产生的数据。
应用服务器日志(Web站点、游戏)、传感器数据(天气、水、智能电网)、图像和视频监控、RFID、二维码或者条形码扫描的数据。
4. 根据作用方式不同,大数据可以分为()A.交互数据B.社交数据C.交易数据D.个人数据★考核知识点:根据作用方式的不同,大数据的数据类型分类参考讲稿章节:1.3附1.2.4(考核知识点解释):数据还可根据作用方式的不同分为两类:(1)交互数据:指相互作用的社交网络产生的数据,包括人为生成的社交媒体交互和机器设备交互生成的新型数据。
(2)交易数据:交易数据是指来自于电子商务和企业应用的数据。
包括EPR (网络公关系统)、B2B(企业对企业)、B2C(企业对个人)、C2C(个人对个人)、O2O(线上线下)、团购等系统产生的数据。
这些数据存储在关系型数据库和数据仓库中,可以执行联机分析处理(OLAP)和联机事务处理(OLTP)。
随着大数据的发展,此类数据的规模和复杂性一直在提高。
交互和交易这两类数据的有效融合是大数据发展的必然趋势,大数据应用要有效集成这两类数据,并在此基础上,实现对这些数据的处理和分析。
5. Google分布式计算模型不包括()A. GFSB. BigTableC. MapReduceD.RDD★考核知识点:Google的分布式计算模型参见讲稿章节:4.2、4.3附1.2.5:(考核知识点解释)2003年到2004年间,Google发表了MapReduce、GFS(Google File System)和BigTable三篇技术论文,提出了一套全新的分布式计算理论。