武汉理工大学云计算重点(刘鹏第三版)
- 格式:docx
- 大小:21.17 KB
- 文档页数:7
计算机导论计算机导论一、复习要点一、复习要点1、计算机科学的基本思路;P11第2段2、计算机理论研究的四个步骤;P11第3段3、模型抽象的四个步骤;P11第4段4、工程设计的四个步骤;P11第5段5、计算机科学的学科内容;①学科形态②学科的含义和基本问题③学科的发展④学科的若干分支干分支6、决策系统;P20第1段7、实时系统;P20第2段8、虚拟现实;P21第3段9、计算机的发展历史;MARK-1(46年之前世界上第一台通用程序控制继电器计算机,P4);ENIAC (46年第一台电子计算机,P5)EDV AC(46年首次提出了存储程序的概念,解决了ENIAC的缺陷,P6);UNIV ACI(51年第一台能基本数据处理的计算机,P9);10、存储程序式计算机;P33 11、运算器;P34最后一段最后一段12、控制器;P35最后一段最后一段13、指令;p73图14、指令系统;指令系统;15、位;P45 16、位运算;P46图2.6 17、数制及转换;数制及转换;18、数据压缩;P68 19、并行处理;P84 20、并行处理的四个级别;P84 21、根据指令流和数据流的多重性的计算机系统分类;P84:SISD,SIMD,NISD,MIMD) 22、通道;P85 23、通道的3种类型;P86-87 24、计算机软件;P97第1段25、软件的特点;P97第3段26、系统软件及分类;P98图3.1 27、应用软件及分类;P99 28、软件的开发过程;P99 29、软件开发技术的发展原因及趋势;P101及图3.2 30、结构化程序设计;P102 31、软件工程的开发方法;P102-P103 32、面向对象的开发方法;P103 33、算法;P106 34、算法学习的五个方面;P107第2段35、算法的特性;P107第3段36、算法的描述方法;P107第5段37、算法的评价;复杂性、正确性、效率算法的评价;复杂性、正确性、效率38、程序设计语言;P112,计算机算法语言。
1.什么是云计算:答:云是虚拟计算机资源池。
云可以处理各种不同的负载,包括批处理式后端作业和交互式用户界面应用。
云通过迅速提供虚拟机或物理机允许负载被快速配置和划分。
云支持冗余,自恢复,高可扩展编程模型,以允许负载从许多不可避免的硬件/软件错误中恢复。
最终,云计算系统可以通过实时监视资源来确保分配在需要时平衡。
来源:数据爆炸促发了云计算的思想。
2.云平台提供的服务类型:数据中心的虚拟化资源形成互联网云,向付费用户提供硬件,软件,存储,网络和服务以运行他们的应用。
云计算提供了一个虚拟化的按需动态供应硬件,软件和数据集的弹性资源平台.①基础设施即服务(IaaS):这个模型将用户需要的基础设施(即服务器,存储,网络和数据中心构造)组合在一起。
用户可以在使用客户机操作系统的多个虚拟机上配置和运行指定的应用。
②平台即服务(PaaS):这个模型使用户能够在一个虚拟的平台上配置用户制定的应用。
PaaS包括中间件,数据库,开发工具和一些运行时支持(如Web 2.0和Java)。
3.软件即服务(SaaS):这是指面向数千付费云用户的初始浏览器的应用软件。
SaaS模型应用于业务流程,工业应用,客户关系管理,企业资源计划,人力资源和合作应用。
3.Google的核心技术Google MapReduce(Map:对一组数据元素进行某种重复式的处理,Reduce:对Map中间结果进行某种进一步的结果整理)(MapReduce把what need to do 与how to do 分开了)(设计思想:scale out not up,assume failures are common,moving processing to data,process data sequentially and avoid random access)上升到架构:统一架构,为程序员隐藏系统层细节。
Google GFS google gfs 是一个基于分布式集群的大型分布式文件系统,为MapReduce计算框架提供底层数据存储和数据可靠性支撑。
《云计算与大数据》课程教学大纲开课单位:计算机科学与技术教研室课程类别:专业基础课总学时:48 讲授学时:40 实验学时:8 学分:2.5开课学期:第五学期先修课程:操作系统、数据库原理、面向对象程序设计教学方式:理论讲授加实验考核方式:考试使用教材及主要参考书:建议使用教材:陶皖主编,《云计算与大数据》西安电子科技大学出版社2017.1推荐参考资料:(1)《云计算(第三版)》刘鹏主编,电子工业出版社,2015.8(2)《大数据搜索与挖掘》张华平著,科学出版社,2014.5(3)《云计算与大数据技术》王鹏等编著.人民邮电出版社.2014.5月一、课程的性质和任务云计算和大数据正在引发全球范围内深刻的技术和商业变革,已经成为IT行业主流技术。
云计算通过分布式操作系统、虚拟化、并行计算、弹性计算、效用计算等关键技术,为大数据提供了基础物理平台,大数据是落地的云,技术涵盖了从数据的海量存储、处理到应用多方面的技术,包括数据采集、海量数据存储、非关系型数据管理、数据挖掘、数据可视化以及智能分析技术如模式识别、自然语言理解、应用知识库等。
本课程为物联网工程专业开设的一门专业基础课,主要学习云计算和大数据处理的相关原理和技术,结合核、医应用,与实际工程应用相结合,构建相应的云计算和大数据分析与应用平台。
二、教学基本要求本课程采取研讨式教学模式,教师主讲技术体系和结构原理,技术细节分为理论、实践、应用等专题,由学生自主选择专题进行自主钻研,阅读文献,搭建软件平台并实际运行,上台讲解,提交论文和实验报告,充分培养学生的自主学习和动手能力。
通过本课程学习,使学生掌握大数据的采集、传输、处理和应用的技术,了解Hadoop分布式系统基础架构,掌握HDFS和Map Reduct术。
了解HBase Hive、Zookeeper、Avro、Pig等相关大数据技术,与实际工程应用相结合,构建相应的云计算平台。
教学应当结合实际实验条件,培养学生实践动手能力,了解大数据技术发展现状,促进大数据相关教学改革。
《云计算》教材《云计算》教材第一章云计算概述1.1 云计算的定义1.2 云计算的发展历程1.3 云计算的特点1.4 云计算的分类1.4.1 公有云1.4.2 私有云1.4.3 混合云1.4.4 社交云1.5 云计算的应用领域第二章云计算架构2.1 云计算的基本架构2.2 云计算的关键技术2.2.1 虚拟化技术2.2.2 分布式计算技术2.2.3 大数据技术2.3 云计算的核心组件2.3.1 虚拟机管理器2.3.2 资源池2.3.3 服务编排和自动化管理2.4 云计算的安全性和可靠性第三章云计算服务模型3.1 基础设施即服务(IaaS)3.1.1 IaaS的定义3.1.2 IaaS的特点和优势3.1.3 IaaS的实现技术3.1.4 IaaS的应用案例3.2 平台即服务(PaaS)3.2.1 PaaS的定义3.2.2 PaaS的特点和优势3.2.3 PaaS的实现技术3.2.4 PaaS的应用案例3.3 软件即服务(SaaS)3.3.1 SaaS的定义3.3.2 SaaS的特点和优势3.3.3 SaaS的实现技术3.3.4 SaaS的应用案例第四章云计算的优势和挑战4.1 云计算的优势4.1.1 灵活性和可伸缩性4.1.2 资源池共享4.1.3 成本效益4.2 云计算的挑战4.2.1 安全和隐私问题4.2.2 管理和监控问题4.2.3 依赖供应商问题第五章云计算的法律和合规性5.1 云计算的法律法规5.2 云计算的隐私保护5.3 云计算数据的合规性要求5.4 云计算的合同和服务级别协议附件:附件1:云计算架构图附件2:云计算应用案例法律名词及注释:1、个人信息保护法:是指保护和管理个人信息,促进网络信息安全和高效运行的法律。
2、数据隐私:是指个人或组织拥有的、与个人身份相关的、非公开的信息。
3、服务级别协议:是一份协议,规定了云服务提供商与客户之间的服务质量承诺和责任。
一、大数据与云计算1.云计算是并行计算、分布式计算和网格计算的发展。
2云计算服务类型:将基础设施作为服务laas、将平台作为服务paas 、将软件作为服务saas 。
3.云计算体系结构分为四层:物理资源层、资源池层,管理中间件层,SOA(service-oriented-architecture,面向服务的体系结构)构建层。
4.云计算有更低的硬件和网络成本、更低的管理成本和电力成本,也有更高的资源利用率。
5.云计算特点:超大规模、虚拟化、高可靠性、通用性、高可伸缩性、按需服务、极其廉价二、Google云计算原理和应用Google云计算技术包括:Google文件系统GFS、分布式计算编程模型MapReduce 、分布式锁Chubby、分布式结构化数据表BigTable 、分布式存储系统Megastore 、分布式监控系统Dapper 、海量的交互式分析工具D remel ,以及内存大数据分析系统powerdrill。
2.GFS是一个大型的分布式文件系统Google File System3.GFS将文件按照固定大小进行分块,默认是64MB,每一块称为一个chunk,每一个chunk都有一个索引号。
4.GFS特点:采用中心服务器模式、不缓存数据、在用户态下实现、只提供专用接口5.master容错,Master上保存了GFS文件系统的三种元数据Name Space,文件系统目录结构、Chunk与文件名的映射表、 Chunk副本的位置信息(默认有三个副本)6.chunk server容错:GFS中的每一个文件被划分成多个Chunk,Chunk的默认大小是64MB,每个Chunk又划分为若干Block(64KB),每个Block对应一个32bit的校验和,保证数据正确。
7.系统管理技术:大规模集群安装技术、故障检测技术、节点动态加入技术节能技术8.mapreduce模型:Map函数--对一部分原始数据进行指定的操作。
刘鹏:再次感谢吕教授精彩演讲!我们刚才就是已经看到了北航在科技资源共享网里面做了大量工作,这个工作我们感觉意义非常大,因为能给做到跨单位、跨地域、跨系统的共享,不仅有数据库资源共享,有文献资源共享,还有设备资源共享,甚至有专家资源共享,等等,这样做到对于提升我国科技水平非常有意义。
但我们大学有没有注意到,吕教授对于前面做的这个工作,只有讲就是云计算,而是对今后如何应用云计算提出了设想。
这是非常客观的表达方式,与某些人愣往云计算身上凑形成了鲜明的对比。
到底什么是云计算?这是大家比较关注的一个问题。
现在我们发现了有很多种不同的说法,到底什么是云,什么不是云,让人很费解。
有人讲公有云是云,私有云不是云;还有人说支持虚拟化叫云,不支持虚拟化不叫云,但是Google 不支持虚拟化,而我们都认为Google是云;还有人讲有1000台服务器是云,999台就不是云;还有人讲会下雨的叫云,不会下雨的不是云,呵呵,开个玩笑。
现在有个别高性能计算中心,什么都没变,就是名字改成叫云计算中心啦。
为什么有那么多人要打着云计算的旗号呢?要么赚眼球,要么圈钱,有了云,就可以呼风唤雨了。
作为公众,需要鉴别哪此是真云,哪此是假云。
在这里,我提出判断是不是云计算的三条参考标准,供大家参考:第一条:用户所需的资源不在客户端而来自网络。
这是云计算的根本理念所在,即通过网络提供用户所需的计算力、存储空间、软件功能和信息服务等。
第二条:服务能力具有分钟级或秒级的伸缩能力。
这是什么意思?如果资源节点服务能力不够,但是网络流量上来,这时候需要平台在一分钟几分钟之内,自动地动态增加服务节点的数量,从100个节点扩展到150个节点。
能够之为云计算,就需要足够的资源来应对网络的尖峰流量,哪怕是突然出现了“贾君鹏”这样的热点。
过了一阵子,流量下来了,服务节点的数量再随着流量的而减少。
现在有的传统IDC说我也是云计算,因为我也能提供伸缩能力,你提出申请,5个小时之后就能给你。
⼤数据基础--⼤数据概念与应⽤(刘鹏《⼤数据》课后习题答案)1.新摩尔定律的含义是? Jim Gray提著名的“新摩尔定律”,即⼈类有史以来的数据总量,每过18个⽉翻⼀番。
2.⼤数据现象是怎么形成的? 随着存储成本的下降,云计算、硬件性价⽐以及软件技术的进步,智能设备、传感器的普及,物联⽹、⼈⼯智能的发展,数据规模急剧膨胀,各⾏业积累的数据量越来越⼤,数据类型也越来越多,越来越复杂,于是“⼤数据”应运⽽⽣。
3.⼤数据有哪些特征? (1)Volume,体量⼤。
从2013⾄2020年,⼈类的数据规模将扩⼤50倍,每年产⽣的数据将增长到44万亿GB,相当于美国国家图书馆数量的数百万倍,且每18个⽉翻⼀番。
(2)Variety,种类多。
⼤数据与传统数据相⽐,数据来源⼴、维度多、类型杂。
(3)Velocity,速度快。
随着现代感测、互联⽹、计算机技术的发展,数据⽣成、存储、分析、处理的速度远远超过⼈类的想象⼒,这也是⼤数据区别于传统数据或⼩数据的显著特征。
(4)Value,价值⾼但价值密度低。
⼤数据有巨⼤的潜在的价值,但同其呈⼏何指数爆发的增长相⽐,某⼀对象或模块数据的价值密度较低,这⽆疑给我们开发海量数据增加了难度和成本。
4.如何对⼤数据的来源进⾏分类? 我们可以从产⽣数据的主体、数据来源的⾏业、数据存储的形式三个⽅⾯对⼤数据的来源进⾏分类。
(1)按产⽣数据的主体划分 1)少量企业应⽤产⽣的数据。
2)⼤量⼈产⽣的数据。
3)巨量机器产⽣的数据。
(2)按数据来源的⾏业划分 1)以BAT为代表的互联⽹公司。
2)电信、⾦融、保险、电⼒、⽯化系统 3)公共安全、医疗、交通领域 4)⽓象、地理、政务等领域 5)制造业和其他传统⾏业 (3)按数据存储的形式划分 1)结构化数据 2)⾮结构化数据 5.常⽤⼤数据获取的途径 (1)系统⽇志采集 (2)互联⽹数据采集 (3)APP移动端数据采集 (4)与数据服务机构进⾏合作6.⼤数据处理⽅法有哪些? (1)⼤数据采集。
一、大数据与云计算
1.云计算是并行计算、分布式计算和网格计算的发展。
2云计算服务类型:将基础设施作为服务laas、将平台作为服务paas 、将软件作为服务saas 。
3.云计算体系结构分为四层:物理资源层、资源池层,管理中间件层,SOA(service-oriented-architecture,面向服务的体系结构)构建层。
4.云计算有更低的硬件和网络成本、更低的管理成本和电力成本,也有更高的资源利用率。
5.云计算特点:超大规模、虚拟化、高可靠性、通用性、高可伸缩性、按需服务、极其廉价
二、Google云计算原理和应用
Google云计算技术包括:Google文件系统GFS、分布式计算编程模型MapReduce 、分布式锁Chubby、分布式结构化数据表BigTable 、分布式存储系统Megastore 、分布式监控系统Dapper 、海量的交互式分析工具D remel ,以及内存大数据分析系统powerdrill。
2.GFS是一个大型的分布式文件系统Google
3.GFS将文件按照固定大小进行分块,默认是64MB,每一块称为一个chunk,每一个chunk都有一个索引号。
4.GFS特点:采用中心服务器模式、不缓存数据、在用户态下实现、只提供专用接口
5.master容错,Master上保存了GFS文件系统的三种元数据
Name Space,文件系统目录结构、Chunk与文件名的映射表、 Chunk副本的位置信息(默认有三个副本)
6.chunk server容错:GFS中的每一个文件被划分成多个Chunk,Chunk的默认大小是64MB,每个Chunk又划分为若干Block(64KB),每个Block对应一个32bit的校验和,保证数据正确。
7.系统管理技术:大规模集群安装技术、故障检测技术、节点动态加入技术节能技术
8.mapreduce模型:Map函数--对一部分原始数据进行指定的操作。
每个Map操作都针对不同的原始数据,因此Map与Map之间是互相独立的,这使得它们可以充分并行化。
reduce函数--操作—对每个Map所产生的一部分中间结果进行合并操作,每个Reduce所处理的Map中间结果是互不交叉的,reduce也可以在并行环境下执行。
9. MapReduce函数把输入文件分成M块,每块大概16M~64MB。
10.Chubby几个重要的特性:Chubby不支持内部文件的移动;不记录文件的最后访问时间;另外在Chubby中并没有符号连接(Symbolic Link,又叫软连接,类似于Windows系统中的快捷方式)和硬连接(Hard Link,类似于别名)的概念
11.用户打开某个节点的同时会获取一个类似于UNIX中文件描述符()的句柄,这个句柄由以下三个部分组成:
校验数位:防止其他用户创建或猜测这个句柄、序号:确定句柄由当前还是以前的主服务器创建、模式信息:用于新的主服务器重新创建一个旧句柄。
补充:Bigtable是Google开发的基于GFS和Chubby 的分布式存储系统。
12.分布式结构化数据表Bigtable 设计动机与目标:需要存储的数据种类繁多、海量的服务请求、商用数据库无法满足Google的需求。
13. Bigtable选用了Google自己开发的分布式锁服务Chubby
14.Google应用程序引擎 :Google App Engine为每个应用程序提供了一个安全运行环境,该沙盒可以保证每个应用程序能够安全的隔离运行。
第五章、hadoop2.0
1.2002年开源组织Apache成立开源搜索引擎项目Nutch,
2004年 Google三大论文, Apache实现了Nutch版的NDFS和MapReduce
2006年 NDFS和MapReduce移出Nutch,形成独立项目,称为Hadoop。
2.hadoop分布式文件系统HDFS可以部署在廉价的硬件上,能够高容错、可靠的存储
海量数据(可以达到TB甚至PB级)。
它还可以和Yarn 中的mapreduce编程模型很
好的结合,为应用程序提供高吞吐量的数据访问,适用于大数据应用程序。
3.HDFS架构:
4.HDFS内部特性:冗余备份、副本存放
副本选择
HDFS会尽量使用离程序最近的副本来满足用户请求,这样可以减少总带宽消耗和读延时。
如果在读取程序的同一个机架上有一个副本,那么就使用这个副本;如果HDFS机群跨了多个数据中心,那么读取程序将优先考虑本地数据中心的副本。
HDFS的架构支持数据均衡策略。
如果某个DataNode的剩余磁盘空间下降到一定程度,按照均衡策略,系统会自动把数据从这个DataNode移动到其他节点。
当对某个文件
有很高需求时,系统可能会启动一个计划创建该文件的新副本,并重新平衡集群中的其他数据。
4心跳检测 5数据完整性检测 6元数据磁盘失效7 简单一致性模型、流式数据访问
客户端缓存
客户端创建文件的请求不是立即到达NameNode,HDFS客户端先把数据缓存到本地的一个临时文件,程序的写操作透明地重定向到这个临时文件。
当这个临时文件累积的数据超过一个块的大小(128MB)时,客户端才会联系NameNode。
NameNode在文
件系统中插入文件名,给它分配一个数据块,这样客户端就把数据从本地的缓存刷新
到指定的数据块中。
当文件关闭后,临时文件中剩余的未刷新数据也会被传输到DataNode中,然后客户端告诉NameNode文件已关闭,此时NameNode才将文件创
建操作写入日志进行存储。
如果NameNode在文件关闭之前死机,那么文件将会丢失。
如果不采用客户端缓存,网络速度和拥塞都会对输出产生很大的影响。
流水线复制。