云计算基础知识归纳
- 格式:doc
- 大小:225.50 KB
- 文档页数:6
云计算基础知识目录1. 提纲 (3)2. 云计算概念 (3)3. 云计算简史 (3)4. 云计算的三种服务模式 (5)5. 云计算平台架构 (5)6. 云计算特征 (6)7. 桌面云(桌面虚拟化) (8)8. 传统的IT设施与桌面云部署的对比 (10)1.提纲云计算概念云计算简史云计算的三种服务模式云计算平台架构云计算特征桌面云(桌面虚拟化)传统的IT设施与桌面云部署的对比云计算的现状2.云计算概念云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。
狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。
云计算(Cloud Computing)是网格计算(Grid Computing )、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
3.云计算简史著名的美国计算机科学家、图灵奖(Turing Award) 得主麦卡锡(John McCarthy,1927-) 在半个世纪前就曾思考过这个问题。
1961 年,他在麻省理工学院(MIT) 的百年纪念活动中做了一个演讲。
在那次演讲中,他提出了象使用其它资源一样使用计算资源的想法,这就是时下IT 界的时髦术语“云计算” (Cloud Computing) 的核心想法。
云计算中的这个“云” 字虽然是后人所用的词汇,但却颇有历史渊源。
早年的电信技术人员在画电话网络的示意图时,一涉及到不必交待细节的部分,就会画一团“云” 来搪塞。
云计算基础知识汇总
一、云计算概念
云计算是一种技术,其目的是使用虚拟计算资源和软件服务来满足用
户的计算要求。
它把计算、存储、网络资源放入大规模的网络环境中,使
用户可以自由地访问这些资源以支持应用程序或企业服务。
云计算的核心理念是分散式计算,它分散了数据和资源,使企业可以
将自己的计算需求分散到其他机构或组织,节省成本、提高可靠性和提高
应用的可伸缩性,更加有效地对应用程序的业务发展规模和需求。
二、云计算架构
云计算架构主要包括计算节点、存储节点、网络节点和可编程接口等。
计算节点是云计算的核心,它是云环境中负责计算的服务节点,建立在物
理服务器上,并协调从其他计算节点发来的任务。
存储节点负责处理云计
算环境中数据的存储,它提供存储服务,可以将各种文件、图片、视频等
存储在存储节点中。
网络节点用于控制数据的流量和传输,负责路由控制、网络安全和IP地址管理等功能。
可编程接口是允许第三方开发人员,可
以使用提供的API,访问云环境中的资源,从而可以更好的利用云计算的
技术。
三、云计算服务类型
云计算提供了多种服务类型。
云网融合知识点总结高中一、云计算基础知识1. 云计算是什么?- 云计算是一种将计算资源、网络资源、存储资源等通过互联网等方式进行动态分配和共享的新型计算模式。
- 云计算主要有三种部署模式:公有云、私有云和混合云。
2. 云计算的特点- 弹性伸缩:根据业务需求自由调整资源,提高了资源利用率。
- 按需付费:按照使用量来支付费用,节省了资金投入。
- 自动化管理:云计算平台可以通过自动化管理实现资源的动态分配和调度。
3. 云计算的服务模式- IaaS(基础设施即服务):提供虚拟化的计算资源、存储资源和网络资源。
- PaaS(平台即服务):提供软件开发、测试、部署和运行的平台环境。
- SaaS(软件即服务):通过互联网方式提供软件应用服务。
4. 云计算的发展趋势- 多云时代:企业逐渐采用多个云计算平台,形成多云架构。
- 边缘计算:将计算资源和数据存储推到离数据生成源最近的地方,缩短响应时间和减少带宽压力。
- 云原生:基于容器、微服务和自动化运维的应用架构和开发方式。
二、网络基础知识1. 网络的基本概念- OSI模型:开放系统互联模型,共分为七层,每一层负责不同的功能。
- TCP/IP协议套件:是互联网通信的核心协议,包含多个协议组成,如IP、TCP、UDP、HTTP等。
2. IP地址的分类- IPv4地址:采用32位二进制表示,共分为A、B、C、D、E五类。
- IPv6地址:采用128位二进制表示,用于解决IPv4地址不足的问题。
3. 网络设备- 路由器:用于在不同网络之间进行数据包的转发和交换。
- 交换机:用于在局域网内进行数据包的转发和交换。
- 防火墙:用于监视和控制网络入侵和数据流量。
4. 网络协议- HTTP协议:超文本传输协议,用于在客户端和服务器之间传输超文本。
- FTP协议:文件传输协议,用于在客户端和服务器之间完成文件传输。
- SMTP协议:简单邮件传输协议,用于在邮件服务器之间传输邮件。
三、云计算与网络融合1. 云计算与网络融合的意义- 提高服务效率:云计算平台可以提供高效的计算资源和网络资源。
1 云计算的计算模式为(B/C )。
2( 分布式)是公有云计算基础架构的基石。
3(虚拟化)是私有云计算基础架构的基石.4(并行计算)是一群同构处理单元的集合,这些处理单元通过通信和协作来更快地解决大规模计算问题5(集群)在许多情况下,能够达到99。
999%的可用性.6 网格计算是利用(因特网)技术,把分散在不同地理位置的计算机组成一台虚拟超级计算机。
7 B/S网站是一种(3层架构)的计算模式。
8 云计算就是把计算资源都放到上( 因特网)。
9(云用户端)提供云用户请求服务的交互界面,也是用户使用云的入口,用户通过Web浏览器可以注册、登录及定制服务、配置和管理用户.打开应用实例与本地操作桌面系统一样.10(服务目录)帮助云用户在取得相应权限(付费或其他限制)后可以选择或定制的服务列表,也可以对已有服务进行退订的操作,在云用户端界面生成相应的图标或列表的形式展示相关的服务.11( 管理系统和部署工具)提供管理和服务,能管理云用户,能对用户授权、认证、登录进行管理,并可以管理可用计算资源和服务,接收用户发送的请求,根据用户请求并转发到相应的相应程序,调度资源智能地部署资源和应用,动态地部署、配置和回收资源。
12( 监控端)监控和计量云系统资源的使用情况,以便做出迅速反应,完成节点同步配置、负载均衡配置和资源监控,确保资源能顺利分配给合适的用户。
13(服务器集群)提供虚拟的或物理的服务器,由管理系统管理,负责高并发量的用户请求处理、大运算量计算处理、用户Web应用服务,云数据存储时采用相应数据切割算法采用并行方式上传和下载大容量数据.14用户可通过( 云用户端)从列表中选择所需的服务,其请求通过管理系统调度相应的资源,并通过部署工具分发请求、配置Web应用.15 在云计算技术中,(中间件)位于服务和服务器集群之间,提供管理和服务即云计算体系结构中的管理系统。
16虚拟化资源指一些可以实现一定操作具有一定功能,但其本身是(虚拟)的资源,如计算池,存储池和网络池、数据库资源等,通过软件技术来实现相关的虚拟化功能包括虚拟环境、虚拟系统、虚拟平台。
第一讲:云计算概述1 什么是云计算?云计算是一种能够将动态伸缩的虚拟化资源通过互联网以服务的方式提供给用户的计算模式。
根据云提供的服务类型,可以划分为基础设施云、平台云、应用云。
根据云的服务方式,可以划分为公有云、私有云、混合云。
2 云计算的优势?○1优化产业布局–成本关键由硬件成本转为电力成本、散热成本–分散的、高能耗模式转变为集中的、资源友好的模式–自给自足资源作坊转变为规模效应的工业化资源工厂○2推进专业分工–专业的大型云计算厂商–实力雄厚的科研技术团队推动硬件技术革新–具有丰富知识和经验的维护管理团队和配套软件–产业链中的新产业契机○3提升资源利用率–更加高效的解决常规业务–更好的应对突发任务或事件–更加平衡的资源分配和负载○4减少初期投资–更少的IT基础设施投入–更少的软件投入–更少的人力投入–更短的培训周期–更灵活的转型支持○5降低管理开销–服务化管理–无需自己建立维护管理团队–随需应变的解决方案–知识、经验更加丰富的管理队伍–通过业务模块的可配置提高系统的灵活性3 云计算的动因?○1芯片与硬件技术–硬件能力的激增、成本的大幅下降,使得独立运作的公司集中客观的硬件能力实现规模效益成为可能○2资源虚拟化–资源在云端,需要被统一的管理–异构硬件、兼容性问题–虚拟化技术○3应用需求○3面向服务的架构SOA–开放式数据模型–统一通信标准–更加丰富的服务–更加松散耦合、灵活的IT架构–转变了人们对IT系统的认识○4软件即服务SaaS–转变了人们使用服务的方式–使得终端用户熟悉服务的交互模式–改变了IT界的商业模式–实力雄厚的大公司负责基础设施,小企业通过创新挖掘充满潜力的市场–“长尾理论”○5互联网技术–基础设施–多种接入方式–更加广阔的覆盖–带宽和可靠性得到大幅提升–使得IT新模式的稳定性、可靠性、安全性、可用性、灵活性、可管理性、自动化程度、节能环保等得到保障○6Web2.0技术–用户从信息的获得者变成信息的贡献者–博客(微博)、内容聚合、百科全书(Wiki)、社交网络、对等网络(P2P)–富互联网应用(Rich Internet Application)成为网络应用发展的趋势–改变了人们的生活方式–为云计算提出了内在需求4 查找资料:业界主流的云计算产品典型的云计算应用补充:1 云计算特征是什么?○1硬件和软件都是资源○2资源可以根据需要进行动态扩展与配置○3按用计费、无需管理○4物理上分布式共享,逻辑上以单一整体呈现2 云计算的发展历程?○1超级计算机○2集群计算○3分布式计算○4网格计算○5效用计算○6云计算第二讲:云服务1云服务的基本层次?云计算的基本层次分为三层,依次为IaaS, PaaS和SaaS。
云计算基础知识归纳1. 什么是云计算?- 定义:云计算指的是通过网络提供各种IT资源和服务,包括但不限于服务器、存储空间、数据库等。
- 特点:弹性伸缩:根据需求自动调整资源规模。
按需付费:按照实际使用量支付费用。
高可靠性与容错能力。
2. 云计算的三个层次a) 基础设施即服务(IaaS):提供虚拟化的物理基础设施,如服务器、存储和网络。
用户可以在此基础上构建自己需要的环境,并管理操作系统及应用程序。
b) 平台即服务(PaaS):在IaaS之上提供了更高级别的抽象,在这一层面上开发者只关注应用程序本身而无须考虑底层架构细节。
c) 软件即服务(SaaS):用户直接访问由第三方提供商托管在远程数据中心中运行并且以租赁方式交付给客户端软件或功能组合, 如电子邮件,CRM等.3. 主要优势- 灵活度: 可快速适应业务变化,弹性伸缩资源。
- 成本效益: 按需付费避免了高额的硬件和软件投资成本。
- 可靠性与容错能力:云计算提供商通常拥有多个数据中心,并采取备份、冗余等措施来确保服务可用性。
4. 云计算部署模型a) 公共云:提供给公众使用的基于标准技术构建而成的IT资源。
用户可以通过网络订购并按照实际使用量支付费用。
b) 私有云:基于企业内部或第三方托管环境搭建,在私人网络上运行且仅对特定组织开放。
更适合需要更高安全级别以及自定义配置要求较高场景.c) 混合云:结合公共和私有两种形式, 实现不同应用在最佳平台上执行5. 主要挑战- 安全问题:包括数据隐私、身份认证等风险;- 数据迁移困难:将大规模数据从传统架构转移到新系统可能面临一些技术限制;- 高度依赖稳定的网络连接;6. 法律名词及注释:a)《信息安全技术个人信息安全规范》:中华人民共和国工业和信息化部发布的关于个人信息保护方面的法律标准。
b)《网络安全法》: 中华人民共和国立法机构制定并颁布,旨在加强对网络空间活动及相关数据、系统等进行监管与管理。
c) 《云计算服务合同示范文本(试行)》:由中国电子商务协会起草,并得到了多家知名企事业单位以及专家学者的支持,用来指导用户签订云计算服务合同时参考使用.附件:1. 详细介绍各种类型云计算提供商2. 安全性措施建议。
云计算必学知识点总结云计算是一种基于互联网的计算模式,通过它可以提供各种资源的服务,包括存储、计算、网络等。
在云计算的背后,有许多基本概念和技术,它们构成了云计算的基础。
本文将对云计算必学的知识点进行总结,包括云计算的基本概念、云计算的模型与服务类型、云计算的技术原理以及云计算的安全性等方面的内容。
一、云计算的基本概念1. 云计算的定义云计算是一种计算模式,通过它可以提供各种资源的服务,包括存储、计算、网络等。
它可以提供弹性的资源和按需付费的服务,用户可以通过互联网访问这些资源。
云计算是一种新型的计算模式,它不仅改变了传统计算方式,还带来了新的商业模式。
2. 云计算的优势云计算具有许多优势,包括高可用性、弹性、按需付费、灵活性等。
它可以为用户提供弹性的资源,用户可以根据实际需求来使用资源,无需提前购买硬件设备。
同时,云计算还可以提供高可用性的服务,即使出现故障,也能保证服务的可用性。
另外,云计算还具有按需付费的特点,用户可以根据实际使用情况来付费,无需提前投入大量的资金。
3. 云计算的发展趋势云计算在近年来得到了迅速的发展,并在各个领域得到了广泛的应用。
未来,云计算将继续向着智能化、自动化、标准化等方向发展,同时,云计算还将与其他新兴技术相结合,如人工智能、大数据、区块链等,共同推动数字化转型。
二、云计算的模型与服务类型1. 云计算的部署模型云计算的部署模型包括公有云、私有云、混合云和社区云。
公有云是由云服务提供商提供给大众使用的云计算服务。
私有云是由一家组织或企业专门建立用于自身的私有云计算环境。
混合云是公有云和私有云结合的一种部署模型。
社区云是一种由一群相关的组织或企业共同使用的云计算环境。
2. 云计算的服务类型云计算的服务类型包括基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。
IaaS提供虚拟化的计算资源、存储资源和网络资源。
PaaS提供开发、测试、部署和管理应用程序的平台。
云计算基础知识云计算是指通过网络将计算资源、软件、数据存储等服务按需提供给用户,使其能够随时随地访问并使用这些服务的一种计算模式。
它是一种基于互联网的技术,能够实现资源共享、灵活扩展和快速部署等特点,被广泛应用于各个行业和领域。
一、云计算的概念和特点云计算的概念最早由Google与IBM等公司提出,其核心理念是资源共享和按需使用。
云计算具有以下几个特点:1. 弹性扩展:云计算平台可以根据用户的需求,动态分配和释放计算资源,实现按需扩展和收缩,以满足不同规模和负载的应用需求。
2. 虚拟化技术:云计算基于虚拟化技术,通过将物理资源抽象为虚拟资源,实现资源的池化管理和灵活分配,提高资源利用率和整体性能。
3. 高可用性:云计算基础设施通常采用分布式架构和冗余设计,以提高系统的可用性和容灾能力,保障用户业务的连续性和稳定性。
4. 自助服务:用户可以通过自助服务门户,实现对计算资源、网络配置、存储空间等的自主管理和控制,提高用户的灵活性和便捷性。
二、云计算的服务模型云计算按照服务的不同层次可划分为三种服务模型:基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。
1. 基础设施即服务(IaaS):IaaS提供基础的计算资源,包括虚拟机、存储空间和网络资源等,用户可以根据需要自由配置和管理这些资源。
常见的IaaS提供商有亚马逊AWS和微软Azure等。
2. 平台即服务(PaaS):PaaS提供更高级别的服务,除了计算资源外,还提供开发工具、数据库和中间件等服务,用户可以在此基础上开发、运行和管理应用程序。
著名的PaaS平台包括谷歌App Engine和微软Azure App Service等。
3. 软件即服务(SaaS):SaaS是最高层次的云服务模式,用户无需关心底层的基础设施和平台,只需通过订阅方式使用云上的应用程序。
例如,使用云存储、在线邮件和在线办公软件等。
三、云计算的部署模式云计算的部署模式可分为公有云、私有云、混合云和多云环境。
云计算需要掌握的知识
一、云计算的基础理论知识:
1. 虚拟化技术:虚拟化技术最常用的是硬件虚拟化技术,其功能是建立一种让宿主服务器上可以安装多个虚拟操作系统的技术。
2. 计算服务:包括计算密集型、内存密集型和IO密集型,其用于完成各种大规模复杂应用程序。
3. 存储技术:可以提供可靠性强、容量大、成本低廉、性能高的存储服务,可以根据客户需求提供各种类型的存储服务。
4. 网络技术:云计算的网络技术主要是提供快速稳定的网络连接和数据传输,确保客户的网络服务以及各种应用程序的运行速度。
二、云计算实践知识:
1. 设计架构:基于业务需求设计云架构,需要考虑计算资源与存储资源的动态变化。
2. 安全和防御:为云环境提供授权机制,防止未经允许访问;为数据传输过程提供基线防御服务,以及网络安全技术来防止数据泄漏。
3. 数据中心管理:数据中心的管理需要支持云管控,以及资源配置、维护和监控,并支持用户隔离和权限管理。
4. 运维管理:运维管理提供资源管理、容量管理、资源分配、备份和运维等管理软件,以维护和优化云计算系统的可用性和性能。
由于云计算分为IaaS、PaaS和SaaS三种类型,不同的厂家又提供了不同的解决方案,目前还没有一个统一的技术体系结构,对读者了解云计算的原理构成了障碍。
为此,本文综合不同厂家的方案,构造了一个供商榷的云计算体系结构。
这个体系结构如图3所示,它概括了不同解决方案的主要特征,每一种方案或许只实现了其中部分功能,或许也还有部分相对次要功能尚未概括进来。
图3 云计算技术体系结构云计算技术体系结构分为4层:物理资源层、资源池层、管理中间件层和SOA构建层,如图3所示。
物理资源层包括计算机、存储器、网络设施、数据库和软件等;资源池层是将大量相同类型的资源构成同构或接近同构的资源池,如计算资源池、数据资源池等。
构建资源池更多是物理资源的集成和管理工作,例如研究在一个标准集装箱的空间如何装下2000个服务器、解决散热和故障节点替换的问题并降低能耗;管理中间件负责对云计算的资源进行管理,并对众多应用任务进行调度,使资源能够高效、安全地为应用提供服务;SOA构建层将云计算能力封装成标准的Web Services服务,并纳入到SOA体系进行管理和使用,包括服务注册、查找、访问和构建服务工作流等。
管理中间件和资源池层是云计算技术的最关键部分,SOA构建层的功能更多依靠外部设施提供。
云计算的管理中间件负责资源管理、任务管理、用户管理和安全管理等工作。
资源管理负责均衡地使用云资源节点,检测节点的故障并试图恢复或屏蔽之,并对资源的使用情况进行监视统计;任务管理负责执行用户或应用提交的任务,包括完成用户任务映象(Image)的部署和管理、任务调度、任务执行、任务生命期管理等等;用户管理是实现云计算商业模式的一个必不可少的环节,包括提供用户交互接口、管理和识别用户身份、创建用户程序的执行环境、对用户的使用进行计费等;安全管理保障云计算设施的整体安全,包括身份认证、访问授权、综合防护和安全审计等。
基于上述体系结构,本文以IaaS云计算为例,简述云计算的实现机制,如图4所示。
用户交互接口向应用以Web Services方式提供访问接口,获取用户需求。
服务目录是用户可以访问的服务清单。
系统管理模块负责管理和分配所有可用的资源,其核心是负载均衡。
配置工具负责在分配的节点上准备任务运行环境。
监视统计模块负责监视节点的运行状态,并完成用户使用节点情况的统计。
执行过程并不复杂:用户交互接口允许用户从目录中选取并调用一个服务。
该请求传递给系统管理模块后,它将为用户分配恰当的资源,然后调用配置工具来为用户准备运行环境。
Hadoop HDFS特性简介一、设计思想1、硬件失效是“常态事件“,而非“偶然事件”。
HDFS可能是有上千的机器组成(文档中描述的Yahoo!一个Hadoop集群有4096个节点),任何一个组件都有可能一直失效,因此数据的健壮性错误检测和快速、自动的恢复是HDFS的核心架构目标。
2、流式数据访问。
运行在HDFS上的应用和普通的应用不同,需要流式访问它们的数据集。
HDFS的设计中更多的考虑到了数据批处理,而不是用户交互处理。
比之数据访问的低延迟问题,更关键的在于数据并发访问的高吞吐量。
POSIX标准设置的很多硬性约束对HDFS应用系统不是必需的。
为了提高数据的吞吐量,在一些关键方面对 POSIX的语义做了一些修改。
3、 HDFS应用对文件要求的是write-one-read-many访问模型。
一个文件经过创建、写,关闭之后就不需要改变。
这一假设简化了数据一致性问题,使高吞吐量的数据访问成为可能。
典型的如MapReduce框架,或者一个web crawler应用都很适合这个模型。
4、移动计算的代价比之移动数据的代价低。
一个应用请求的计算,离它操作的数据越近就越高效,这在数据达到海量级别的时候更是如此。
将计算移动到数据附近,比之将数据移动到应用所在显然更好,HDFS提供给应用这样的接口。
5、在异构的软硬件平台间的可移植性。
二、Namenode和Datanode的划分一个HDFS集群有一个Namenode和一定数目的Datanode组成。
Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。
Datanode在集群中会有多个,一般是一个节点存在一个,负责管理其自身节点上它们附带的存储。
在内部,一个大文件其分成一个或多个block,这些block存储在Datanode集合里。
Namenode执行文件系统的namespace相关操作,例如打开、关闭、重命名文件和目录,同时决定了block到具体Datanode节点的映射。
Datanode在Namenode的指挥下进行block 的创建、删除和复制。
单一节点的Namenode大大简化了系统的架构。
Namenode负责保管和管理所有的HDFS元数据,因而在请求Namenode得到文件的位置后就不需要通过Namenode参与而直接从Datanode 进行。
为了提高Namenode的性能,所有文件的namespace数据都在内存中维护,所以就天生存在了由于内存大小的限制导致一个HDFS集群的提供服务的文件数量的上限。
根据目前的文档,一个元数据(一个HDFS文件块儿)占用200Bytes,如果是页面抓取的小文件,那么32GB内存能承载1.5亿左右的文件存储(有待精确详细测试)。
三、文件系统操作和namespace的关系HDFS支持传统的层次型文件组织,与大多数其他文件系统类似,用户可以创建目录,并在其间创建、删除、移动和重命名文件。
HDFS不支持user quotas和访问权限,也不支持链接(link),不过当前的架构并不排除实现这些特性。
Namenode维护文件系统的namespace,任何对文件系统namespace和文件属性的修改都将被Namenode记录下来。
应用可以设置HDFS保存的文件的副本数目,文件副本的数目称为文件的 replication因子,这个信息也是由Namenode保存。
四、数据复制HDFS被设计成在一个大集群中可以跨机器地可靠地存储海量的文件。
它将每个文件存储成block序列,除了最后一个block,所有的block都是同样的大小。
文件的所有block为了容错都会被复制。
每个文件的block大小和replication因子都是可配置的。
Replication 因子可以在文件创建的时候配置,以后也可以改变。
HDFS中的文件是write-one,并且严格要求在任何时候只有一个writer。
Namenode全权管理block的复制,它周期性地从集群中的每个Datanode接收心跳包和一个Blockreport。
心跳包的接收表示该Datanode节点正常工作,而Blockreport包括了该Datanode上所有的block组成的列表。
1、副本的存放,副本的存放是HDFS可靠性和性能的关键。
庞大的HDFS实例一般运行在多个机架的计算机形成的集群上,不同机架间的两台机器的通讯需要通过交换机,显然通常情况下,同一个机架内的两个节点间的带宽会比不同机架间的两台机器的带宽大。
在大多数情况下,replication因子是3,HDFS的存放策略是将一个副本存放在本地机架上的节点,一个副本放在同一机架上的另一个节点,最后一个副本放在不同机架上的一个节点。
机架的错误远远比节点的错误少,这个策略不会影响到数据的可靠性和有效性。
三分之一的副本在一个节点上,三分之二在一个机架上,其他保存在剩下的机架中,这一策略改进了写的性能。
2、副本的选择,为了降低整体的带宽消耗和读延时,HDFS会尽量让reader读最近的副本。
如果在reader的同一个机架上有一个副本,那么就读该副本。
如果一个HDFS集群跨越多个数据中心,那么reader也将首先尝试读本地数据中心的副本。
3、SafeModeNamenode启动后会进入一个称为SafeMode的特殊状态,处在这个状态的Namenode是不会进行数据块的复制的。
Namenode从所有的 Datanode接收心跳包和Blockreport。
Blockreport包括了某个Datanode所有的数据块列表。
每个block都有指定的最小数目的副本。
当Namenode检测确认某个Datanode的数据块副本的最小数目,那么该Datanode就会被认为是安全的;如果一定百分比(这个参数可配置)的数据块检测确认是安全的,那么Namenode将退出SafeMode状态,接下来它会确定还有哪些数据块的副本没有达到指定数目,并将这些block复制到其他Datanode。
五、文件系统元数据的持久化Namenode存储HDFS的元数据。
对于任何对文件元数据产生修改的操作,Namenode都使用一个称为Editlog的事务日志记录下来。
例如,在HDFS中创建一个文件,Namenode就会在Editlog中插入一条记录来表示;同样,修改文件的replication因子也将往 Editlog插入一条记录。
Namenode在本地OS的文件系统中存储这个Editlog。
整个文件系统的namespace,包括block到文件的映射、文件的属性,都存储在称为FsImage的文件中,这个文件也是放在Namenode所在系统的文件系统上。
Namenode在内存中保存着整个文件系统namespace和文件Blockmap的映像。
这个关键的元数据设计得很紧凑,一般为200Bytes的内存占用,因而一个带有4G内存的 Namenode足够支撑海量的文件和目录。
当Namenode启动时,它从硬盘中读取Editlog和FsImage,将所有Editlog中的事务作用(apply)在内存中的FsImage ,并将这个新版本的FsImage从内存中flush到硬盘上,然后再truncate这个旧的Editlog,因为这个旧的Editlog的事务都已经作用在FsImage上了。
这个过程称为checkpoint。
在当前实现中,checkpoint只发生在Namenode启动时,在不久的将来我们将实现支持周期性的checkpoint。
Datanode并不知道关于文件的任何东西,除了将文件中的数据保存在本地的文件系统上。
它把每个HDFS数据块存储在本地文件系统上隔离的文件中。
Datanode并不在同一个目录创建所有的文件,相反,它用启发式地方法来确定每个目录的最佳文件数目,并且在适当的时候创建子目录。
在同一个目录创建所有的文件不是最优的选择,因为本地文件系统可能无法高效地在单一目录中支持大量的文件。
当一个Datanode启动时,它扫描本地文件系统,对这些本地文件产生相应的一个所有HDFS数据块的列表,然后发送报告到Namenode,这个报告就是Blockreport。