谷歌三大核心技术
- 格式:doc
- 大小:693.00 KB
- 文档页数:86
陆奇最新演讲审定版大模型带来的新范式和新机会奇绩创坛创始人兼CEO陆奇。
“在大模型技术高速发展的时代,一个重要的趋势是:我们每一个人,除非你有独特的见解、独特的认知、独特的问题解决能力,否则你能做的,大模型都可以做到。
”奇绩创坛创始人兼CEO陆奇认为,“人的脑力劳动将以形成非常独到的见解和发展独特的认知能力为主。
这个时代的典型职业将是创业者、科学家和艺术家。
”5月7日,在奇绩创坛举办的以《新范式新时代新机会》为主题的分享活动中,陆奇详细分析了OpenAI的组织结构革新,本次范式变化的本质,及其带来的新时代特征,最后系统性分析了我们该如何把握好这个时代带来的机会。
第一部分:新范式当前,我们正面临一场非常大的技术变革,这是一场范式的变革,它展现出了一个全新的范式。
每次范式变革都带来更多的机遇和挑战,因为它既要改变人们做事的方式,也要改变人们的思考方式。
这一次,范式的变革影响更广、更深、更全面。
从数字化产业发展维度看新范式从产业发展的维度来分析,这一次范式的变更带来了哪些影响?“三位一体”是我们分析这次范式变革所用的稳定的内在结构体系,它包括:1. 信息子系统(subsystem of information),体系必须从环境中获得信息。
2. 模型子系统(subsystem of model),用模型对信息进行表达。
它必须充分有效地表达信息,这种表达方式让它可以做推理、做分析、做规划。
3. 行动子系统(subsystem of action) ,根据推理和规划与环境互动,来达到这个复杂体系的目的。
第一个拐点:信息变得无处不在在信息子系统这条线上有大量的公司,包括IBM、微软,1995年至1996年间出现了一个大的拐点。
这个拐点之后,信息系统呈爆发式增长,诞生了许多伟大的企业,如谷歌、苹果、亚马逊等,世界因此而改变。
为什么会有这个拐点?它背后的机制是什么?信息系统的拐点,是信息的生产和获取成本从边际成本转向固定成本。
波特五力模型分析外部环境:谷歌:1)购买者:主要是广告商。
Google收入的几乎全部来自于在线广告收入。
由于行业竞争加剧及其他原因,购买者讨价还价能力呈加强趋势。
2)供应商:主要是Google的硬件提供商。
Google的主要领域为软件及相关领域,在计算机硬件设施及网络设备上依赖供应商的硬件支持。
并受制于微软的windows等操作系统。
3)潜在竞争者:由于互联网的高速发展及对未来经济举足轻重的作用,互联网行业的潜在竞争者众多。
硅谷的铁律:小心那些车库里的人。
4)替代品:twitter等社交网站,5)现有竞争:以微软为代表的众多高科技企业和传统企业1.行业竞争者分析百度百度是google在中国最大的竞争对手,是全球最大的中文搜索引擎,2000年1月由李彦宏、徐勇两人创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。
目前在中国的市场份额占83%左右,是第一个推出靠点击次数收取费用的引擎服务商,其竞价排名的模式在国内范围内还是非常成功的,其在中午搜索行业的领导者地位,暂时无法被撼动。
作为全球最大的中文搜索引擎,百度凭借强大的网民搜索数据库,能够迅速清晰地洞察网民消费意愿和消费形态,成为中国“最懂消费者”的ROI媒体平台。
搜狗由搜狐与阿里巴巴(HK:01688)合资成立,中国互联网本土创新的典范,旗下拥有国内用户量最大的搜狗输入法等客户端产品,是国内仅有的兼具客户端和搜索核心研发能力的互联网公司。
围绕输入法、浏览器、搜索这三大互联网最基础的应用,搜狗凭借具有前瞻性的技术趋势把握和敏锐的市场嗅觉,已完成了初步整合,成为中文互联网领域最具发展潜力的公司之一。
搜狗凭借搜狐拼音输入法70%以上的市场份额成功提高其品牌粘性,并直接威胁谷歌拼音输入法,07年和谷歌关于抄袭的官司胜诉更是给了谷歌一个下马威腾讯搜搜是腾讯旗下的搜索网站,是腾讯主要的业务单元之一。
网站于2006年3月正式发soso布并开始运营。
■ 文/曹祎遐 胡 坤5G 为云游戏行业带来机遇,但并不是万能的5G 为云游戏行业的发展提供了强大助力,但并不能解决云游戏行业面临的所有问题,需要多方合力才能突破行业现在的瓶颈。
视野VISION 评论 REVIEW近期,随着5G 带来的技术优势,云游戏行业逐渐变得火热起来,许多大厂商都已提前进入这个行业抢占先机。
2019年2月,腾讯公司与英特尔公司联手推出云游戏平台“腾讯即玩”。
在运行《怪物猎人》时,可在视频显示格式为1080 P 每秒50~60帧画面品质时,操作延时低于40ms。
同年6月,网易公司与华为公司合作,成立了云游戏实验室。
目前,已有《阴阳师》《光遇》等热门游戏在网易云游戏平台上线。
值得注意的是,5G 的高宽带与低时延固然在计算能力与游戏体验等方面发挥了重要作用,但并不是万能的,云游戏行业的发展还需要整个产业链共同协作,只有成本控制与原创内容方面有了新的突破才能真正实现其蓬勃发展。
认识云游戏所谓云游戏,是指游戏在云端服务器上运行,并将渲染完毕的游戏画面或指令压缩后通过网络传送给玩家,玩家再通过输入设备进行操控指令的上传,实现内容的交互。
从云游戏的概念中可以看到,云游戏具有以下4个方面的优点。
第一,玩家无须购买硬件,更无须换代,降低了入门成本。
整个游戏业的硬件成本也降低了,所有硬件集中在运营商手里,避免了设备闲置。
云游戏的计算全部在云端服务器上进行,对个人游戏设备配置要求大幅度降低。
在游戏《孤岛危机》刚推出之时,该游戏出色的表现以及高质量的游戏画面让市面上的主流显卡为之一颤,就算当年英伟达公司的旗舰显卡8800 GTX 在该游戏面前也力不从心。
玩家们发现,主流显卡竟然无法流畅运行这款游戏。
后来,Onlive 云游戏平台可以流畅运行该游戏,玩家无须再额外购买价格昂贵的显卡。
第二,游戏厂商在研发游戏过程中也无须过多考虑游戏下载包的容量问题。
游戏开发商可以专注于提升游戏品质,而不用担心玩家的设备不能负担。
密码知识与技术管理商用密码管理办公室技术管理处处长谢永泉在生活中,密码已经被赋予了多重含义,例如“藏地密码”背后的唐代文明与藏獒智慧,“达芬奇密码”指向的巨额财富等。
在密码学意义上,密码是指按约定规则,为隐藏消息原形而生成的一组具有随机特性的特定符号。
而密码学是指研究密码与密码活动本质和规律,指导密码实践科学,主要探索密码编制、密码破译以及密码管理的一般规律的一门科学。
密码学是结合数学、计算机科学、电子与通信、物理、生物等诸多学科于一身的交叉学科,发源并兴起于外交和军事,目前已经走向公开,它不仅具有保证信息机密性的信息加密功能,而且具有数字签名、身份鉴别、秘密分存等功能,使用密码技术不仅可以保证信息的机密性,而且可以保证信息的完整性和确定性,防止信息被篡改、伪造和假冒。
密码技术、核技术和航天技术并称为国家安全的三大支撑技术,其中密码技术又称为信息安全的核心技术,广泛应用于国民经济各领域,在保障重要经济信息系统安全、维护国家网络空间安全中起着不可替代的作用。
例如:电子商务中采用密码技术对交易双方的身份进行识别,预防“钓鱼”网站的欺诈行为,大大降低了安全风险。
2013年6月,美国斯诺登爆料代号为“棱镜”的秘密监控项目,2007年开始,美国国家安全局和联邦调查局从思科、微软、雅虎、谷歌、Skype、Ytube、苹果9家公司的服务器中监控互联网活动,秘密收集电话记录,其中我国成为侦听重点,严重威胁我国国家安全,其在定位及通信中也广泛采用了密码技术。
推广自主密码技术,保障国家信息安全,维护国家利益必要而急迫。
按照会议安排,下面我介绍一下密码理论学习和技术管理工作的了解、积累的一些情况。
主要是密码算法、密码行业标准和技术管理要点解析,供大家参考。
一、密码技术是保障国家信息安全的核心技术1.关于商用密码。
为满足国民经济发展对密码的应用需求,1993年党中央确定发展商用密码,称为“商用密码”,主要是为了与党、政、军所使用的密码进行区别,商用密码的定位是“对不涉及国家秘密内容的信息进行加密保护或者安全认证”。
1.什么是搜索引擎搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
搜索引擎,又称搜索机,Web搜索器,是一种用于帮助Internet用户在互联网上查询信息的搜索工具。
它以一定的策略在Internet中发现、搜集信息,并对搜集的信息进行加工整理和组织存贮,为用户提供检索服务。
从而起到信息导航的作用。
搜索引擎面向开放的国际互联网,采用超链接方式建立起索引数据库与网上信息的关联,。
在交互的过程中进行信息浏览和自由词检索。
超链接、自动搜索、自动标引和自动索引是搜索引擎的核心技术。
2.搜索引擎工作原理搜索引擎的工作包括如下三个过程:一是在互联网中发现、搜集网页信息;二是对所搜集的信息进行提取和组织,并建立索引库;三是由检索程序根据用户输入的查询关键词,在索引库中快速检出相关文档,进行文档与查询内容的相关度比较,对检出的结果进行排序,并将查询结果返回给用户。
主要功能有:(1)布尔逻辑操作符使用;(2)截词检索;(3)限制检索;(4)区分大小写检索;(5)加减检索;(6)概念检索;(7)结果过滤;(8)语句检索;(9)智能化检索。
其他对搜索结果及结果显示有影响的一些功能还有:检索提问的修改与限制,按相关度排列结果,检索与浏览功能,检索结果翻译与多语种检索。
以上语法规则大多是在各种搜索引擎之间通用的,具体到每一个搜索引擎,则有不同的功能和特点。
因此,用户应仔细阅读有关的使用说明,结合实际情况灵活运用。
3.搜索引擎的类型(1)按搜索机制划分为:目录型、关键词型和混合型。
目录型搜索引擎是把搜索到的信息资源,按照一定的主题进行分门别类建立目录,大目录下面包含子目录,子目录下面包含子子目录⋯⋯如此下去,建立一层层具有包含关系的目录。
新技术·新产品TECHNOLOGY AND PRODUCTS展示技术产品优势 展现行业发展趋势编者按:栏目以杂志理事会会员单位的核心技术与产品展示为主,以图文并茂的形式充分宣传、扩大影响,同时展示国内外网信领域最新技术与产品,全方位及时展现网信技术产品发展趋势。
CIVIL-MILITARY INTEGRATIONON CYBERSPACE网信军民融合2021年01月59韩国将开展攻击型无人机试验韩国军需采购局于2020年12月2日表示,为更好地应对快速发展的未来作战环境,军方计划在2021年开展自杀式无人机(UAV )和射击无人机试验。
2020年5月,韩国国防部采办项目管理局启动了快速采购项目,以向军方快速提供有竞争力的武器装备,将创新技术应用于军事。
国防部采办项目管理局与各公司签订合同,采购三种先进攻击型无人机:自杀式无人机、执行对地射击任务的无人机、具有监视和攻击能力的小型无人机,投资总额约25亿美元。
这些无人机将在未来3至6个月内开展试验。
为了获得在无人机领域方面的优势,近年来,韩国一方面从美国引进“全球鹰”级别的战略无人机,另一方面依美国空军:Skyborg无人机不久可实现AI驾驶据美国《防务内情》网站2020年12月18日报道:美空军采办主管威尔·罗珀透露,空军计划将人工智能技术应用于可消耗无人机,并可能很快将ARTUµ——在12月15日的飞行测试中控制U-2高空侦察机传感器和导航系统的算法——配装在Skyborg 无人机上,“ARTUµ能够为我们提供重要的能力,并且处理速度比人类更快,让我们在即将到来的算法战争中可以抢夺先机”。
Skyborg 项目计划为无人机添加人工智能模块,使其能与有人机协同执行任务。
由于可消耗无人机成本低廉且可复用,能够实现大规模的部署,美空军对其展现出强烈的兴趣。
同时,人工智能模块往往容易受到对手的攻击,可消耗无人机也因其低成本的特性成为了早期试验人工智能能力的最佳选择。
Computer Science and Application 计算机科学与应用, 2023, 13(9), 1748-1755 Published Online September 2023 in Hans. https:///journal/csa https:///10.12677/csa.2023.139173训推一体平台架构设计与关键技术研究梁秉豪,张传刚浪潮通信信息系统有限公司,山东 济南收稿日期:2023年8月21日;录用日期:2023年9月19日;发布日期:2023年9月26日摘要 近年来,以ChatGPT 为代表的大规模预训练模型不断突破AI 技术瓶颈,AI 应用场景碎片化问题有望在短期内从根本上得到解决。
未来,集中式AI 应用研发将会取代传统的小作坊式生产,这一趋势对支撑AI 模型训练、微调和部署等环节的人工智能平台提出了更高的要求。
本文针对主流人工智能平台存在部分问题,设计了一套训练、推理一体化平台。
该平台通过工作流引擎实现了机器学习流水线的高效调度,利用虚拟化和容器化技术解决了硬件资源分配和调度问题,此外基于自动化表单工具实现了算子的组件化和插件化管理。
本文所设计的训推一体平台将有效降低AI 应用的开发门槛,促进AI 应用集中式和规模化生产,推动大规模预训练模型快速渗透到各个垂直行业应用场景。
关键词预训练大模型,训推一体,任务调度,算力调度,自动表单Architecture Design and Key Technology Research of Training-Reasoning Integrated PlatformBinghao Liang, Chuangang ZhangInspur Communication Information System Co., Ltd., Jinan Shandong Received: Aug. 21st , 2023; accepted: Sep. 19th , 2023; published: Sep. 26th , 2023AbstractIn recent years, the large-scale pre-trained model represented by ChatGPT has continuously bro-ken through the existing bottleneck of AI technology, and the problem of fragmentation of AI ap-plication is expected to be fundamentally solved in the short term. In the future, centralized AI ap-plication development will replace traditional individual workshop production, and this trend梁秉豪,张传刚puts higher requirements on artificial intelligence platforms that support AI model training, fine-tuning and deployment. Aiming at the existing problems in the main stream artificial intelli-gence platform, this paper designs a training-reasoning integrated platform. This platform realizes the efficient scheduling of machine learning pipeline through workflow engine, solves the problem of hardware resource allocation and scheduling by using virtualization and containerization tech-nology, and realizes the componentization and pluggability of AI operators based on automatic form tools. The training-reasoning integrated platform designed in this paper will effectively lower the development threshold of AI applications, facilitate the centralized and large-scale production of AI applications, and accelerate the penetration of large-scale pre-training models into various ver-tical industry.KeywordsLarge-Scale Pre-Trained Model, Training-Reasoning Integrated, Task Scheduling, Computing Power Scheduling, Automatic FormsThis work is licensed under the Creative Commons Attribution International License (CC BY 4.0)./licenses/by/4.0/1. 引言随着ChatGPT等大规模预训练模型不断突破人们的预期,人工智能技术正在引发新一轮的科技浪潮。
谷歌三大核心技术(一)Google File System中文版您的评价:不错收藏该经验The Google File System中文版译者:alex摘要我们设计并实现了Google GFS文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。
GFS虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的服务。
虽然GFS的设计目标与许多传统的分布式文件系统有很多相同之处,但是,我们的设计还是以我们对自己的应用的负载情况和技术环境的分析为基础的,不管现在还是将来,GFS 和早期的分布式文件系统的设想都有明显的不同。
所以我们重新审视了传统文件系统在设计上的折衷选择,衍生出了完全不同的设计思路。
GFS完全满足了我们对存储的需求。
GFS作为存储平台已经被广泛的部署在Google内部,存储我们的服务产生和处理的数据,同时还用于那些需要大规模数据集的研究和开发工作。
目前为止,最大的一个集群利用数千台机器的数千个硬盘,提供了数百TB的存储空间,同时为数百个客户机服务。
在本论文中,我们展示了能够支持分布式应用的文件系统接口的扩展,讨论我们设计的许多方面,最后列出了小规模性能测试以及真实生产系统中性能相关数据。
分类和主题描述D [4]: 3—D分布文件系统常用术语设计,可靠性,性能,测量关键词容错,可伸缩性,数据存储,集群存储1. 简介为了满足Google迅速增长的数据处理需求,我们设计并实现了Google文件系统(Google File System – GFS)。
GFS与传统的分布式文件系统有着很多相同的设计目标,比如,性能、可伸缩性、可靠性以及可用性。
但是,我们的设计还基于我们对我们自己的应用的负载情况和技术环境的观察的影响,不管现在还是将来,GFS和早期文件系统的假设都有明显的不同。
所以我们重新审视了传统文件系统在设计上的折衷选择,衍生出了完全不同的设计思路。
首先,组件失效被认为是常态事件,而不是意外事件。
GFS包括几百甚至几千台普通的廉价设备组装的存储机器,同时被相当数量的客户机访问。
GFS组件的数量和质量导致在事实上,任何给定时间内都有可能发生某些组件无法工作,某些组件无法从它们目前的失效状态中恢复。
我们遇到过各种各样的问题,比如应用程序bug、操作系统的bug、人为失误,甚至还有硬盘、内存、连接器、网络以及电源失效等造成的问题。
所以,持续的监控、错误侦测、灾难冗余以及自动恢复的机制必须集成在GFS中。
其次,以通常的标准衡量,我们的文件非常巨大。
数GB的文件非常普遍。
每个文件通常都包含许多应用程序对象,比如web文档。
当我们经常需要处理快速增长的、并且由数亿个对象构成的、数以TB的数据集时,采用管理数亿个KB大小的小文件的方式是非常不明智的,尽管有些文件系统支持这样的管理方式。
因此,设计的假设条件和参数,比如I/O操作和Block的尺寸都需要重新考虑。
第三,绝大部分文件的修改是采用在文件尾部追加数据,而不是覆盖原有数据的方式。
对文件的随机写入操作在实际中几乎不存在。
一旦写完之后,对文件的操作就只有读,而且通常是按顺序读。
大量的数据符合这些特性,比如:数据分析程序扫描的超大的数据集;正在运行的应用程序生成的连续的数据流;存档的数据;由一台机器生成、另外一台机器处理的中间数据,这些中间数据的处理可能是同时进行的、也可能是后续才处理的。
对于这种针对海量文件的访问模式,客户端对数据块缓存是没有意义的,数据的追加操作是性能优化和原子性保证的主要考量因素。
第四,应用程序和文件系统API的协同设计提高了整个系统的灵活性。
比如,我们放松了对GFS一致性模型的要求,这样就减轻了文件系统对应用程序的苛刻要求,大大简化了GFS的设计。
我们引入了原子性的记录追加操作,从而保证多个客户端能够同时进行追加操作,不需要额外的同步操作来保证数据的一致性。
本文后面还有对这些问题的细节的详细讨论。
Google已经针对不同的应用部署了多套GFS集群。
最大的一个集群拥有超过1000个存储节点,超过300TB的硬盘空间,被不同机器上的数百个客户端连续不断的频繁访问。
2.设计概述2.1设计预期在设计满足我们需求的文件系统时候,我们的设计目标既有机会、又有挑战。
之前我们已经提到了一些需要关注的关键点,这里我们将设计的预期目标的细节展开讨论。
∙系统由许多廉价的普通组件组成,组件失效是一种常态。
系统必须持续监控自身的状态,它必须将组件失效作为一种常态,能够迅速地侦测、冗余并恢复失效的组件。
∙系统存储一定数量的大文件。
我们预期会有几百万文件,文件的大小通常在100MB或者以上。
数个GB大小的文件也是普遍存在,并且要能够被有效的管理。
系统也必须支持小文件,但是不需要针对小文件做专门的优化。
∙系统的工作负载主要由两种读操作组成:大规模的流式读取和小规模的随机读取。
大规模的流式读取通常一次读取数百KB的数据,更常见的是一次读取 1MB甚至更多的数据。
来自同一个客户机的连续操作通常是读取同一个文件中连续的一个区域。
小规模的随机读取通常是在文件某个随机的位置读取几个KB数据。
如果应用程序对性能非常关注,通常的做法是把小规模的随机读取操作合并并排序,之后按顺序批量读取,这样就避免了在文件中前后来回的移动读取位置。
∙系统的工作负载还包括许多大规模的、顺序的、数据追加方式的写操作。
一般情况下,每次写入的数据的大小和大规模读类似。
数据一旦被写入后,文件就很少会被修改了。
系统支持小规模的随机位置写入操作,但是可能效率不彰。
∙系统必须高效的、行为定义明确的(alex注:well-defined)实现多客户端并行追加数据到同一个文件里的语意。
我们的文件通常被用于‖生产者-消费者―队列,或者其它多路文件合并操作。
通常会有数百个生产者,每个生产者进程运行在一台机器上,同时对一个文件进行追加操作。
使用最小的同步开销来实现的原子的多路追加数据操作是必不可少的。
文件可以在稍后读取,或者是消费者在追加的操作的同时读取文件。
∙高性能的稳定网络带宽远比低延迟重要。
我们的目标程序绝大部分要求能够高速率的、大批量的处理数据,极少有程序对单一的读写操作有严格的响应时间要求。
2.2 接口GFS提供了一套类似传统文件系统的API接口函数,虽然并不是严格按照POSIX等标准API的形式实现的。
文件以分层目录的形式组织,用路径名来标识。
我们支持常用的操作,如创建新文件、删除文件、打开文件、关闭文件、读和写文件。
另外,GFS提供了快照和记录追加操作。
快照以很低的成本创建一个文件或者目录树的拷贝。
记录追加操作允许多个客户端同时对一个文件进行数据追加操作,同时保证每个客户端的追加操作都是原子性的。
这对于实现多路结果合并,以及‖生产者-消费者‖队列非常有用,多个客户端可以在不需要额外的同步锁定的情况下,同时对一个文件追加数据。
我们发现这些类型的文件对于构建大型分布应用是非常重要的。
快照和记录追加操作将在3.4和3.3节分别讨论。
2.3 架构一个GFS集群包含一个单独的Master节点(alex注:这里的一个单独的Master节点的含义是GFS系统中只存在一个逻辑上的Master组件。
后面我们还会提到Master节点复制,因此,为了理解方便,我们把 Master节点视为一个逻辑上的概念,一个逻辑的Master节点包括两台物理主机,即两台Master服务器)、多台 Chunk服务器,并且同时被多个客户端访问,如图1所示。
所有的这些机器通常都是普通的Linux机器,运行着用户级别(user-level)的服务进程。
我们可以很容易的把Chunk服务器和客户端都放在同一台机器上,前提是机器资源允许,并且我们能够接受不可靠的应用程序代码带来的稳定性降低的风险。
GFS存储的文件都被分割成固定大小的Chunk。
在Chunk创建的时候,Master服务器会给每个Chunk分配一个不变的、全球唯一的 64位的Chunk标识。
Chunk服务器把Chunk以linux文件的形式保存在本地硬盘上,并且根据指定的Chunk标识和字节范围来读写块数据。
出于可靠性的考虑,每个块都会复制到多个块服务器上。
缺省情况下,我们使用3个存储复制节点,不过用户可以为不同的文件命名空间设定不同的复制级别。
Master节点管理所有的文件系统元数据。
这些元数据包括名字空间、访问控制信息、文件和Chunk的映射信息、以及当前Chunk的位置信息。
Master节点还管理着系统范围内的活动,比如,Chunk租用管理(alex注:BDB也有关于lease的描述,不知道是否相同)、孤儿Chunk (alex注:orphaned chunks)的回收、以及Chunk在Chunk服务器之间的迁移。
Master节点使用心跳信息周期地和每个Chunk服务器通讯,发送指令到各个Chunk服务器并接收Chunk服务器的状态信息。
GFS客户端代码以库的形式被链接到客户程序里。
客户端代码实现了GFS文件系统的API接口函数、应用程序与Master节点和Chunk服务器通讯、以及对数据进行读写操作。
客户端和Master节点的通信只获取元数据,所有的数据操作都是由客户端直接和Chunk服务器进行交互的。
我们不提供POSIX标准的API的功能,因此,GFS API调用不需要深入到Linux vnode级别。
无论是客户端还是Chunk服务器都不需要缓存文件数据。
客户端缓存数据几乎没有什么用处,因为大部分程序要么以流的方式读取一个巨大文件,要么工作集太大根本无法被缓存。
无需考虑缓存相关的问题也简化了客户端和整个系统的设计和实现。
(不过,客户端会缓存元数据。
)Chunk服务器不需要缓存文件数据的原因是,Chunk以本地文件的方式保存,Linux操作系统的文件系统缓存会把经常访问的数据缓存在内存中。
2.4 单一Master节点单一的Master节点的策略大大简化了我们的设计。
单一的Master节点可以通过全局的信息精确定位Chunk的位置以及进行复制决策。
另外,我们必须减少对Master节点的读写,避免Master节点成为系统的瓶颈。
客户端并不通过Master节点读写文件数据。
反之,客户端向 Master节点询问它应该联系的Chunk服务器。
客户端将这些元数据信息缓存一段时间,后续的操作将直接和Chunk服务器进行数据读写操作。
我们利用图1解释一下一次简单读取的流程。
首先,客户端把文件名和程序指定的字节偏移,根据固定的Chunk大小,转换成文件的Chunk索引。
然后,它把文件名和Chunk索引发送给Master节点。
Master节点将相应的Chunk标识和副本的位置信息发还给客户端。
客户端用文件名和 Chunk索引作为key缓存这些信息。