下一代AWS云计算架构Nitro
- 格式:pptx
- 大小:1.07 MB
- 文档页数:38
CPU关键技术未来演进路线后摩尔定律时代,单靠制程工艺的提升带来的性能受益已经十分有限,Dennard Scaling规律约束,芯片功耗急剧上升,晶体管成本不降反升;单核的性能已经趋近极限,多核架构的性能提升亦在放缓。
AIoT时代来临,下游算力需求呈现多样化及碎片化,通用处理器难以应对。
1)从通用到专用:面向不同的场景特点定制芯片,XPU、FPGA、DSA、ASIC应运而生。
2)从底层到顶层:软件、算法、硬件架构。
架构的优化能够极大程度提升处理器性能,例如AMD Zen3将分离的两块16MB L3 Cache 合并成一块32MB L3 Cache,再叠加改进的分支预测、更宽的浮点unit 等,便使其单核心性能较Zen2提升19%。
3)异构与集成:苹果M1 Ultra芯片的推出带来启迪,利用逐步成熟的3D封装、片间互联等技术,使多芯片有效集成,似乎是延续摩尔定律的最佳实现路径。
主流芯片厂商已开始全面布局:Intel已拥有CPU、FPGA、IPU产品线,正加大投入GPU产品线,推出最新的Falcon Shores架构,打磨异构封装技术;NvDIA则接连发布多芯片模组(MCM,Multi-Chip Module)Grace系列产品,预计即将投入量产;AMD则于近日完成对塞灵思的收购,预计未来走向CPU+FPGA的异构整合。
此外,英特尔、AMD、Arm、高通、台积电、三星、日月光、Google 云、Meta、微软等十大行业主要参与者联合成立了Chiplet标准联盟,正式推出通用Chiplet的高速互联标准“Universal ChipletInterconnectExpress”(通用小芯片互连,简称“UCIe”)。
在UCIe的框架下,互联接口标准得到统一。
各类不同工艺、不同功能的Chiplet芯片,有望通过2D、2.5D、3D等各种封装方式整合在一起,多种形态的处理引擎共同组成超大规模的复杂芯片系统,具有高带宽、低延迟、经济节能的优点。
亚马逊AWS云计算平台的介绍云计算是一种新的计算模式,其核心思想是将计算设备、数据和应用程序都存储在互联网上,使得用户可以在任何时间、任何地点通过网络访问这些服务。
目前,亚马逊AWS云计算平台已经成为了全球领先的云计算服务提供商之一。
本文就对亚马逊AWS 云计算平台做一个简单的介绍。
一、亚马逊AWS云计算平台的历史和发展亚马逊AWS云计算平台是由亚马逊公司于2006年推出的,它最初是为了满足亚马逊自身的业务需求而开发的。
1998年,亚马逊公司的规模开始急剧扩张,当时传统的客户端服务器架构已经无法满足公司的业务需求。
于是,亚马逊公司开始探索新的计算模式,最终决定采用云计算模式,即将计算设备、数据和应用程序都存储在互联网上,以便随时随地访问。
随着亚马逊AWS云计算平台的不断发展和壮大,越来越多的企业和机构开始意识到云计算的重要性,并开始采用亚马逊AWS 云计算平台来提供各种IT服务。
目前,亚马逊AWS云计算平台已经成为全球领先的云计算服务提供商之一,其用户包括了众多知名企业和机构,如NASA、Netflix、Airbnb、Dropbox、Spotify 等。
二、亚马逊AWS云计算平台的服务和应用亚马逊AWS云计算平台提供了包括计算、存储、数据库、安全、开发工具、人工智能、物联网等在内的各种服务和应用程序。
以下是亚马逊AWS云计算平台的一些主要服务和应用的介绍:1.计算服务计算服务是亚马逊AWS云计算平台的核心服务之一。
它包括了EC2、Lambda、Batch等多个服务。
其中,EC2是一种弹性计算服务,它可以让用户在亚马逊的基础设施上租用虚拟计算机实例,并以每小时收费的方式,按需使用计算资源。
Lambda是一种无服务器计算服务,它可以让用户编写和运行代码,而无需担心基础设施的管理和维护。
Batch是一种批处理服务,它可以让用户轻松地在亚马逊的基础设施上运行批处理作业。
2.存储服务存储服务是亚马逊AWS云计算平台中另一个核心服务。
aws知识点总结AWS(Amazon Web Services)是由亚马逊公司提供的云计算服务平台,通过该平台,用户可以按需获取计算能力、存储、数据库等服务,从而节省成本,提高效率。
AWS提供了众多服务,包括计算、存储、数据库、网络、开发工具、安全和身份、分析、人工智能等,下面将对AWS的一些重要知识点进行总结。
一、计算服务1. EC2(Elastic Compute Cloud)EC2是AWS中最核心的服务之一,它提供了可扩展的虚拟服务器实例,用户可以通过EC2快速获取和启动虚拟服务器。
EC2实例可以根据需要进行弹性伸缩,用户可以根据实际需求随时调整实例的规模和性能。
2. LambdaLambda是AWS提供的无服务器计算服务,用户无需管理服务器,只需上传代码即可运行,Lambda会根据实际请求进行自动扩展。
Lambda支持多种语言,包括Node.js、Python、Java等。
3. ECS(Elastic Container Service)ECS是AWS提供的容器管理服务,用户可以在ECS上运行Docker容器,实现应用程序的快速部署和扩展。
4. EKS(Elastic Kubernetes Service)EKS是AWS提供的托管Kubernetes服务,用户可以在EKS上轻松地运行Kubernetes集群,实现容器化应用程序的部署和管理。
5. Auto ScalingAuto Scaling是AWS提供的自动扩展服务,用户可以根据实际负载情况自动调整EC2实例的规模,确保系统具有良好的稳定性和可用性。
二、存储服务1. S3(Simple Storage Service)S3是AWS提供的对象存储服务,用户可以在S3上存储和检索任意数量的数据,S3具有高可用性和高耐用性,适合存储静态文件、多媒体内容、备份数据等。
2. EBS(Elastic Block Store)EBS是AWS提供的持久化块存储服务,用户可以将EBS卷挂载到EC2实例上,用于存储应用程序数据、数据库、文件系统等。
AWS认证解决方案架构师
《AWS认证解决方案架构师:打造可靠、安全的云计算架构》
当前,云计算技术已经成为众多企业的首选,其中AWS作为
全球领先的云计算平台,备受企业青睐。
然而,随着云计算平台的不断发展,对于拥有AWS认证解决方案架构师的需求也
日益增加。
AWS认证解决方案架构师是AWS的核心认证之一,获得该
认证意味着个人具备了在AWS架构设计和部署方面的专业能力。
那么,这类专业人才需要具备哪些技能和知识呢?
首先,AWS认证解决方案架构师需要对AWS的各种服务和
功能有着深入的了解,包括但不限于EC2、S3、VPC等核心
服务。
其次,他们需要具备扎实的架构设计能力,能够根据客户需求设计出安全、高可用性、弹性和可扩展的云计算解决方案。
此外,他们还需要了解云计算的最佳实践和安全标准,确保所设计的架构符合行业标准和客户期望。
在实际工作中,AWS认证解决方案架构师可以承担多个角色,包括但不限于技术顾问、解决方案架构师、系统工程师等。
他们需要与客户进行沟通,了解客户需求并据此制定相应的云计算解决方案。
同时,他们还需要指导团队成员,确保所设计的架构能够得到有效部署和维护。
最后,为了获得AWS认证解决方案架构师资格,个人需要通
过相应的考试,证明自己具备了所需的技能和知识。
在备考过
程中,可以通过参加AWS认证的培训课程,获得专业的指导和实践经验,提升通过考试的机会。
总的来说,作为企业在云计算领域的核心竞争力之一,AWS 认证解决方案架构师具有着广阔的就业前景和发展空间。
只要个人不断学习和提升自己的技能,就能够在这个领域中获得更多的机会和挑战。
使用AWS轻松构建PB级企业BI解决方案AWS(Amazon Web Services)是一家全球领先的云计算服务提供商,其面向企业的各种云服务可以帮助企业快速构建和部署高度可扩展的解决方案。
在本文中,我们将探讨如何使用AWS来构建PB级企业BI(商业智能)解决方案。
在当今竞争激烈的市场环境中,企业需要及时准确地获取和分析大量的数据,以便做出明智的业务决策。
传统的BI解决方案通常昂贵且复杂,在处理大数据量时往往效率低下。
但使用AWS的云服务,可以轻松构建PB级企业BI解决方案,具备高性能、高可扩展性和低成本的特点。
首先,我们可以使用AWS的存储服务S3(Simple Storage Service)来存储PB级别的数据。
S3是一种可扩展且高度安全的对象存储服务,可容纳任意数量的数据,并可通过简单的API进行访问和管理。
使用S3存储数据可以轻松实现数据的高可用性和持久性,同时还可以根据需要扩展存储容量。
其次,我们可以使用AWS的数据处理服务,如Amazon Redshift和Amazon EMR来处理PB级别的数据。
Amazon Redshift是一种用于大规模数据仓库和分析的完全托管的云数据仓库服务,能够快速高效地处理PB级别的数据。
Amazon Redshift还与业界主流的BI工具集成,可以方便地进行数据可视化和分析。
而Amazon EMR是一种完全托管的Hadoop框架,可用于处理和分析大数据集。
使用Amazon EMR,我们可以方便地进行大规模数据处理和分析操作。
另外,AWS的分析服务还提供了其他强大的工具和服务,如Amazon Athena和Amazon QuickSight。
Amazon Athena是一种无服务器的交互式查询服务,可用于分析S3中的大量数据。
使用Amazon Athena,我们可以轻松地查询PB级别的数据,并快速获得结果。
另外,Amazon QuickSight是一种云端BI工具,可以帮助用户从多个数据源中快速创建交互式可视化分析报表。
亚马逊的云计算平台AWS
一、简介
亚马逊云计算(Amazon Web Services,简称AWS)是美国亚马逊近
年来开发的一项云计算服务,提供安全可靠的网络架构和计算平台。
它是
一种以服务的形式(SaaS)提供的面向全球的服务,提供多种云计算产品,如虚拟机(EC2)、数据库(RDS)、存储(S3)和事件处理(SNS)等服务。
此外,还能提供信息安全管理、加密解密服务(KMS)、容器服务(ECS)、应用和网站等,为企业提供优质的开发和运行环境,从而加速
IT应用的发展。
二、特点
1、自动扩展:AWS自动地根据客户对服务器资源的使用情况,调整
服务器资源规格,使得用户可以根据自己的应用需求动态地增加或减少服
务器资源。
2、高可用性:AWS提供高可用服务,确保持续稳定运行、可用性和
可靠性。
AWS的可用性和高度的可靠性是许多企业已经转型到云计算的主
要原因之一
3、储存业务:亚马逊提供的云存储服务(S3),可以实现容量非常大,性能更佳的数据处理。
用户不需要购买硬件,将对自己的存储服务进
行升级,降低了企业的运营成本。
4、安全保护:AWS提供了一系列管理工具,让用户可以控制数据存
储和传输的安全级别,保护信息安全。
亚马逊AWS的服务器架构及优化方案亚马逊AWS(Amazon Web Services)是全球最大的云计算服务提供商之一。
AWS提供各种云计算相关的服务,包括计算、存储、数据库、分析、机器学习、人工智能等。
其中,AWS的服务器架构是其成功的关键之一。
在本文中,我们将探讨AWS的服务器架构及如何优化。
1. 服务器架构AWS的服务器架构采用多层次的系统架构,包括数据中心、区域、可用区、实例和存储。
下面我们逐个介绍。
数据中心是AWS云计算服务的核心基础设施,其提供了可靠的电力、网络、空调和物理安全。
AWS目前在全球70个区域(包括已经启动的和尚未启动的区域)拥有100多个数据中心。
每个AWS区域都由一个或多个数据中心组成。
例如,北美区域包括美国西部、美国东部、加拿大中部等多个数据中心。
数据中心下面的是区域,AWS的区域是由一些相邻的地理位置组成的。
现在,AWS区域的数量已经达到了全球22个。
AWS 的区域与数据中心的联系非常紧密,基本上每个数据中心都在一个区域内。
区域下一层是可用区,AWS的可用区是指在同一AWS区域中独立运营的一个或多个数据中心。
每个可用区都是独立的,可以实现高可用性和灾备恢复。
例如,美国东部(弗吉尼亚)AWS区域包括6个可用区。
实例是AWS云计算服务提供的虚拟服务器,提供各种计算能力和服务,支持多种操作系统和应用程序。
AWS的实例是根据业务需求进行规划和分配的,可以根据需要动态增加或减少。
AWS 的实例规划非常灵活,有多种规格可供选择,可以根据需要选择适当的规格。
存储是AWS提供的云存储服务,支持不同的存储类型,包括对象存储,文件存储和块存储。
AWS的存储也非常灵活,可以根据业务需要进行灵活选取。
2. 优化方案在使用AWS的服务时,有一些优化技巧可以提高系统的性能和可用性。
下面我们将从以下几个方面进行介绍。
2.1 规划优化在使用AWS的服务时,最重要的事情是规划。
规划是根据业务需求和服务特性进行部署和调整的过程。
亚马逊云计算技术的应用和未来亚马逊云计算技术,作为世界上最大的公共云计算服务提供商,已经在全球90多个国家提供安全、易用和高可用性的云服务,成为了全球数字变革的先锋力量。
亚马逊云计算拥有丰富的服务群、强大的全球基础设施、灵活的计费方式等优势,应用广泛并且不断拓展。
亚马逊云计算架构亚马逊云计算架构是一种高度可扩展和弹性的云平台服务,以多层次驱动的技术架构为支持和保障和平台使用体验。
亚马逊计算云架构包括丰富的应用程序接口(API)、开发工具、应用程序、存储、网络安全等基础云服务,能够满足市场上各种规模、类型、安全性的应用程序需求。
亚马逊云计算技术应用亚马逊云计算技术在多种领域得到了广泛的应用,例如物联网、金融、医疗、电信、能源等。
在物联网领域,亚马逊推出了AWS IoT(Internet of Things)服务,支持物联网设备的连接、网络安全、数据分析等一系列操作,为企业定制化的应用程序提供了全方位的支持。
亚马逊云计算还为金融行业提供了强大的基础设施支持,例如AWS Elastic Load Balancing、RDS、CloudFront等服务,帮助银行机构提升业务效率并且加强数据安全性控制。
在医疗领域,亚马逊云计算还能支持医学数据分析、电子病历和视频会议等应用。
亚马逊云计算未来趋势随着数字化转型不断加速,云计算依然是未来技术的中心,亚马逊云计算也将不断加码技术创新和产品开发。
未来,亚马逊将主要关注以下三个方向:1. 安全性和合规性:亚马逊将持续扩展和优化安全控制机制,确保云计算使用的安全性和合规性。
此外,亚马逊云计算还将扩展智能化自动化安全控制的覆盖范围。
2. 机器智能:亚马逊将在AI领域进行大量的探索和研发,但不同于其他公司,亚马逊云计算将会更侧重数据分析、自然语言处理和机器学习等领域,打造更有价值的智能应用。
3. 数据分析和预测:亚马逊将持续发挥云计算的优势,为企业和个人打造更加灵活的数据分析和预测平台,支持更加智能化和精准化的数据应用。
运营商大模型硬件基础设施创新及RDMA流量控制技术研究车碧瑶1 张永航2 廖怡2 唐剑2 樊小平2 赵继壮1 陆钢1(1.中国电信股份有限公司研究院,北京102209;2.中国电信天翼云科技有限公司,北京100007)摘要:从业界大模型硬件基础设施创新的主要模式出发,论述了电信运营商在该领域自主创新的路线选择考虑㊂基于实际组网环境和业务场景提出需求,设计了一种支持NO-PFC㊁交换机免配置的拥塞控制算法,使用RTT作为拥塞感知信号,控制交换机队列长度,实现低延迟㊂关键词:RDMA拥塞控制;大模型基础设施创新;运营商数据中心网络中图分类号:TP30;F124㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀文献标志码:A引用格式:车碧瑶,张永航,廖怡,等.运营商大模型硬件基础设施创新及RDMA流量控制技术研究[J].信息通信技术与政策,2024,50(2):26-32.DOI:10.12267/j.issn.2096-5931.2024.02.0050㊀引言真正认真对待软件的人应该自己制造硬件 [1]㊂经过十几年的发展,云计算已经走到了硬件创新成为行业主要驱动力的阶段㊂随着2022年底大模型时代的开启,全球头部云服务商2023年除了推出自己的各种大模型,也坚定地在大模型硬件基础设施上进行了自主研发㊂本文首先对电信运营商在大模型硬件基础设施领域自主创新的路线选择进行了分析和研究,然后重点论述了基于中国电信云网融合大科创实验装置在远程直接内存访问(Remote Direct Memory Access, RDMA)拥塞控制方面的研究进展㊂1㊀运营商大模型硬件基础设施创新路线图大模型硬件基础设施创新主要包括以下3个层面㊂一是研发人工智能(Artificial Intelligence,AI)算力芯片㊂2023年,AWS推出第二代AI芯片Trainium2,微软推出Maia100,谷歌推出TPUv5p,这些产品均选择走可对特定AI业务场景加速的专用集成电路(Application Specific Integrated Circuit,ASIC)芯片路线,而不是通用图形处理器(Graphics Processing Unit, GPU)路线㊂二是研发数据处理单元(Data Processing Unit, DPU)㊂例如,AWS的Nitro㊁谷歌的IPU㊁阿里巴巴的CIPU㊁中国电信的紫金DPU等㊂DPU设备是云服务商的根本技术所在,云主机最重要的虚拟化㊁网络通信㊁存储㊁安全功能全部下沉到此设备中;与过去智能网卡只能提供部分软件卸载不同,现在整个基础架构软件堆栈都可以在DPU上实现,中央处理器(Central Processing Unit,CPU)释放后可给最终用户售卖更多核;头部云服务商自研DPU的产品路线上均选择对能够体现自身架构独特性的功能进行强化;因功能非常复杂且需要嵌入云服务商各自独特的功能,故产业界DPU标准化程度还不高㊂三是研发运行在数据中心专用通信硬件上的实时处理逻辑㊂例如,嵌入高速网卡中的RDMA拥塞控制逻辑㊁网络负载均衡逻辑和交换机上的定制化协议处理逻辑等㊂第一㊁二层面硬件自主研发的商业价值主要体现在:一方面,自研芯片可给云服务商加持其他公司难以复制的核心竞争力,如AWS的IPU Nitro;另一方面,大幅降低云服务商采购第三方先进芯片的投资额,可以预估一旦谷歌原生多模态大模型Gemini的领先效果被业界广泛认可,则训练Gemini的谷歌张量处理器(Tensor Processing Unit,TPU)会一改以前只是自用的局面,外部客户也会从通用GPU转向更便宜的谷歌自研芯片TPU,谷歌会大大降低外购GPU成本㊂但第一㊁二层面的硬件研发需要巨大的投入和时间积累并且失败风险很高,目前的实现路径有以下几种模式㊂一是与大型芯片公司联合研发,既可解决自身能力不足问题,又提高了项目的成功率㊂例如,微软组建数百人的独立团队,与AMD联合开发代号名为Athena的AI芯片,此项目预估已投入20亿美元以上;谷歌TPU v1~v4均由博通共同设计,除了芯片设计之外,博通公司还为谷歌提供了关键的知识产权,并负责了制造㊁测试和封装新芯片等步骤,以供应谷歌的新数据中心,博通公司还与其他客户(如Facebook㊁微软和AT&T等公司)合作设计ASIC芯片㊂二是收购半导体设计公司,走独立自主的芯片设计路线㊂例如,亚马逊多年前收购Annapurna Labs,设计出的AI推理/训练和网络芯片均已规模部署㊂三是收购初创公司获得完整知识产权(Intellectual Property,IP)和人才,如微软收购DPU初创公司Fungible㊂四是组建设计团队,直接购买第三方完整IP修改后定制出自己的芯片,但除了因符合云服务商定制化需求的IP供应商很少外,商务合作模式也受限于运营商标准化采购流程比较难以操作㊂五是与已经成功流片的小体量的初创设备商合作进行上层功能定制,快速推出自己的芯片㊂六是基于现场可编程门阵列(Field Programmable Gate Array,FPGA)开展核心IP完全自主可控的产品研发,逐步积累芯片研发经验,时机成熟启动流片,最后实现低成本芯片规模化部署;微软早在2010年就启动了以FPGA路线为主的硬件研发;由于FPGA在信息通信网络设备中广泛存在,运营商在云中选择同样的FPGA路线可实现IP的复用;针对高端云网设备(高速DPU+高速交换机)极难解耦的困境,运营商端侧的FPGA设备可以实现异构厂家交换机协议的兼容,保持运营商对网络的核心掌控力㊂综上所述,结合运营商自身业务场景㊁实际需求和研发现状,对硬件基础设施创新3个层面分析如下:芯片研发耗时漫长,投资巨大,见效慢,且流片失败风险极高㊂选择上层功能定制合作模式的自研芯片见效快,但由于运营商研发人员没有真正深度参与IP设计,从长远看不利于核心竞争力的掌控㊂因此,在第三层面研发嵌入到特殊硬件中的硬件逻辑则相对周期较短,风险可控,实现独有技术架构的可能性较大㊂例如,随着业界100G以上高速网卡在需求方引导下逐步开放可编程接口,研发面向大模型智算场景运行在高速网卡上的RDMA流量控制逻辑是一种性价比较高的选择㊂RDMA流量控制技术是保证大模型训练网络性能的关键技术之一㊂RDMA流量控制技术主要包括RDMA拥塞控制与RDMA多路径负载均衡两种技术: RDMA拥塞控制技术用于调控各个计算端服务器向数据中心网络的发送数据的速度;RDMA多路径负载均衡技术的目标是让流入网络的报文公平且最大化地利用组网中所有物理链路,尽快完成流传递,避免出现一部分链路过载而另一部分链路利用率不高的情况㊂这两种技术现阶段都需要在符合特定规范的硬件中嵌入运营商自主研发的控制逻辑,才能在100G㊁200G㊁400G甚至未来800G的高速网卡和高速交换机中发挥作用㊂2023年,中国电信股份有限公司研究院与中国电信天翼云科技有限公司紧密协同在RDMA拥塞控制方面持续发力,结合运营商智算网络规模大㊁可靠性要求高等特征确定研发目标:重点关注可部署性,尽可能破除对基于优先级的流量控制(Priority-Based Flow Control,PFC)的依赖,简化交换机配置,避免繁琐的显式拥塞通知(Explicit Congestion Notification,ECN)水线调优,得到高速㊁NO-PFC㊁NO-ECN㊁Zero Queuing的拥塞控制算法㊂基于大科创装置仿真实验平台和物理实验平台,通过方法创新不断挑战性能曲线,自主研发拥塞控制技术(Chinatelecom Congestion Control,CTCC),在Incast场景㊁全闪存储场景㊁混合专家(Mixed of Expert,MoE)大模型训练场景实测结果有明显对比优势㊂2㊀RDMA流量控制技术业界研究现状2.1㊀主流技术路线随着大模型算力性能飞速提升,为实现更高的GPU计算加速比,云主机网络带宽从主流通用云计算的单端口25G演进到单端口400G,此时基于软件的网络堆栈已经无法发挥出网卡的全部性能㊂头部云服务商在高算力数据中心的各种业务中开始广泛采用RDMA技术,将网络堆栈卸载到网卡硬件中,实现数据直接传输㊂但RDMA网络在协调低延迟㊁高带宽利用率和高稳定性方面面临着挑战㊂由于网络丢包对业务(尤其是大模型训练业务)影响较大,避免网络拥塞并发挥网络全链路负载是保证算网协同场景性能的关键,云服务提供商都在此领域积极布局自主研发创新㊂数据中心网络拥塞主要由Incast流量和流量调度不均导致,为应对这两类场景,提高RDMA网络的性能和可靠性,业界采用拥塞控制算法和流量路径负载均衡两种技术路线㊂前者致力于提出高效的拥塞控制协议,感知链路拥塞状态后进行流级别控速;后者调整进入网络的各种流量路径避免拥塞,特别是解决在大模型训练业务场景下复杂的组网架构㊁通信模式极易引起的局部链路过载等问题㊂主流拥塞控制算法主要通过ECN㊁往返时延(Round-Trip Time,RTT)㊁带内网络遥测(In-band Network Telemetry,INT)等信号感知链路拥塞,并做出微秒级响应㊂当前业界最普遍采用的㊁基于ECN信号的代表性算法是微软和Mellanox联合研发的数据中心量化拥塞通知(Data Center Quantized Congestion Notification,DCQCN)算法[2],需要交换机在拥塞时标记数据包,并由接收侧反馈到发送侧网卡进行速率控制㊂基于RTT的方案依赖网卡硬件实现高精度的时延测试,不需要交换机参与,部署相对容易,谷歌提出的TIMELY和SWIFT算法[3-4]均采用该路线;基于INT信号的方案依赖链路中交换机记录的出口速率和队列深度等信息精确控制飞行流量,要求交换机支持特定格式的INT报文[5-6]㊂在流量路径负载均衡控制方面,业界主流技术路线包括动态负载均衡和多路径传输两种㊂动态负载均衡感知链路故障或拥塞状态,修改数据包头中生成负载均衡哈希(Hash)算法Key值的相关字段,实现自适应路由,腾讯提出端网协同的快速故障自愈Hash DODGING方案[7]采用该路线,网卡和交换机上采用基于Hash偏移的网络路径控制方法,感知故障后终端修改数据包头的服务类型字段值实现重新选路;多路径传输路线的主要设计思路是包级别甚至信元(Cell)级别的负载均衡实现方案,以解决传统等价多路径(Equal Cost Multipath,ECMP)算法在长/短流混合场景负载分配不均导致长尾时延的问题㊂AWS的SRD 协议[8]实现逐包转发的负载均衡技术,依赖自研芯片Nitro完成乱序重排㊂谷歌提出新型网络架构Aquila[9],定制TiN(ToR-in-NIC)芯片实现网卡和交换机硬件级的紧耦合改造,采用私有L2Cell Based协议GNet提供Cell级交换能力㊂博通公司采用分布式分散式机箱(Distributed Disaggregated Chassis,DDC)组网方案[10],提出基于网卡的全网端到端Cell改造以及仅在叶脊网络(Leaf-Spine)之间进行Cell改造的实现方案㊂目前,先进的负载均衡方案大多依赖端网协同,需要交换机和网卡提供各种定制化能力㊂由于尚未形成统一的标准,设备商基于各自独有技术提供能力支持,现阶段开放性不足,难以异厂家设备组网,在运营商现网环境中大规模应用存在阻碍㊂端到端拥塞控制算法可以在不进行业务软件㊁网络硬件设备更新的前提下优化网络拥塞和时延,是提升大规模集群网络通信性能最具成本效益的方法㊂结合现网环境和业务场景,运营商可先着手于短期内能落地㊁易部署的高效拥塞控制算法,在数据中心改造升级过程中结合实际情况探索端网协同的负载均衡策略,提出更完备的流量控制解决方案㊂2.2㊀面临挑战与优化目标DCQCN是标准网卡中默认的RDMA拥塞控制算法,只有当交换机队列累积至超过ECN水线才能感知拥塞,导致在大规模Incast场景拥塞缓解速度慢,收敛前持续触发PFC㊂此外,DCQCN算法超参数数量过多,性能与参数选择强相关,在实际部署中调参困难㊂此外,DCQCN 算法完全依赖于路径中交换机标记ECN 拥塞后对端返回给发送端的拥塞通知报文(Congestion Notification Packet ,CNP )调速,此方案有如下优劣势㊂在各个发送端,由于一台交换机下所有发送端收到的拥塞信号接近,很容易导致各个流以相同的计算公式在同等输入条件下得到的速度相近,吞吐波形图中体现为各条流曲线基本重合㊂通过大科创装置的物理实验平台,观测到DCQCN 吞吐量接近链路带宽且各条流曲线公平性非常好㊂ECN 信号无法反馈准确的交换机队列长度,拥塞情况下极易导致队列累积触发PFC ㊂如果一条链路上出现多种流量混跑,因为交换机每个端口的优先级队列只有8条,超过8个业务时必然存在多个业务共享一个交换机优先级队列的情况㊂各个业务的流量模型不同时,可能出现共享队列的流彼此影响,触发PFC 时端口暂停导致受害者流的问题㊂调速应同时考虑交换机链路和主机处理速度双重因素,但交换机的ECN 信号无法反映对端主机上的业务处理速度㊂F1图1㊀CTCC 拥塞控制算法实现框架综合考虑运营商现网设备现状与实际业务需求,从业务性能㊁网络可靠性㊁成本等方面出发,提出自主可控的CTCC 拥塞控制算法2023年设计目标:一是降低业务延迟,满足RDMA 网络高吞吐㊁低时延的需求㊂算法基于端到端的RTT 信号监控网络拥塞状态,快速做出响应,控制交换机队列长度,减少数据包在网络中的排队延迟和抖动㊂二是支持NO-PFC ㊂算法能够在NO-PFC 配置下正常工作,避免持续丢包降低网络性能,保证网络可靠性㊂三是简化部署步骤㊂工业级网络实践中往往强调可部署性,新的拥塞控制方案应当不需要对网络设备进行任何修改,主要在网卡上实现和配置,降低部署的成本和复杂度㊂3㊀中国电信自研RDMA 拥塞控制算法交换机队列长度是网络拥塞状态的直接反应,维持稳定的低交换机队列能够同时实现低延迟和高吞吐㊂排除软件侧时延抖动,RTT 大小主要受数据包经过交换机的排队延迟影响,能够快速反应网络拥塞状态的变化㊂随着硬件性能的提升,网卡能够提供更高的时钟精度和更准确的时间戳功能㊂这使得通过网卡进行高精度延迟测量成为可能,为基于RTT 信号的数据中心RDMA 拥塞控制协议的设计与实现提供了前提条件㊂针对DCQCN 基于ECN 信号调速导致队列累积㊁对网络拥塞反应滞后㊁PFC 依赖程度较高等问题,考虑使用RTT 信号进行更细粒度的调速,提出一种端到端的㊁基于速率(Rate-Based )的拥塞控制协议,可基于现有商用网卡或DPU 的可编程拥塞控制(Programmable Congestion Control ,PCC )功能实现㊂与现有算法相比主要有以下两点创新:依赖RTT 信号进行Rate-Based 调速,实现交换机免配置,能够有效维持交换机低队列,降低延迟;以支持NO-PFC 配置为出发点,设置收到否定应答(Negative ACKnowledge ,NACK )报文时快速降速,减少丢包带来的性能损失㊂3.1㊀算法设计如图1所示,CTCC 算法使用RTT 信号体现网络拥塞的变化趋势,设置目标RTT ,当实测RTT 高于目标RTT 时表明网络发生拥塞,控制发送端网卡降速;实测RTT 低于目标RTT 时表明网络畅通,可试探性增速㊂此外,网卡收到NACK 信号快速降速,避免持续丢包造成网络性能损失㊂CTCC算法主要在网卡中实现,采用无需修改RDMA协议或软件协议栈的RTT探测方式,发送端网卡在拥塞控制算法请求RTT探测时主动发出探测包,收到RTT响应报文或NACK基于加性增乘性减(Additive Increase Multiplicative Decrease,AIMD)策略调速㊂接收端网卡负责返回应答(Acknowledgement, ACK)报文和NACK报文,收到RTT探测包时记录相关时间戳,生成RTT响应报文返回发送方㊂为避免反向链路拥塞增加RTT信号反馈延迟,设置RTT响应报文高优先级㊂该算法无需交换机参与,能够降低部署成本,更好地支持动态环境下的网络调整和扩/缩容操作㊂CTCC算法难点描述:典型场景如7000个发送方往一个接收方打流,约束条件为7000个发送方彼此完全未知,每个发送方只能通过往接收方发送探测帧获得微秒级延迟后进行发送速率控制;目标为7000个发送方要速率快速收敛达到一致以保证公平性,同时避免总发送速率超过接收方链路带宽,避免交换机队列太满产生PFC暂停帧,瓶颈链路吞吐要尽量逼近链路带宽㊂此外,在网络动态变化或复杂业务场景下,如打流期间对相同接收方动态新增1000个或动态减少1000个发送方㊁发送方物理链路混跑有多种业务流量㊁跨多个交换机㊁大小业务流混跑等场景,依然要满足上述目标㊂3.2㊀算法优势分析纯RTT方案无需交换机配合,基于现有商用网卡实现,减少替换和运维成本㊂CTCC算法仅基于RTT信号进行拥塞控制,无需交换机支持可编程等高级功能,且基于商用网卡提供的PCC框架实现,无需定制化硬件㊂收到NACK快速降速,支持NO-PFC场景㊂算法设置网卡收到NACK后直接将速率减半,在关闭PFC的情况下也能应对大规模突发场景,快速降速大幅减少丢包数量,降低丢包带来的性能损失㊂参数数量少,降低调优难度㊂算法不依赖PFC和ECN,免去配置交换机水线的繁琐步骤;且网卡实现简单,超参数数量少,极大地降低了算法调优难度,减少部署和运维工作量㊂3.3㊀控制器设计在算法研发测试过程中,随着测试环境节点数的增加,算法烧写㊁网卡和交换机配置等准备工作量剧增,且极易出现不同节点算法配置不一致等问题㊂为验证算法可商用需要进行覆盖多种基础场景的上千项测试,测试结果的统一记录和汇总是结果分析和算法优化的基础㊂为解决该问题,自主研发出CTCC集中控制器,提供图形化操作界面,实现多设备算法镜像一键烧写㊁动态超参数下发㊁算法类型切换㊁自动化测试㊁测试结果实时监控㊁试验结果跟踪等一系列功能,大大降低了研发测试的工作量和复杂性,保证测试结果可靠㊂其中,超精度网络指标采集及监控是CTCC控制器的重要组成部分和一大技术难点㊂拥塞控制技术在研发过程中往往需要观测流量变化瞬间的网络性能的变化,对指标采集精度提出非常高的要求㊂CTCC控制器采用网络遥感技术,通过推模式(Push Mode)周期性地主动向采集器上送设备的接口流量统计㊁CPU 或内存数据等信息,相对传统拉模式(Pull Mode)的一问一答式交互,可提供更实时㊁更高速的数据采集功能㊂之后,经过Protocol Buffer编码,实时上报给采集器进行接收和存储㊂通过上述方案,可实现亚秒级以上的监控精度㊂3.4㊀算法性能评估利用商用网卡可编程架构实现自研算法,基于大科创装置的物理实验台搭建8台服务器通过1台交换机连接的网络环境,通过性能测试(Perftest)命令进行打流测试验证自研算法优势㊂测试使用的网卡支持per-QP和per-IP两种调速模式,per-QP模式下为每个连接(QueuePair,QP)单独调速,per-IP模式为相同目的互联网协议(Internet Protocol,IP)地址的QP分配相同的速率㊂考虑到同一目的IP的流可能通过负载均衡分配到不同的链路上,拥塞状态会存在差异,设置相同发送速率并不合理㊂在测试中,采用per-QP模式对每个QP进行细粒度调速,根据链路实际拥塞情况调整速率㊂对于DCQCN算法,测试时开启PFC,相关参数使用网卡和交换机推荐的默认值㊂对于CTCC算法,测试时关闭网卡和交换机的PFC功能㊂CTCC算法维持交换机低队列避免丢包:将7台服务器作为发送方,另外1台作为接收方,控制7个发送方同时起1000个QP向接收方打流,对比DCQCN 和CTCC算法在大规模Incast拥塞场景的性能㊂测试结果显示DCQCN算法拥塞控制基本失效,始终维持10MB以上的交换机队列,打流过程中持续触发PFC,易造成PFC风暴㊁死锁等问题,从而影响网络性能㊂CTCC算法最高交换机队列仅为1.22MB,且在没有开启PFC的状态下无丢包㊂DCQCN算法Perftest测得的发送端总和带宽为97.98Gbit/s,瓶颈链路带宽利用率为95.4%㊂CTCC算法测得的发送端总和带宽为90.70Gbit/s,瓶颈链路带宽利用率为91.5%㊂CTCC算法实现低时延:为验证自研算法在时延方面存在的优势,在上述测试场景中添加同方向的小流,测试小流完成的时延㊂由于DCQCN算法维持高队列,小流延迟达到1154.77μs,而CTCC算法能够有效维持低交换机队列,小流延迟平均值为20.31μs,与DCQCN相比降低99%㊂以上两项测试结果验证了CTCC能够在保证高吞吐的同时显著降低时延㊂与DCQCN相比,大规模Incast场景CTCC算法交换机平均队列和小流时延降低90%以上,在DCQCN持续触发PFC的情况下实现稳定状态无丢包㊂尽管控制交换机低队列易导致吞吐损失,且RTT探测包会占用少量带宽,CTCC仍保证了90%以上的带宽利用率,与DCQCN相比吞吐损失低于5%㊂4㊀结束语本文总结了业内RDMA拥塞控制算法研究趋势,结合运营商实际组网环境和业务场景需求提出研发目标,设计了一种交换机免配置的拥塞控制算法,基于大科创装置验证了其在物理环境中的性能优势㊂随着自主研发DPU㊁交换机技术的不断突破,产业各方会持续开展RDMA关键技术攻关,加强面向大模型训练场景数据中心网络极致负载分担㊁RDMA拥塞控制算法等核心技术研究,基于新的硬件设备设计结合多种信号的高效拥塞控制算法,并规划拥塞控制与负载均衡结合的全套解决方案,推动产业链的成熟与落地㊂参考文献[1]张佳欣.德媒:芯片之争,中国绝非无能为力[N].科技日报,2021-04-09(004).[2]ZHU Y,ZHANG M,ERAN H,et al.Congestion controlfor large-scale RDMA deployments[J].ACM SIGCOMM Computer Communication Review,2015,45(5):523-536.DOI:10.1145/2829988.2787484.[3]MITTAL R,LAM V T,DUKKIPATI N,et al.TIMELY:RTT-based congestion control for the datacenter [C]//Proceedings of the2015ACM Conference onSpecial Interest Group on Data Communication.New York:ACM,2015:537-550.DOI:10.1145/2785956. 2787510.[4]KUMAR G,DUKKIPATI N,JANG K,et al.Swift:delay is simple and effective for congestion control in the datacenter[C]//SIGCOMM 20:Annual Conference of the ACM Special Interest Group on Data Communication on the Applications,Technologies,Architectures,and Protocols for Computer Communication.New York: ACM,2020:514-528.DOI:10.1145/3387514.3406591.[5]LI Y,MIAO R,LIU H,et al.HPCC:high precisioncongestion control[C]//Proceedings of the ACM Special Interest Group on Data Communication.New York: ACM,2019:44-58.DOI:10.1145/3341302.3342085.[6]BASAT R B,RAMANATHAN S,LI Y,et al.PINT:probabilistic in-band network telemetry[C].Proceedings of the Annual Conference of the ACM Special Interest Group on Data Communication.New York:ACM,2020: 662-680.[7]何春志.腾讯星脉高性能计算网络:为AI大模型构筑网络底座[EB/OL].(2023-03-06)[2023-12-20].https:///developer/article/2234084.[8]SHALEV L,AYOUB H,BSHARA N,et al.A cloud-optimized transport protocol for elastic and scalable HPC [J].IEEE Computer Society,2020(6):67-73.DOI: 10.1109/MM.2020.3016891.[9]GIBSON D,HARIHARAN H,LANCE E,et al.Aquila:a unified,low-latency fabric for datacenter networks [C]//Proceedings of19th USENIX Symposium onNetworked Systems Design and Implementation.Seattle: NSDI,2022:1249-1266.[10]WU X G.Reducing job completion time in AI/ML clusters[EB/OL].(2022-06-09)[2023-12-20].https://www./blog/reducing-job-completion-time-in-ai-ml-clusters.作者简介:车碧瑶㊀中国电信股份有限公司研究院云网运营技术研究所助理工程师,主要从事RDMA高性能网络方向的研究工作张永航㊀中国电信天翼云科技有限公司研发专家,长期从事RDMA高性能网络的设计和研究工作廖怡㊀㊀中国电信天翼云科技有限公司研发专家,主要从事RDMA网络架构㊁协议㊁拥塞控制算法㊁智能网卡和DPU相关的研究工作唐剑㊀㊀中国电信天翼云科技有限公司研发工程师,主要从事高性能网络方向的研发工作樊小平㊀中国电信天翼云科技有限公司资深专家,主要从事高性能网络方向的研究工作赵继壮㊀中国电信股份有限公司研究院云网运营技术研究所云计算研究中心总监,高级工程师,主要从事云计算和高性能计算的软硬件优化等方面的研究工作陆钢㊀㊀中国电信股份有限公司研究院云网运营技术研究所副所长,教授级高级工程师,长期从事云计算技术研发与应用方面的研究工作Research on hardware infrastructure innovation for large language model of telecom operators and RDMA traffic control technologyCHE Biyao1,ZHANG Yonghang2,LIAO Yi2,TANG Jian2,FAN Xiaoping2,ZHAO Jizhuang1,LU Gang1(1.China Telecom Corporation Limited Research Institute,Beijing102209,China;2.China Telecom Cloud Technology Co.,Ltd.,Beijing100007,China)Abstract:Based on the main modes of hardware infrastructure innovation for large language model in the industry,this paper explores the considerations for route selection by telecom operators in this field.This paper presents a congestion control algorithm that supports NO-PFC and does not require the configuration of switches.The algorithm is designed with considerations for the actual networking environment and service scenario.To achieve low latency,the Round-Trip Time(RTT)is employed as the congestion sensing signal,enabling effective regulation of the switch queue length. Keywords:RDMA congestion control;hardware infrastructure innovation for large language model;telecom operator data center network(收稿日期:2023-12-26)。