万亿级实时流计算架构
- 格式:pptx
- 大小:934.17 KB
- 文档页数:15
全调度以太网技术架构白皮书1缩略语列表缩略语英文全名中文解释AI Artificial Intelligence人工智能AIGC AI-Generated Content人工智能生产内容CPU Central Processing Unit中央处理器DPU Data Processing Unit数据处理单元ECMP Equal Cost Multi Path等价多路径路由ECN Explicit Congestion Notification显式拥塞通告FC Fibre Channel光纤通道GPU Graphics Processing Unit图形处理器GSF Global Scheduling Fabirc全调度交换网络GSOS Global Scheduling Operating System全调度操作系统GSP Global Scheduling Processor全调度网络处理节点HoL Head-of-line blocking队首阻塞JCT Job Completion Time任务完成时间ML Machine Learning机器学习PFC Priority-based Flow Control基于优先级的流量控制PHY Physical端口物理层PKTC Packet Container报文容器RDMA Remote Direct Memory Access远程直接内存访问RoCE RDMA over Converged Ethernet融合以太网承载RDMA VOQ Virtual Output Queue虚拟输出队列DGSQ Dynamic Global Scheduling Queue动态全局调度队列1.背景与需求目前,AIGC(AI-Generated Content,人工智能生产内容)发展迅猛,迭代速度呈现指数级增长,全球范围内经济价值预计将达到数万亿美元。
在中国市场,AIGC的应用规模有望在2025年突破2000亿元,这一巨大的潜力吸引着业内领军企业竞相推出千亿、万亿级参数量的大模型,底层GPU算力部署规模也达到万卡级别。
阿⾥巴巴鹰眼技术解密作者|周⼩帆编辑|⼩智最新⼀代的阿⾥全链路监控系统鹰眼 3.0,同时将基础设施层、分布式应⽤层、业务逻辑层与客户端层进⾏了全链路跟踪;技术层⾯,鹰眼3.0 ⽇均处理万亿级别的分布式调⽤链数据,针对海量实时监控的痛点,对底层的流计算、多维时序指标与事件存储体系等进⾏了⼤量优化,同时引⼊了时序检测、根因分析、业务链路特征等技术,将问题发现与定位由被动转为主动。
注:本⽂整理⾃阿⾥巴巴技术专家周⼩帆在 ArchSummit 2017 深圳站上的演讲。
今天我讲的是应⽤分布式链路追踪技术。
业界⼤部分的应⽤分布式追踪的原理源⾃ Google 的⼀篇 Dapper 系统的论⽂,我们的鹰眼系统也不例外。
今天讲的这个议题和微服务框架是有⼀些关系的,⼤家可能听微服务相很多遍了,对微服务框架带来的好处也感同⾝受,⽐如说它提⾼了开发的效率,它具备更好的扩展性,这些好处⼤家也体会过了。
可是微服务其实是⼀把双刃剑,微服务同时也带来了⼀些问题,⽽这些问题也就是我们的鹰眼系统需要解决的问题。
本⽂分为三个部分,第⼀个是阿⾥巴巴的分布式追踪系统,也就是鹰眼系统的技术实现原理、基础功能以及在阿⾥的使⽤场景。
第⼆个想和⼤家分享⼀下这套系统背后的⼀些技术细节,包括流计算,存储的架构演进,我们踩过的⼀些坑、技术层⾯⼀些优化是什么样的,也会分享⼀下我们是如何对监控系统进⾏模块化改造的。
第三个就是我们如何把⼀个被动的监控系统转成⼀个主动发现问题的系统,这⼀块我们其实也是在做初步的尝试和探索,在做的过程中也希望跟⼤家⼀起分享,抛砖引⽟,交流⼀下经验。
分布式链路追踪技术原理微服务之熵微服务的好处已经不⽤多说,⽽微服务的坏处,⼤家看这张图就明⽩了。
这张图是 2012 年淘宝核⼼业务应⽤关系的拓扑图,还不包含了其他的⾮核⼼业务应⽤,所谓的核⼼业务就是和交易相关的,和钱相关的业务。
这张图⼤家可能看不清楚,看不清楚才是正常的,因为当时的阿⾥应⽤数量之多、应⽤间关系之混乱靠⼈⼯确实已经⽆法理清楚了。
工业互联网边缘计算节点架构白皮书技术创新,变革未来工业互联网边缘计算节点白皮书参与单位主要内容和定位价值本白皮书是第一本专门介绍用于工业场景的工业互联网边缘计算节点(即:工业边缘节点)的综述性文档,主要内容包括:•历史机遇:“新基建”和”工业互联网+“对边缘计算产业的影响,以及中国标准订立进展•挑战需求:边云协同背景下,工业边缘节点面临的挑战和需求(软硬件两方面)•探索尝试:工业边缘节点已有参考架构,产品现状和应用实践的尝试本白皮书可供对工业互联网感兴趣的终端工厂用户和普通读者快速了解工业边缘节点的概念和作用,把握未来智慧工业的发展趋势和方向;也可供工业互联网的系统集成商和软硬件产品提供商详细了解工业边缘节点的标准化进展、可用软硬件架构和典型产品现状,亦可根据实践案例,开发基于工业边缘节点的新产品和方案。
工业互联网介绍工业边缘节点概述工业边缘节点参考架构工业边缘节点应用实践目录市场趋势及相关政策市场趋势(2018-2020)•工业互联网经济增加值:1.42万亿元,2.13万亿元和3.1万亿元;•同比增长分别为:55.7%,47.3%,47.9%;•占GDP比重:1.5%,2.2%和2.9%;•对GDP增长贡献率:6.7%,9.9%和11%。
•全社会新增就业岗位:135万个,206万个和255万个中国信息通信研究院:2017-2020年我国工业互联网产业经济总体情况相关政策(2020)•十四五规划以及2035远景目标•政府工作报告•中央政治局会议纪要2020年工业互联网政策梳理融合发展及行业标准融合发展•“新基建”七大领域•工业互联网+概念•工业互联网+大数据/5G/人工智能行业标准•CCSA 下设工业互联网特设组ST8•工业互联网边缘计算总体架构与要求•边缘云、边缘网关、边缘控制器的层级化部署架构•“边缘计算标准件计划”中央电视台:“新基建”七大领域定义工业互联网特设组ST8在研标准一览挑战痛点行业共通•跨设备互联互通•跨软件格式互联互通•跨平台数据互联互通•数字化模型搭建迭代•整体安全性和可靠性角色差异•软硬件产品提供商:兼容成本vs.用户体验•系统集成商:标准化利用vs.定制化开发•工厂用户:已有产线利用率vs.柔性生产需求工业互联网介绍工业边缘节点概述工业边缘节点参考架构工业边缘节点应用实践目录作用及价值作用•提供互联互通机制•解决现场连接性问题•支持人工智能部署•支持实时控制部署价值•更快的响应速度•更低的网络使用率•更安全的数据保护•更高的可靠性工业互联网“端-边-网-云”简化模型工业级环境●产品外壳处做增强式设计●抗冲击、抗粉尘、防水防泼溅等。
超级计算机的设计和应用一、超级计算机的定义和特点超级计算机是指能够进行大规模高速的数值运算和数据处理的计算机系统。
与普通计算机相比,超级计算机具有更多的处理器、更大的内存、更高的带宽以及更强的计算能力。
超级计算机通常采用分布式结构,将多个处理器组成一个集群进行协同计算,因此其运行速度最高可以达到每秒万亿次浮点运算(FLOPS)。
二、超级计算机的设计1. 处理器设计超级计算机处理器的设计是其最关键的一环。
目前主流的超级计算机处理器采用的是向量计算架构,即将数据打包成一个向量,经过一次指令即可完成多个数据的并行计算,从而提高计算效率。
同时,超级计算机也采用了多核处理器的设计,将单一处理器升级为多核心,同时采用多线程技术,提高处理器的利用率。
2. 存储器设计超级计算机的存储器设计也是其重要的设计要素之一。
超级计算机需要具备块级分布式存储结构,通过网络将不同节点的存储器相连,实现数据共享和通信。
由于超级计算机需要处理的数据量非常巨大,因此存储器也必须具有较高的容量和带宽,以支持大规模的高速数据交换。
3. 网络设计超级计算机的强大计算和数据处理能力离不开高速的网络支持。
超级计算机采用的网络结构分为两种,一种是高速计算网,用于实现节点之间的数据传输和通信,另一种则是高速存储网,连接存储器等外部设备。
三、超级计算机的应用领域1. 学术研究超级计算机在学术研究方面发挥着重要作用。
例如在物理、化学、生物、气象等领域,超级计算机已成为模拟和计算的重要工具,有利于科学家加深对自然界规律的认识和理解。
2. 工业制造工业制造领域也是超级计算机应用的一个重要领域。
在汽车、航空航天、能源、电子等行业中,超级计算机可以模拟燃烧过程、气动力特性、结构强度等关键技术,优化生产流程和提高产品质量。
3. 金融服务超级计算机在金融领域的应用也越来越广泛。
超级计算机可以帮助金融机构处理大量的金融数据,提升风险控制能力、更好地预测市场趋势和优化投资组合。
阿里万亿交易量级下的秒级监控本文的内容是偏工程的:怎么在万亿交易量下实现足够实时的秒级监控?先介绍一下监控系统Sunfire,它是阿里集团的业务监控系统,前身是蚂蚁的xflush, 支持应用标准化监控,如操作系统,JVM,中间件等。
除此之外还有更强大的日志监控能力,大多数业务的监控指标都从应用的日志中抽取。
目前覆盖了集团几乎所有BU 和绝大多数业务,每分钟处理TB 级日志。
下面将从以下四个方面进行讲解:∙架构∙规模与挑战∙技术选择∙方向每分钟处理这么大的TB级日志量,我们是怎么设计架构去实现它的呢?1.1、传统日志监控上图是传统的日志监控,现在大多数监控平台采用的一个方案。
Agnet 检测日志变化增量推送,经过消息中间件如kafka,流式计算引擎如Jstorm/flink 去消费kafka 产生出来的数据,中间的流式计算可能有多步的处理,最后流向DB,很传统的架构。
这种架构会有一个问题就是:某一分钟的数据,何时可以发报警?1.2、流式计算的问题Process Time 超过Event Time Window我们最早尝试了上面传统的架构,但是,会有一个问题,我到底什么时候这个数据才能发报警呢?因为这个架构最麻烦的是我不知道什么时候数据已经全部到齐了。
如果机器很多,agent 返回数据的时间并不确定, 要保证所有机器日志采齐了数据才准确,这在流式计算里很难处理。
这是个经典的问题, 有两篇文章很详细的讲解了流式计算中如何解决这种问题:https:///ideas/the-world-beyond-batch-streaming-101https:///ideas/the-world-beyond-batch-streaming-102但是数据丢了就是丢了, 无论怎么样就是不准了,也很难拍出一个delay 的时间确保数据可以用来发报警, 那么当数据不准时, 我们能不能知道不准了呢? 为了解决这个问题我们走了另一条路线: 让主动权留在服务端。
云计算的六种架构浅析云计算,应当高度贴合网络未来更高层次的发展趋势,着力于提高网络数据处理和存储能力,致力于低碳高效的利用基础资源。
具体而言,应着重从高端服务器、高密度低成本服务器、海量存储设备和高性能计算设备等基础设施领域提高云计算数据中心的数据处理能力。
云计算要求基础设施具有良好的弹性、扩展性、自动化、数据移动、多租户、空间效率和对虚拟化的支持。
那么,云计算环境下的数据中心基础设施各部分的架构应该是什么样的呢?云计算架构分为服务和管理两大部分。
在服务方面,主要以提供用户基于云的各种服务为主,共包含3个层次:基础设施即服务IaaS、平台即服务PaaS、软件即服务SaaS。
在管理方面,主要以云的管理层为主,它的功能是确保整个云计算中心能够安全、稳定地运行,并且能够被有效管理。
其总体架构如下图。
根据长城电子公司多年的经验,为满足云计算服务弹性的需要,云计算机房采用标准化、模块化的机房设计架构。
模块化机房包括集装箱模块化机房和楼宇模块化机房。
集装箱模块化机房在室外无机房场景下应用,减轻了建设方在机房选址方面的压力,帮助建设方将原来半年的建设周期缩短到两个月,而能耗仅为传统机房的50%,可适应沙漠炎热干旱地区和极地严寒地区的极端恶劣环境。
楼宇模块化机房采用冷热风道隔离、精确送风、室外冷源等领先制冷技术,可适用于大中型数据中心的积木化建设和扩展。
网络系统总体结构规划应坚持区域化、层次化、模块化的设计理念,使网络层次更加清楚、功能更加明确。
数据中心网络根据业务性质或网络设备的作用进行区域划分,可从以下几方面的内容进行规划。
1)按照传送数据业务性质和面向用户的不同,网络系统可以划分为内部核心网、远程业务专网、公众服务网等区域。
2)按照网络结构中设备作用的不同,网络系统可以划分为核心层、汇聚层、接入层。
3)从网络服务的数据应用业务的独立性、各业务的互访关系及业务的安全隔离需求综合考虑,网络系统在逻辑上可以划分为存储区、应用业务区、前置区、系统管理区、托管区、外联网络接入区、内部网络接入区等。