InfiniBand高速网络互连技术 ppt课件
- 格式:ppt
- 大小:15.44 MB
- 文档页数:158
高速网络InfiniBand加速大数据应用刘通Mellanox亚太市场开发总监Mellanox公司概况股票代码: MLNX ▪连接服务器、存储器的高带宽与低延迟网络的领导厂商•FDR 56Gb/s InfiniBand 与万兆/4万兆以太网•降低应用等待数据时间•大幅提升数据中心投资回报率▪公司总部:•美国加州以及以色列双总部•全球范围内约~1432名员工▪良好财务状况•2013年销售近3.9亿美元•现金与投资达3.4亿美元截至2013年9月世界领先的端到端网络互连设备提供商Virtual Protocol Interconnect存储前端 / 后端服务器交换机/ 网关56G IB & FCoIB 56G InfiniBand10/40/56GbE & FCoE 10/40/56GbEVirtual Protocol Interconnect芯片交换机、网关网卡网线、模块Metro / WAN完整的InfiniBand与以太网产品线▪InfiniBand 是高性能应用的首选网络▪采用Mellanox FDR InfiniBand 的系统同比增长1.8倍•加速63% 的InfiniBand系统是基于FDR (141 systems out of 225)超级计算机TOP500中最高占有率InfiniBand提供不可超越的系统效率▪InfiniBand是实现最高系统效率的关键,平均高于万兆以太网30% ▪Mellanox InfiniBand 实现最高效率99.8% 平均效率•InfiniBand: 87% •Cray: 79%•10GbE: 67% •GigE: 40%InfiniBand技术优势InfiniBand 技术的优势和特点▪InfiniBand Trade Association (IBTA) 协会制定规范•开放标准的高带宽、低延迟网络互连技术▪串行高带宽连接•SDR: 10Gb/s HCA连接•DDR: 20Gb/s HCA连接•QDR: 40Gb/s HCA连接–现在•FDR: 56Gb/s HCA连接– 2011年底•EDR: 100Gb/s HCA连接– 2014年▪极低的延迟•低于1 微妙的应用级延迟▪可靠、无损、自主管理的网络•基于链路层的流控机制•先进的拥塞控制机制可以防止阻塞▪完全的CPU卸载功能•基于硬件的传输协议•可靠的传输•内核旁路技术▪远端内存直接访问•RDMA-读和RDMA-写▪服务质量控制(QoS)•在适配器卡级提供多个独立的I/O通道•在链路层提供多条虚拟通道▪集群可扩展性和灵活性•一个子网可支持48,000个节点,一个网络可支持2128个节点•提供多种集群拓扑方式▪简化集群管理•集中路由管理•支持带内网络诊断和升级RDMA (远端内存直接访问技术) – 如何工作RDMA 运行于InfiniBand 或Ethernet内核硬件用户机架1OSNICBuffer 1 应用程序1应用程序2OSBuffer 1NICBuffer 1TCP/IP机架2HCAHCABuffer 1Buffer 1 Buffer 1Buffer 1Buffer 1Mellanox RDMA 远端内存直接访问技术零拷贝远程数据传输低延迟, 高速数据传输InfiniBand - 56Gb/sRoCE* – 40Gb/s内核旁路 通讯协议卸载* RDMA over Converged Ethernet应用程序应用程序用户层内核 硬件缓存缓存加速分布式数据库迈络思网络加速主流数据库▪Oracle 数据仓库•提供4倍闪存•写性能提升20倍•数据吞吐量提高33%•降低能耗10% 到 40%▪IBM DB2 Purescale 数据库:•需要低延迟高带宽的网络,同时满足高可靠性•RDMA 大大降低CPU负荷•实现DB2 Purescale 接近线性的可扩展性▪微软 SQL Server 数据仓库•更高性能,更低成本▪Teradata 数据仓库•相较以太网,跨机柜SQL查询速度提升2倍•数据加载性能提升4倍大幅提升性能与可扩展性,降低成本河南移动Oracle RAC数据库解决方案▪采用Mellanox InfiniBand交换机作为心跳网络连接设备;▪全线速无阻塞网络;▪采用高可用的冗余连接方式,避免单点故障;▪40Gb/s高通讯带宽、100纳秒超低延迟,全面加速Oracle RAC性能InfiniBand+PCI-e SSD新架构加速Oracle数据库生产环境:处理器:16 CPU Itanium21.6GHZ(双核)内存:192G数量:3新架构 RAC节点:AMD Quad-Core 83802.5GHZ 4 CPU (4核)内存:64G数量:2 分钟网络层40/10GbE 交换机应用及存储融合Oracle RAC Node 1 SDC PC Serverw/ ECSLSI NytroSDSOracle RAC Node 2 SDC PC Server w/ ECS LSI NytroSDSOracle RAC Node n SDC PC Server w/ ECS LSI NytroSDSSDC: ScaleIO 数据客户端SDS: ScaleIO 数据访问服务端 40/10 GbEMellanox 网络交换机Mellanox 40GbE 交换机+40GbE 网卡实现最佳Oracle 性能与扩展性Oracle RAC 数据库Oracle RAC 数据库SDC: ScaleIO 数据客户端SDS: ScaleIO 数据访问服务端 40/10 GbE EthernetSDSSDCSDCSDSSDS 网络层 40 GbE 互联PC Server w/ ECS LSI NytroPC Server w/ ECS LSI NytroPC Server w/ ECS LSI Nytro数据库应用层存储层Mellanox 网络交换机Mellanox 40GbE 交换机+40GbE 网卡实现最佳Oracle 性能与扩展性Mellanox加速分布式Oracle RAC性能Mellanox 40GbE 交换机+40GbE网卡实现最佳Oracle性能与扩展性加速大数据Data Intensive Applications Require Fast, Smart InterconnectHost/Fabric SoftwareICs Switches/GatewaysAdapter Cards Cables/Modules End-to-End & Virtual Network Ready InfiniBand and Ethernet PortfolioMetro / WANCertified Networking Gear河南移动大数据部署实例▪任意服务器之间进行40Gb/s无阻塞通信,消除节点间I/O瓶颈▪网络采用36口交换机堆叠的Fat-tree架构,最大幅度地降低网络开销,随着节点数量的增加,整体性能线性增加,提供最佳的线性扩展能力▪集群任意节点均与两个交换机互联,实现系统的高可靠性;▪全省上网行为数据每天8TB,大数据处理平台(90台)40秒完成忙时数据装载、5小时内完成日报表处理TCO大幅降低高达79.6%Hadoop缺陷调查•管理工具•性能•可靠性•SQL支持•备份与恢复451 Research 2013 Hadoop调查Hadoop 性能提升挑战•HDFS 本事的数据延迟问题 •不能支持大量小文件•Map Reduce, Hbase, Hive, 等等的效率.HDFS™(Hadoop Distributed File System)HBaseHivePigMap ReduceSQL(e.g. Impala)•性能提升需求 –实时操作–更快执行速度Map Reduce 工作进程▪开源插件▪支持Hadoop版本•Apache 3.0, Apache 2.2.x, Apache 1.3•Cloudera Distribution Hadoop 4.4内嵌支持Hadoop MapReduce RDMA优化HDFS™(Hadoop Distributed File System)Map Reduce HBaseDISK DISK DISK DISK DISK DISKHive Pig速度翻倍HDFS 操作ClientNameNodeDataNode1 48 DataNode48DataNode142 WriteReadReplicationReplicationHDFS FederationNameNode•HDFS Federation •更快硬盘•更快CPU 和内存IO 成为瓶颈▪HDFS 基于RDMA进行移植▪支持CDH5 和 HDP2.1 Hadoop HDFS RDMA优化HDFS ClientJXIO JXIO JXIO JXIOHDFS ClusterHadoop存储架构的限制•Hadoop 使用本地硬盘保持数据本地性和低延迟–很多高价值数据存在于外置存储–拷贝数据到HDFS, 运行分析, 然后将结果发到另外系统–浪费存储空间–随着数据源的增多,数据管理变成噩梦•直接访问外部数据,无需拷贝?–需要解决性能问题存储: 从Scale-Up 向 Scale-Out 演进 Scale-out 存储系统采用分布计算架构•可扩展,灵活,高性价比1000020000300004000050000600001Gb iSCSI 10Gb iSCSI 8Gb FC 16Gb FC40Gb iSCSITCP 40Gb iSER RoCEFDR IBWire speed Mb/sActual Single-Thread Throughput Mb/s顺序文件读性能 (单端口)iSER : iSCSI over RDMAiSER 实现最快的存储访问iSCSI (TCP/IP)1 x FC 8 Gb port4 x FC 8 Gb portiSER 1 x 40GbE/IBPort iSER 2 x 40GbE/IB Port (+Acceleration)KIOPs130200800110023005001000150020002500K I O P s @ 4K I O S i z e▪使用高性能网络和RDMA•避免性能瓶颈▪避免单点失败– HDFS Name Node▪节省33%磁盘空间!方案1: 使用并行文件系统替换HDFSLustre 作为文件系统方案Mellanox网络与RDMA技术实现最高 Lustre 性能Hadoop over Cloud?▪通常满负荷运转,而不是多虚机配置 ▪云存储慢且贵顾虑: •降低成本•弹性获得大量资源•与数据源更近•简化Hadoop 操作好处:?Performance?▪利用OpenStack 内置组件与管理功能•RDMA 已经内置在OpenStack▪RDMA 实现最快性能, 占用更低CPU 负荷最快的OpenStack 存储速度Hypervisor (KVM)OSVM OS VM OS VMAdapter Open-iSCSI w iSERCompute ServersRDMA Capable InterconnectiSCSI/iSER Target (tgt) Adapter Local DisksRDMA Cache Storage Servers OpenStack (Cinder)Using RDMA toaccelerate iSCSIstorage支持RDMA的高速网络大幅提升大数据应用性能4倍性能!Benchmark: TestDFSIO (1TeraByte, 100 files)2倍性能!Benchmark: 1M Records Workload (4M Operations)2X faster run time and 2X higher throughput2倍性能!Benchmark: MemCacheD Operations3倍性能!Benchmark: Redis Operations步入100G网络时代通过更快移动数据实现更大数据价值 20Gbs 40Gbs 56Gbs 100Gbs 2000 2020 2010 2005 2015 200Gbs10Gbs Gbs – Gigabit per secondMellanox 网络速度路线图引领网络速度的发展迈向更高网速进入100G时代36 EDR (100Gb/s) 端口, <90ns 延迟吞吐量7.2Tb/s100Gb/s 网卡, 0.7us 延迟1.5亿消息/秒(10 / 25 / 40 / 50 / 56 / 100Gb/s)Mellanox引领高速网络技术不止于InfiniBand端到端高速以太网Thank You。
高速交换网络时间:2014-02-24 11:01 点击:441 次InfiniBand 技术是什么?InfiniBand是一种全新的基于通道和交换的开放互连结构标准。
它能够连接多个独立的处理器平台、I/O平台以及I/O设备,在同一物理网络上支持一个或者多个计算机系1.InfiniBand技术是什么?InfiniBand是一种全新的基于通道和交换的开放互连结构标准。
它能够连接多个独立的处理器平台、I/O平台以及I/O设备,在同一物理网络上支持一个或者多个计算机系统之间的I/O通信和内部处理器之间的通信。
InfiniBand技术不是用于一般网络连接的,它的主要设计目的是针对服务器端的连接问题的。
因此,InfiniBand技术将会被应用于服务器与服务器(比如复制,分布式工作等),服务器和存储设备(比如SAN和直接存储附件)以及服务器和网络之间(比如LAN, WANs和the Internet)的通信。
InfiniBand架构采用的是一种支持多并发链接的“转换线缆”技术,在这种技术中,每种链接都可以达到2.5 Gbps的运行速率。
例如在采用QDR模式情况下,在一个链接通道的时候速率是10 Gbps ,四个链接通道的时候速率是40 Gbps,12个链接的时候速率可以达到120 Gbps。
2.为什么需要InfiniBand?采用Intel架构的处理器的输入/输出性能会受到总线的限制。
总线的吞吐能力是由总线时钟和总线的宽度决定的。
这种速度上的限制制约了服务器和存储设备、网络节点以及其他服务器通讯的能力。
而在InfiniBand的技术中,InfiniBand直接集成到系统板内,并且直接和CPU以及内存子系统互动,在传输层上,它提供了可靠的点对点连接,不同于PCI,Infiniband允许多个I/O外设无延迟、无拥塞地同时向处理器发出数据请求。
Infiniband技术与其他网络协议(如TCP/IP)相比,InfiniBand具有更高的传输效率。
InfiniBand高速互连网络徐迪威广州广东省计算中心,510033摘要:InfiniBand是目前发展最快的高速互连网络技术,具有高带宽、低延迟和易扩展的特点。
通过研究和实践,对InfiniBand技术的数据包、数据传输、层次结构、与以太网技术的对比、虚拟化、交换机制、发展愿景等进行了全面探索,提出了InfiniBand最终成为高速互连网络首选的观点。
关键词:InfiniBand;高速互连网络;数据包;结构模型;虚拟化;交换机制Research on Design of InfiniBand High Speed InterconnectionAbstract: InfiniBand is a fast growing technology of high speed interconnection (HSI), whose characteristics are high bandwidth, low latency and easy extension. Via researching and practicing, the paper explores on InfiniBand data packets, data transfer, multilevel architectures, comparing with Ethernet, virtualization, switching mechanism, roadmap, etc. The author presents the viewpoint that InfiniBand will become the first choice in setting up HSI.Keywords: InfiniBand(IB); High Speed Interconnection(HSI); Data Packet; Hierarchy Model; Virtualization; Switching Mechanism1引言随着中央处理器(CPU)运算能力的极速增长,高速互连网络(High Speed Interconnection, HSI)已成为高性能计算机研制的关键所在。