Deep行者
据 IDC 数据,2022 年全球交换机市场规模为 3080 亿元,同比增长 17%,预测 2022-2027 年CAGR 约为 4.6%;中国交换机市场规模为 591 亿元,同比增长 9.5%,预计未来 5 年增速高于全球增速,稳定在 7%-9%。

1、交换机主流分类方式
交换机从不同角度可分为多种不同的类型,可按照应用场景、网络层次、管理类型、OSI 网络模型、端口速率、整机结构等方式进行分类。
按应用场景划分:园区交换机、数据中心交换机
按网络层次划分:接入交换机、汇聚交换机、核心交换机
按管理类型划分:无管理型交换机、Web 管理型交换机、全管理交换机
按 OSI 网络模型划分:二层交换机、三层交换机
按端口速率划分:百兆交换机、千兆交换机、万兆交换机、多速率交换机
按整机结构划分:盒式交换机、框式交换机
2、交换机芯片及重要指标
以太网交换机主要由芯片、PCB、光器件、插接件、阻容器件、壳体、电源、风扇等组成,芯片包含以太网交换芯片、CPU、PHY、CPLD/FPGA 等,其中以太网交换芯片和 CPU 是最核心部件。
以太网交换芯片专为优化网络应用设计,是负责交换处理大量数据和转发报文的专用芯片,芯片内部的逻辑通路由数百个特性集合组成,以确保芯片在协同工作的同时保持较强的数据处理能力,架构实现较为复杂;CPU 是用于管理登录、协议交互的控制的通用芯片;PHY 负责处理物理层数据。
交换机的交换性能主要取决于背板带宽容量/包转发率、交换容量、端口速率和端口密度。
背板带宽是衡量交换机数据吞吐能力的重要指标,其值越大说明该交换机在高负荷下数据交换的能力越强。在全双工工作模式下,当交换机的背板带宽容量≥交换容量(=端口数×端口速率×2)时,才能实现线速转发(无阻塞转发),部分高端交换机采用无背板设计则需关注包转发率。
一般来说,交换机拥有的端口速率越高则代表设备的处理性能越强,适用于数据流量大的场景;拥有的端口密度越大,则代表着设备的转发能力越强,可连接设备数量更多,组网规模更大。
以太网交换机芯片是以太网交换机中用于交换处理大量数据及报文转发的专用芯片,相当于网络方面的ASIC,部分以太网交换机芯片内部会集成 MAC 控制器和 PHY 芯片。
需要传输的数据包由物理端口进入以太网交换芯片后,芯片的解析器首先对数据包进行字段分析,为流分类做准备。通过安全检测的数据包进行二层交换或三层路由,流分类处理器对匹配的数据包作出相应动作,将可以转发的数据包根据802.1P 或 DSCP 放到不同队列的 buffer 中,调度器根据优先级或 WRR 等算法进行队列调度并执行流分类修改动作,最后从端口发送该数据包。

典型以太网交换芯片主要由接口模块、内容处理模块、进出口数据包修改模块、MMU 模块、L2 处理器(查阅 MAC 表)、L3 处理器(查阅路由表)、安全模块等模块组成,部分以太网交换机芯片内部会集成CPU、MAC 控制器和 PHY 芯片。
交换机物理形态上,可以分为框式交换机和盒式交换机。框式交换机通常由一个机框和多个插槽组成,可以插入不同类型和数量的模块,如接口模块、主控模块、交换模块等,具有较高的灵活性和扩展性;而盒式交换机一般是一体化设计,接口数量和类型相对固定,部分盒式交换机接口采用模块化设计。框式交换机与盒式交换机的主要差异更多体现在内部构造与应用场景(OSI 使用层级)上。


3、交换机发展和技术演进
(1)从 OEO 到 OOO,全光交换机适配 AI 算力需求
目前基于 AISC 交换芯片的交换机,可以定义为 Optical to electrical to optical (OEO)packetcircuit switches,核心的报文交换转发功能由 AISC 芯片完成。OEO 交换机收发都需要光电转换来满足信号传输的要求。

2)英伟达高管加盟 Lightmatter 布局全光交换
2024 年 7 月份,英伟达副总裁 Simona Jankowski 加盟芯片初创公司 Lightmatter 任首席财务官。近期Lightmatter 以 44 亿美元的估值,其 Passage 光互联网产品对 AI 算力网络的重要性得到市场的高度重视。

Passage 是一种利用光子进行芯片互连的技术,属于 I/O 技术的一种。Lightmatter 的技术利用波导(wave guide)而非光纤在一个大的芯片间为各个不同种类的计算核心互连并传输数据,这提供了极高的并行互连带宽。
(3)谷歌在数据中心网络大规模部署 OCS 交换机
Google 的数据中心网络一直有三个核心的理念:软件定义网络(SDN)、Clos 拓扑结构、商用交换芯片。其中 CLOS 作为一种非阻塞的多级交换拓扑结构,由较小 radix 的交换芯片构成,可以扩展到任意大的网络,成为算力时代的主流架构。

Google 也是最早把 OCS 交换机规模引用的互联网企业。为了解决不同代际的网络基础设施灵活互联的问题,在 Jupiter 网络架构中引入了 MEMS 型光开关(Optical Circuit Switch,简称 OCS)全光交换机应用。OFC2023 上,谷歌详细介绍了其全新内部项目 Apollo,直接将 SP 层的 EPS 替换为 OCS,减少了网络中光电转换环节。
4、交换机关键技术和标准
RDMA 允许高吞吐、低延迟的网络通信,InfiniBand 和 RoCE 为 AIDC 主流方案。在传统的 TCP/IP 通信方式中,发送和接受数据的过程中,都是在源端应用层数据从上向下逐层拷贝封装,目的端从下向上拷贝和解封装,需要 CPU 参与的次数多、速度较慢。远程直接内存访问 RDMA(Remote Direct MemoryAccess)技术将数据直接从一台计算机的内存传输到另一台计算机,无需双方操作系统的介入,允许高吞吐、低延迟的网络通信。目前,RDMA 有三种不同的硬件实现:InfiniBand、iWarp(internet WideArea RDMA Protocol)、RoCE(RDMA over Converged Ethernet),AIDC 主要使用 IB(InfiniBand)和 RoCE 网络两种路线。
InfiniBand:专为高性能计算(HPC)和数据中心环境设计,提供高吞吐量和低延迟的数据传输。InfiniBand 具有高带宽、低延迟、服务质量(QoS)和可扩展性,可以在网络内的服务器、存储系统和其他设备之间实现快速、可靠且高效的数据传输。InfiniBand 的关键特性包括通道化架构、RDMA、消息传递语义和交换式网络,这些特性使其在数据密集型应用中表现出色。尽管 InfiniBand 在性能上具有明显优势,但其成本相对较高,且主要局限于特定的高性能计算领域。

RoCE:通过以太网实现 RDMA 功能,分为 RoCEv1 和 RoCEv2。RoCEv2 在以太网 TCP/IP 协议的 UDP 层实现,引入 IP 协议以解决可扩展性问题,并通过硬件卸载降低 CPU 利用率,适合大规模部署。相比于 InfiniBand,RoCEv2 性能上略逊一筹,但在成本上更具优势,适用于需要高性能但预算有限的场景,如数据中心内部通信、云服务提供商等。
1)、RDMA 技术降低多卡间通信时延
降低卡间通信时间是分布式训练中提升加速比的关键:为了缩短训练时间,大模型训练通常采用分布式训练技术,分布式训练系统的整体算力并不是简单的随着智算节点的增加而线性增长,而是存在加速比且小于 1,这是由于在分布式场景下,单次的计算时间包含了单卡的计算时间叠加卡间通信时间。降低多机多卡间端到端通信时延的关键技术是 RDMA 技术,该技术可以绕过操作系统内核。
RDMA 技术主要采用 IB 和 RoCEv2 方案:实现 RDMA 的方式有 InfiniBand、RoCEv1、RoCEv2、iWARP 四种。其中 RoCEv1 技术当前已经被淘汰,iWARP 使用较少。当前 RDMA 技术主要采用的方案为 InfiniBand 和RoCEv2 两种。
IB 和 RoCEv2 可以降低时延:在 InfiniBand 和 RoCEv2 方案中,因为绕过了内核协议栈,相较于传统TCP/IP 网络,时延性能会有数十倍的改善。在同集群内部一跳可达的场景下,InfiniBand 和 RoCEv2 与传统 IP 网络的端到端时延在实验室的测试数据显示,绕过内核协议栈后,应用层的端到端时延可以从50us(TCP/IP),降低到 5us(RoCE)或 2us(InfiniBand)。
2)、以太网和 IB 各有千秋
InfiniBand 与 RoCEv2 对比:IB 能支持单集群万卡 GPU 规模,且保证整体性能不下降,时延小于 RoCEv2,但成本略高,供应商主要以英伟达为主,其市场份额超过 7 成。RoCE 方案的特点是通用性较强和价格相对较低。除用于构建高性能 RDMA 网络外,还可以在传统的以太网络中使用。支持 RoCE 的交换机厂商较多,市场占有率排名靠前的包括新华三、华为等。

以太网发展势头强劲:根据 Dell‘OroGroup 预测,2025-2029 年,部署在用于加速服务器的 AI 后端网络中的交换机支出将超过 1000 亿美元。在供需利好因素的推动下,以太网发展势头正盛,越来越多的大规模 AI 集群将其作为主要架构。加速器种类的日益丰富推动了以太网的应用,包括基于英伟达 GPU的大型集群(如 xAI 的 Colossus)也选择了以太网进行部署,Dell‘OroGroup 预计 2027 年,以太网将超越 InfiniBand。
英伟达面向 AI 打造强大的以太网网络:2023 年 7 月,UEC(超以太网联盟)成立,其中成员包括 AMD、Arista、博通、思科、Meta 和微软等,为 AI 网络构建一套完整的基于以太网的解决方案。2024 年 7 月,英伟达也正式加入了 UEC,其发布的 Spectrum-X 以太网网络平台已被业界广泛使用,将 AI 网络性能提升至传统以太网的 1.6 倍,并计划后续每年推出新的 Spectrum-X 产品,不断提高 AI 以太网网络性能。