网站首页 > 技术分享 >
面向人工智能的光纤连接技术
发布时间:2024-06-17 22:50:49 · 赵法彬

      (文/Mustafa Keskin)提到人工智能(AI)时,您的脑海中会浮现什么?对于我而言,这一切始于去年11月,我的一位老友在领英(LinkedIn)上发了一篇帖子,表达他对ChatGPT的印象有多深刻。然而当我也注册了OpenAI账号后,真正让我着迷的是ChatGPT能够像人类一样提供答案,这些答案既符合语境,又具有技术上的合理性。 


      当然,它的局限性也比较明显,那就好似我在跟一个聪明但有点迟钝的人类朋友互动。它会以要点形式给出回答,并不断提醒我,它其实是一个人工智能模型。它督促我对它的回答保持一丝怀疑。在我看来,最吸引人的是屏幕输出答案的方式——每个字母和词都缓慢地出现,如同连接在另一端的人在打字输入一样。

QQ截图20240617224106


      六个月时光飞逝。如今,当我在ChatGPT上输入一个问题时,它的反应快得让我有点不知所措。在过去的六个月时间里,究竟发生了什么?ChatGPT的开发者们做了哪些更新调整? 


      最有可能的情况是,OpenAI扩展了其人工智能集群的推理能力,从而满足超过1亿用户的需求。据报道,在人工智能芯片制造商中处于领先地位的英伟达(NVIDIA)已供应大约20000颗图形处理器(GPU),用于支持ChatGPT的开发,并且有大幅增加图形处理单元使用的计划。据推测,即将推出的人工智能模型可能需要多达1000万个图形处理单元。

 


GPU集群架构——生成式人工智能的基础 


      现在,让我们退一步想想。对我而言,努力去理解20000颗GPU的概念并非难事,但是,通过1000万颗GPU的光连接来执行智能任务的想法很有挑战性。 


      经过数小时的互联网搜索,我偶然发现各种设计指南,其中详细介绍如何构建高性能网络,以提供人工智能工作负载所需的高速连接。

QQ截图20240617224122


      在这里我想探讨一下,如何通过最初配置较小的设置,然后将其逐渐扩大至包含数千颗GPU,从而创建GPU集群。我们将以英伟达设计指南为例,这些指南源于高性能计算(HPC)网络的传统。


      根据英伟达在该组设计指南中的建议,此过程涉及使用多个具有256颗GPU的pod的较小单元(可扩展单元)来构建大量GPU集群。每个pod包括8个计算机架和2个位于一排中间位置的网络机架。这些pod内部及pod之间的连接通过InfiniBand(一种高速、低时延的交换协议)建立的,采用的是英伟达的Quantum-2交换机。 


      当前的InfiniBand交换机利用800G OSFP端口,采用下一代数据速率为400G(NDR)的双工端口。在该配置中,每个端口使用8根光纤,因而每台交换机使用64x400G端口。下一代交换机,无论其名称如何,将采用极限数据速率(XDR)。这意味着,每台交换机使用64x800G端口,每个端口也使用8根光纤——主要是单模光纤。该4通道(8光纤)模式似乎是InfiniBand路线图中反复出现的图示(如下表所示),而未来将使用更快的速度。

QQ截图20240617224139


就布线方法而言,在高性能计算(HPC)领域,普遍采用的最佳做法需要采用点对点有源光缆(AOC)。这些光缆在光纤收发器之间建立牢固的连接,一根光缆连接两台光纤收发器。 


      但是,随着带有多芯光纤连接器(MPO)接口的最新800G NDR端口的面世,点对点连接的情形已从AOC光缆转变为MPO-MPO无源跳线。在考虑单个具有256个GPU的pod时,利用点对点连接没有什么大问题。我个人的做法是选择MPO跳线,以简化装置。

 


大规模运行 


      到目前为止,进展仍然相对顺利,但是在追求更大的规模时(例如实现16k GPU将需要将64个具有256颗GPU的pod互连起来),挑战就会出现,这是因为这些高性能GPU集群使用的计算结构具有线路优化特性。在线路优化设置中,来自各个计算系统的全部主机通道适配器(HCA)均连接至同一个叶交换机(leaf switch)。 


      据说,该设置对于在多任务(multi-job)环境中最大限度提高深度学习(DL)训练性能至关重要。一个标准的H100计算节点配备4x双端口QSFP,转换为8个上行链路端口(每个GPU一个独立上行链路)与8个不同的叶交换机连接,由此建立一个8条线路优化结构。

 QQ截图20240617224150


      在处理单个具有256颗GPU的pod时,该设计的工作可实现无缝衔接。但是,如果目标是构建一个包含16384颗GPU的结构,该怎么办?在这种场景中,我们有必要增加两个交换层。来自每个pod的第一个叶交换机与脊组一(SG1)中的每个交换机连接,每个pod内的第二个叶交换机与脊组二(SG2)中的每个交换机连接,以此类推。为取得完全实现的胖树(fat-tree)拓扑结构,则须加入第三层核心交换组(CG)。 


      让我们再次回顾一套搭载16384颗 GPU集群的一些数据。在计算节点和叶交换机(每个pod有8个叶交换机)之间建立连接时需要16384根光缆,意味着每个pod有256根MPO跳线。在我们开始网络拓展的过程时,建立叶-脊连接和脊-核心连接的任务变得更具有挑战性。这涉及首先捆扎多根点对点MPO跳线,然后将其敷设跨越50米至500米不等的距离。

QQ截图20240617224204


      有没有更高效的运作方式?建议之一是采用结构化布线系统,该系统采用两个接线板设计,利用大芯数MPO干线,可能采用144根光纤。这样,我们就能把18根MPO跳线(18x8=144)合并成一根Base-8干线光缆。合并后的光缆可以一次性敷设和连通数据中心场地。通过在端点使用适合8光纤连接的接线板和MPO适配器面板,我们可将其拆开并连接至我们的优化线路架构。该方法无需捆绑许多MPO跳线。 


      为说明这一点,让我们考虑以下场景:对于一个非阻塞结构,每个pod需要256条上行链路。我们可选择自每个pod拉出15x144根光纤干线,生成15x18=270上行链路。值得注意的是,这只需使用15个电缆护套即可实现。另外,该设置提供270-256=14个备用连接,这些备用连接可作为备份,或者甚至用于存储或管理网络连接。

QQ截图20240617224215


      最终,人工智能在理解我们的问题方面取得了重大进展,我们将见证其持续演变。在实现这一转变的过程中,寻求能够支持大规模GPU集群(无论是16K还是24KGPU)的布线解决方案是难题的重要组成部分,也是光通信行业正在迎接的一项挑战。


QQ截图20240617224230

本文作者Mustafa Keskin 

Mustafa Keskin在光纤行业拥有19余年的经验,目前担任康宁光通信公司应用解决方案经理,常驻德国柏林,是一位颇有建树的专业人士。他擅长根据行业趋势和客户洞察研究,为数据中心和运营商中央办公空间确定架构解决方案。此前,作为全球团队的一员,他在数据中心EDGE8光缆系统的开发中发挥了重要作用。他也将自己的专业知识运用在所发表的创新应用文章中,比如他介绍了在脊叶网络架构中使用康宁网格模块的方法。

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:1633373438