产品
产品中心
< 返回主菜单
产品

交换机

交换机所有产品
< 返回产品
交换机
查看交换机首页 >

无线

无线所有产品
< 返回产品
无线
查看无线首页 >

云桌面

云桌面产品方案中心
< 返回产品
云桌面
查看云桌面首页 >

安全

安全所有产品
< 返回产品
安全
查看安全首页 >
产品中心首页 >
行业
行业中心
< 返回主菜单
行业
行业中心首页 >

IT168 | AIGC浪潮之下,锐捷如何为算力网络注入“智能”

发布时间:2024-07-10

当前,AI技术正在持续赋能产业变革。继文本和图像之后,Sora的横空出世让AI浪潮席卷至视频领域,推动AI多模态领域的飞跃式发展。以AIGC为代表的业务应用正在重塑人类的学习路径、工作模式乃至生活节奏,引领我们进入一个更为智能、便捷的新时代。

AIGC时代,大模型参数量持续飙升,算力需求也随之爆发式增长,这就要求网络能够承载更大规模的GPU集群。以GPT-4为例,其参数量已跃升至惊人的1.8万亿,训练所需的算力更是高达4680P,只有万卡集群能够提供足够的算力支持,满足大模型训练的需求。

由于GPT-4扩展MoE引入了大量的All to All通信,使机内和机间通信的比例几乎达到了1:1,机间All to All通信是依靠交换机转发进行传输,因此网络通信对GPU利用率的影响越发明显。这意味着,交换机需要升级到800G和1.6T的规格,以满足大模型训练过程中的超大带宽需求。

此外,在构建大规模训练集群时,往往配备有数以万计的高性能GPU,旨在支持并行处理多个复杂的模型训练任务。这种多任务并行环境极大地增加了流量的复杂性和动态性,对网络系统的负载均衡能力提出了前所未有的挑战。因此,网络架构需要具备一定的灵活性和可扩展性,以应对不断变化的流量需求。

 

锐捷AIGC智算中心网络 支撑大规模算力集群建设

面向下一代AI云服务的智算中心网络建设,锐捷网络在去年推出了AI-Fabric智算中心网络解决方案AI-FlexiForce智算中心网络解决方案,以其高吞吐、大带宽、高可用的特性,可应用于大数据处理、机器学习、AIGC多种业务场景,助力客户构建万卡级别的智算中心网络,支撑AI业务快速发展。

锐捷网络AI-FlexiForce智算中心网络解决方案采用NCP+NCF为基础模块横向扩展的三级网络架构,并基于高性能芯片技术,通过将数据流切分成等长的Cell并负载到所有链路,提升网络带宽利用率;基于VOQ+Credit的端到端流控机制实现与业务无关的无损自闭环网络,助力业务算力提升。

AI-FlexiForce方案通过创新性地应用链路负载和拥塞控制技术,根本性解决网络中的拥塞冲突问题,提升GPU之间通信和计算效率,加速企业大模型应用的推出。同时,锐捷网络打造了分布式OS,意在实现分布式方案架构的统一管理基础上,最大程度降低系统性风险,提升AI训练网络的长期稳定运行。

 

 

▲锐捷网络数据中心网络事业群高级技术总监 权熙哲

 

为了适应客户的普适性场景,锐捷网络在今年创新性地推出了AILB负载均衡解决方案,并从1.0版本持续迭代升级至2.0版本。凭借其卓越的性能与灵活性,AILB方案实现了多任务环境下不同模型间的数据通讯。权熙哲指出,“借助AILB方案,客户可以更好地完成端到端的链路选择,实现端到端的高吞吐。”

基于GPU间有规律的传输流量特征及Leaf/Spine之间1:1收敛的特征,网络设备以Leaf分组,为Leaf接入地所有网卡,自动预规划全局负载均衡路径;主路由与其它等价路径形成1主多备,AILB方案的快切技术,实现10ms内完成路径切换。

据悉,AILB方案可以叠加单级PFC(防止“多打一”)构建无损Fabric,无需ECN端网对接,实现GPU网卡与外部网络解耦。AILB方案在16节点PerfTest测试中,带宽利用率高达97.6%,其快速的Failover切换时间,保障训练业务的连续性。该方案支持智算中心多租户部署模式,适用于非Mellanox系列网卡。

目前,锐捷网络智算中心网络解决方案为跨行业通用型,不特定于某个单一行业,而是广泛适用于AI大模型公司、政府行业、电力能源行业(如光伏企业)、IDC公司等等,为客户提供更加专业的技术服务,助力他们应对市场挑战,实现可持续发展。

 

400G交换机与LPO光模块惊艳亮相MWC2024

在MWC2024展区,锐捷网络展出了RG-S6990-128QC数据中心交换机,以及高密度、低功耗的400G/800G LPO自研光模块,适用于数据中心、高性能计算网络、企业核心分布层,为数据中心服务器和交换机提供经济高效的高速互联。

 

400G/800G LPO光模块 
▲400G/800G LPO光模块

 

RG-S6990-128QC交换机是锐捷网络面向高端数据中心和AIGC智算场景推出的新一代高性能、高密度盒式交换机。它采用先进的硬件架构设计,提供128个400GE端口,所有端口均支持线速转发,转发性能达到51.2Tbps,支持冗余可插拔电源和风扇,支持AI-Fabric方案RALB和AILB负载均衡技术,提升AIGC智算场景下流量带宽,缩短AI训练时长。

权熙哲指出,“以51.2T芯片为基础,这款交换机能够提供128个400GE端口,支持高达1000张GPU卡的通信规模。同时,高密度的接口设计使得单个交换机能够连接更多服务器,支持更大规模的服务器集群,满足未来不断增长的数据处理需求。”

400G-QDD-DR4-SM1310模块设计用于400G光模块,采用QSFP-DD封装,MPO-12 APC接头接口,使用波长1310nm,需配套单模光纤使用,最大传输距离为500m,可以实现功耗降低50%,LPO时延下降90%,成本降低15%,无需1分2跳线,规模增加一倍,仍可维持传统布线方案。

在成本方面,随着400G LPO光模块的DSP芯片量产,其成本占比已从早期的30%以上降至当前的10%左右,显著提升了产品的性价比。对于更高速率的800G及1.6T光模块,锐捷虽面临DSP芯片成本占比较高的挑战,但仍致力于通过技术创新与规模效应来降低成本。

权熙哲认为,“我们已正式发布了400G与800G的LPO光模块,实现了整体功耗降低超过60%的显著成效。具体而言,传统光模块可能消耗高达15瓦的电力,而我们的LPO光模块仅需4~5瓦,极大提升了能效比。希望通过锐捷的交换机加线性光模块,给客户提供一个极优的性价比。”

下半年,锐捷网络将推出800G及更高密度的交换机产品,同时,1.6T交换机及配套的线性光模块也在紧锣密鼓的研发中,预计在未来两年内面世。我们相信,通过不懈努力,锐捷能够克服技术挑战,推动光通信领域向更高速率、更低功耗、更低成本的方向发展。

 

转载来源:IT168

关注锐捷
关注锐捷官网微信
随时了解公司最新动态

返回顶部

请选择服务项目
关闭咨询页
售前咨询 售前咨询
售前咨询
售后服务 售后服务
售后服务
意见反馈 意见反馈
意见反馈
更多联系方式
是否找到您想要的内容?
您遇到了什么问题?
找不到想要的信息
筛选功能不好用
加载速度太慢
页面体验差
提交
您是否找到了与产品相关的文档
筛选功能是否帮助您更快找到所需的文档?
有帮助
一般
没有帮助
没用过
请问您遇到了什么问题?
需要填写的内容太多
有些信息不懂怎么填
页面有问题/错误
其他
确定
这些客户案例是否对您有帮助?
非常有帮助
比较有帮助
没有帮助
请您对这个客户案例进行评价
兴趣度
相关性
可信度
确定
感谢您的反馈!
感谢您的反馈!