随着AI模型不断演进,模型参数持续攀升,智算中心的能力提升迫在眉睫。就在两周前,我们邀请了锐捷网络数据中心网络事业群解决方案专家冀国平和解决方案SE赖利根两位老师,和大家在线上对AIGC方案做了进一步交流和沟通。
由于问答环节时间有限,在这里,我们特别整理了大家普遍关心的一些问题和解答,希望能够对你有所帮助。错过直播或对我们AIGC方案感兴趣的朋友们,快来查收吧!
AIGC直播FAQ
1.AI 对数通行业有哪些影响?
AI 对数通行业已经产生了多方面的影响
在技术迭代方面:由于AI算力需求的激增,推动了交换芯片厂商从25.6T,51.2T和112.4T的快速迭代;BroadCOM,Marvell、NVIDIA、Cisco、盛科等芯片厂商都在急速芯片的迭代创新;
在行业创新方面:同时随着AI的不断发展,也会促进产业创新生态形成,比如算力中心高能耗,推动了液冷技术和LPO技术的发展;再比如UEC、GSE等新技术标准的创新等。
在运维管理方面:比如故障预测与诊断,AI 能够实时分析网络中的大量数据,对潜在的故障进行精准预测,我司运维平台中的光模块故障诊断和预测也将采用AI模型进行训练的。
在服务支持方面:借助 AI 技术,可以为用户提供更加个性化的服务体验,比如我司的智能客服系统能够准确理解用户的需求,提供针对性的解答和建议,提高用户满意度。
2.交换机buffer对RoCE有哪些影响?
buffer是保障RoCE网络不丢包的关键,一旦网络发生拥塞,就需要先通过buffer把来不及转发出去的报文先缓存起来,通过PFC或者ECN通知源端降速之后,再把缓存的报文慢慢转发出去。所以buffer越大,能应对越极端情况,比如要跨数据中心的百公里级RoCE传输的时候,就需要更大的buffer,来应对更长时间的降速响应时间内,缓存住更多已经从源端发出但来不及转发的报文。buffer跟工厂的仓库类似,比如工厂按固定速度生产产品,先存放到仓库,有人下单仓库再往外发货,当下单的速度比生产的速度慢的时候,仓库管理员发现库存到一定程度了,就要通知工厂生产慢一点,如果通知的链条太长,通知得慢了,仓库就有可能被挤爆。
3.同样是RoCE,你们和其他交换机厂商有啥区别?
我们和互联网头部客户合作很紧密,从25G的时候就给他们部署RoCE,对RoCE的理解有技术积淀。现在智算场景也是互联网头部先做大的集群部署,前面方案介绍里面有提到我们200G/400G交换机我们是出货量第一的,可以说我们跟这些互联网头部客户合作最紧密的。
我们在服务这些互联网头部客户的同时把他们的思路方法延伸到其它企业用户场景中,打造了服务产品来给用户做技术兜底,全程参与帮助客户从0到1建设智算集群。
4.你们的方案能支持哪些 GPU 品牌?
理论上所有的 GPU 类型都适用,交换机直接对接的是网卡,只需要在速率和协议上适配就能跑起来,包括RoCE协议和接口封装的协议等。同时我们跟大部分品牌的GPU都有对接测试过,包括英伟达(A100\A800\H100\H800),异腾的(910B),燧原,沐曦,寒武纪,海光,瀚博等。
5.运维平台能否申请测试账号使用?我比较看重要算力评估、仿真分析、网络监控、硬件监控、光模块监控功能。
可以,请您点击下方按钮申请,我们会尽快联系您获取测试体验账号,感谢您的关注~
目前我司的网络运维平台已经发布,并且有客户已下单使用。而包含算力仿真模块的版本也即将发布。如果您只想体验算力量化分析功能,我们也有搭建好的算力仿真线上平台,可在会后可以联系我们进行线上体验试用。
6.我们是需要对外进行租用,模型经常要更换,如果模型更换以后,RoCE 网络需不需要重新调优?如果需要,具体涉及什么步骤,需要什么配合?
RoCE 网络影响性能的参数主要是 PFC 和 ECN 相关,其中 PFC 配置主要跟连接的线缆长度和服务器响应时间相关,环境固定后即可确定下来,ECN 的参数则跟流量模型有一定关系,智算场景的流量模型相对单一,我们也有形成一些专家经验参数库,在我们众多的实际部署案例中,首次部署完成后的参数基本可以适用后续的所有业务场景,目前还没有遇到部署验收完了以后需要再调整参数的情况。当然,如果有新场景确实需要再次调参的情况,我们也准备了自适应 ECN 功能帮助客户自动去做调参。
7.液冷技术是比较热门的话题,液冷交换机有实际落地案例吗?
其实在2019年,我们就与阿里合作开发了浸没式液冷交换机的产品,并在阿里的张北数据中心、仁和数据中心进行了规模化部署。比如在张北数据中心是全球首个浸没式液冷集群的部署地点,通过将服务器和交换机浸泡在特殊的冷却液中,大幅降低了散热能耗,PUE低于1.2,最低可以达到1.09,已经达到世界先进水平。近期我们还联合阿里开发了用于智算网络的TH5 Liquid Tigatron的冷板式交换机,如果大家感兴趣,可以进入锐捷公众号去查看详细信息。
8.运维平台能否对AILB和RALB的流量均衡进行调优?对光端口模块使用状况进行监控及故障告警?
目前不需要运维平台对AILB和RALB的流量均衡调优,这两种负载均衡技术是交换机自动对流量进行均衡调度;锐捷运维平台可以对光模块的运行状况进行监控,并在指标劣化超过阈值时进行告警。
9.能监控RoCE网络中发送CNP报文吗?
锐捷网管软件平台可以监控到服务器的CNP报文数量,同时也能对经过交换机的CNP报文进行统计计数。
10.推理网络有没有什么要求?
算力租户各自租赁不同的GPU服务器进行推理计算。由于数据安全等要求,需要让不同租户之间只能访问本租户的服务器,不能访问非本租户的服务器。因此需要交换机具备多租户安全隔离的功能。
11.LPO模块价格会明显上升吗,对交换机有要求吗?
与传统高速光模块相比,LPO光模块去掉了DSP芯片,产品的成本会更优;同时减少了高耗能DSP芯片,光模块的工作温度就会降低,MTBF获得提升,从而降低了光模块的故障概率,这一点是运维团队非常关注的;锐捷LPO光模块有400G-Q112-DR4-LD,800G-OSFP-DR8-LD和800G-OSFP-2DR4-LD三种型号,您可以联系我司销售代表咨询详细价格。
LPO光模块需要搭载在BroadCom TH5芯片的交换机,锐捷的交换机型号为RG-S6990-128QC2XS。
12.这个网管软件支持PFC,ECN,DCQCN 配置调优命令脚本下发么?
锐捷网管软件平台现有版本已经可以支持PFC和ECN的配置命令的下发,至于DCQCN配置调优的命令下发功能还在规划开发中,敬请期待。
13.锐捷的运维能力是集成在自己的平台上的,是否具备被其他平台集成?
锐捷的AI运维平台能更好的支撑锐捷的数据中心网络交换机。如果您有自己的运维管理平台,我们可以提供锐捷AI运维平台的北向接口与您的管理平台对接。