聊聊下一代25G/100G数据中心网络

本文用了大量篇幅介绍下一代25G/100G超大规模数据中心，其中重要的关键点在于传统的Chassis交换机已经成为DCN架构未来持续快速演进的阻碍，无论是在性能、成本、迭代能力上，都比高性能、高密度的单芯片Box交换机拉开越来越大的差距。

发布时间：2019-09-25
点击量：
点赞：

分享至

我想评论

传统的Chassis交换机已经成为DCN架构未来持续快速演进的阻碍，单芯片Box交换机是否能一统天下？

背景

数据中心网络作为互联网业务快速持续发展的重要基础设施，已经从大家熟知的千兆网络到万兆网络，再到今天已经规模部署的25G/100G网络，网络性能的快速提升，满足了业务对带宽的迫切需求。那么既然已经是25G/100G网络了，为什么还要谈所谓的“下一代25G/100G数据中心网络”呢，这个“下一代”难道只是一个噱头？

今天的数据中心网络到底遇到了什么挑战？

业务的“不确定性”对数据中心网络技术的演进提出严峻挑战。

大家都熟悉业务发展驱动了技术的不断进步。但是从业务本身特点看，会发现业务是很难被看清，体现出很多的“不确定性”，包括业务内容的不确定性、业务技术的不确定性以及业务部署的不确定性。从基础网络的角度去看业务，其实是很难看得懂，也很难跟得上，这就对传统被动演进的数据中心网络提出了巨大的挑战。

面对这些”不确定性”，我们的网络到底应该如何做？如果还是被动地跟随、演进，在时间和架构成熟度上很难保障，所以网络架构设计必须寻找一个“确定性”的策略主动应对这些业务的“不确定性”，具体体现在以下几点：

网络性能的持续提升，提供更高的转发性能，包括服务器接入带宽和上行带宽，以及更低的网络收敛；同时基于RDMA技术的超低延时转发也是性能提升的重要方面；
网络稳定性的持续提升，特别是在高带宽下，网络稳定性更加重要，任何单点故障都会带来巨大的损失。除了网络本身组网的高可靠，还需要进一步提升运维能力，实现简单、标准、统一组网；
持续提高单集群服务器规模，降低每服务器的网络建设成本。建议单集群可以支撑10万台服务器，核心在于实现流量的大集中，大大减少DCI的链路成本，提供更高性能的转发能力和更低的转发时延；

所以总结来看，未来网络的架构演进，面对业务的各种“不确定性”，必须在网络性能、稳定性、网络规模上持续、快速迭代，走在业务的前面，摆脱网络层面的被动局面后，才能有更多精力和能力去探索、研究更加有价值的、贴近业务的技术研究和创新。

正基于此，25G/100G数据中心网络已经成为当前主流的网络形态。

▲ 图 1-1 传统25G/100G数据中心网络架构

如上图所示，传统25 G/100G数据中心网络可以实现服务器25G或100G接入，通过三级组网可以实现大规模组网，单集群服务器规模可以超过5万台。基于T1+T2组合的Server-Pod可以像搭积木一样灵活地横向扩展，按需建设，整体看起来似乎已经很完美，如果不考虑未来带宽升级400G/800G，这个架构还有必要再去折腾吗？

为什么25G/100G数据中心网络还需要迭代升级？

传统25G/100G数据中心网络之所以还需要进一步演进的关键就在于图 1-1 中T3设备。

传统大型10G及25G/100G数据中心网络中，T3层次的设备类型是多采用了多槽架构的框式交换机，即Chassis。虽然Chassis在以往的数据中心及MAN（Metropolitan Area Network，城域网）中可以很好地服务业务，但是对于未来网络架构持续快速演进、追求更大规模、更低成本、更快交付等层面，Chassis已经成为我们的障碍。

▲ 图 2-1 Chassis交换机

Chassis交换机多芯片结构消耗更多的转发时延

Chassis交换机采用的是多芯片的设计，在接口板卡和Fabric板卡上大多采用多个交换机芯片组合，实现更高性能和更高端口密度，如下图：

▲ 图 2-2 36个100G接口线卡

但是这种多芯片的结构会消耗更多的转发时延，如下图 2-3 所示：

▲ 图 2-3 Chassis多芯片内部转发示意图

在上面的示意图中有两条流，无论是跨板卡转发还是同一个板卡的两个端口转发，在Chassis交换机内部至少有三跳，理论产生的时延在10us左右。10us看似很小，但是业务是有感知的，因为基于RDMA的超低延时转发业务，优化过的端到端延时是1us，所以多芯片结构消耗的延时很重要。

Chassis交换机阻碍每服务器组网成本的持续降低

基于传统Chassis交换机组网时，相比单芯片Box交换机，每服务器的组网成本差异比较大，特别是在单集群服务器规模较小的情况。

▲ 图 2-4 Chassis交换机和单芯片
Box交换机的每服务器组网成本分析
（蓝色实线代表Chassis交换机，红色实线代表单芯片Box交换机）

图 2-4是模拟计算在不同规模的服务器组网下，采用Chassis交换机（576个100G接口）和单芯片Box交换机（128个100G接口）的每服务器组网成本差异，这里包括交换机、线缆等组件，进行归一化的处理，方便直观看到差异。

大家会发现，在单集群服务器规模2万台以下时，两种交换机组网思路的每服务器成本差异很大，即使到了单集群10万台服务器规模，两者的每服务器组网成本仍然有20%以上的差异。

备注1：模拟计算按照1台Chassis交换机对标4台单芯片Box交换机，保证总端口数相等，这种比较模型也有一定的假设，4台单芯片Box交换机对标1台Chassis交换机时不需要通过独立的Fabric互联形成一个整体。

另外，Chassis交换机组网带来的间接成本高，且无法支撑未来持续迭代。

首当其冲的是Chassis交换机的高功耗阻碍基础网络的快速交付，且无法持续支撑。因为Chassis交换机多板卡、多芯片的特性，随着接口速率及接口密度的升级，整机的功耗逐渐上升，整机576个100G接口的Chassis交换机（16槽）典型功耗已经达到20kW左右，如果再升级到全400G接口，整机的功耗预计达到50kW，这会导致机房的供电线路改造工作十分复杂，周期也非常长，甚至根本无法改造，这就严重影响业务对基础网络快速交付的要求，这就带来时间成本、物料成本的大量支出。Chassis交换机的大功耗，还带来散热的问题，需要特殊设计，这也涉及成本的增加。

Chassis交换机体积更大，当前16槽位36口100G交换机高度最低可以做到21U，但是16槽位36口400G交换机高度超过30U，需要占用更多的机柜空间，也是成本问题；

另外，因为Chassis芯片的特殊性及产品结构复杂性，对于架构同学和运维同学来讲，需要考虑的更加全面，自动化运维平台可能也需要做特殊的考虑，大大增加技术学习成本和运维成本，不利于网络简单、稳定、可靠的设计目标。

Chassis交换机阻碍网络架构持续快速迭代

Chassis交换机因为所采用芯片的特殊性、产品开发设计的高难度等问题，导致Chassis交换机自身更新迭代速率相对Box交换机慢，成为整网架构演进速度的短板。

Chassis交换机芯片与Box交换机芯片因为技术体系差异导致芯片迭代不同步。Chassis交换机通常采用专用的芯片，提供大容量的缓存及信元切片等特性，可以提供更强大的QoS能力，相比Box交换机采用的芯片，Chassis交换机采用的芯片架构、技术更加复杂，也就导致芯片的转发性能、功能特性迭代的周期长。而Box级交换机芯片技术相比简单，虽然不提供大缓存等能力，但是其转发性能、功能特性迭代更快，更加轻量级，几乎每1~1.5年可以升级一代。当Chassis交换机与Box交换机混合组网时，可能会出现性能及特性的不匹配，导致类似INT等新特性无法整网统一部署，造成一定程度的资源浪费。

Chassis交换机与Box交换机因为芯片差异及结构差异导致整机产品开发周期不同步。Chassis交换机一般由主控板、接口板、交换板等多个关键组件组成，整机多板卡+每板卡多芯片，很多功能需要依托集中式计算+分布式处理，同时需要实现跨板卡、跨芯片的表项同步等，导致Chassis产品的商业化开发难度和周期相比单芯片Box交换机要复杂N个量级，所以产品开发周期也非常长，这就会严重影响整体组网架构的迭代速度。

▲ 图 2-5 Chassis交换机复杂的硬件结构

总结
通过对比Chassis交换机和单芯片Box交换机，从转发性能、建网成本、运维成本、产品迭代等几个方面，说明Chassis交换机在DCN内部已经成为网络快速迭代的瓶颈。

总体上看，未来数据中心网络如果要快速平滑迭代、升级，Chassis交换机的问题必须要解决，采用基于单芯片Box交换机组网，去框化将成为未来的主流。

所谓的单芯片Box到底长什么样子？

前面我们花了大量的篇幅说明Chassis交换机已经成为未来架构持续演进的障碍，需要基于单芯片Box交换机替代，实现去框化，那么这个可以替换Chassis交换机的单芯片Box交换机到底长什么样子呢？

目前在传统的DCN架构，如图 1-1所示，在T3层次采用的就是Chassis交换机，一般采用16槽位，配置36口100G的板卡，整机可以提供576个100G接口，如下图：

▲ 图 3-1 锐捷网络Chassis核心交换机RG-N18018-X

所以适合替代传统Chassis交换机的单芯片Box交换机应该具备尽量高的转发性能，可以提供更高密度的100G接口。根据当前交换机芯片产业界的情况，已经商用的最高单芯片转发性能是12.8Tbps，整机最高可以提供128个100G接口，1台传统16槽位Chassis对等4台单芯片Box交换机，具体如下：

▲ 图 3-2 锐捷网络单芯片
高密100G交换机RG-S6920-4C

以锐捷网络的RG-S6920-4C为例，整机采用一颗高性能交换机芯片，提供单向12.8Tbps的转发性能；提供4个可插拔的子卡，每个子卡提供32个100G接口，未来随着400G光模块的普及，可以更换8个400G接口的子卡，整机提供32个400G接口。

基于单芯片Box交换机+多平面组的下一代超大规模数据中心网络

基于单芯片Box交换机的下一代25G/100G网络架构到底是什么样子？如下所示：

▲ 图 4-1 下一代25G/100G超大规模数据中心网络架构

整体概括来说，未来可以支撑规模持续平滑扩展的高性价比网络架构就是正交多平面的架构。

备注2：这里给出的只是一个建议的组网模型和思路，针对具体项目，需要根据收敛比的规划来调整相关平面和设备的数量

整个集群基于Leaf+Pod-Spine+Spine三级组成，其中Leaf+Pod-Spine组成Server-Pod，每个Server-Pod支持标准数量的服务器规模，作为标准化模块，整网通过横向扩容Server-Pod实现单集群服务器规模的平滑扩容，就像堆积木一样。

多个Server-Pod之间的网络通信，是通过与上层正交的多平面Spine设备进行互联。

同时，在Server-Pod和Spine层级，都采用了高性能单芯片Box设备，即整机提供128个100G接口，整网交换机设备只有两种规格，大大简化组网、运维。

标准化、横向可扩展的Serve-Pod

Sever-Pod由Leaf+Pod-Spine组成，对于25G网络来说，Leaf层产品端口形态一般是48x25G+8x100G，收敛比是1.5:1；Leaf设备上行通过8个100G接口连接到本Server-Pod内的8台Pod-Spine。

每个Server-Pod具体可以支撑多少台服务器的连接？在Pod-Spine设备端口数量一定的情况下，就取决于Pod-Spine设备的收敛比规划设计。

传统网络在Pod-Spine这个层面的收敛比设计一般为3:1，但是未来业务需要更低的收敛比，以更好地满足计算与存储分离、在线与离线混部带来的超大东西向流量需求（跨Server-Pod）；同时考虑Leaf层交换机收敛比一般都是1.5:1，所以建议Pod-Spine最低也能支持1.5:1的收敛比，通过计算，对于128口100G的单芯片Pod-Spine设备，采用80个100G端口下行，48个100G端口上行，最终收敛比可以做到1.67:1左右。但是考虑初期建设成本及网络流量的增长是逐渐升级的，所以可以先采用2.5:1收敛比，即采用下行80个100G端口，上行32个100G端口，减少Spine层面设备数量，Pod-Spine设备剩余空闲的端口可以满足未来扩展，进一步降低收敛比。

在这样的规划下，每个Server-Pod中，如果每台服务器采用双25G链路上行，那么单Server-Pod可以支持48x(80/2)=1920台服务器，如果每台服务器采用单25G链路上行，单Server-Pod可以支持48x80=3840台服务器。

对于这样的收敛比设计，如果单集群要支撑10万台服务器，只需要横向扩展52个Server-Pod，如果要扩展支持更大的服务器规模，无非是Spine层面128口单芯片交换机设备划分更多的下行端口连接更多的Pod-Spine，至于最大能支持多少Server-Pod，这又取决于Spine层面的收敛比设计。

统一、高性价比的多平面Spine

讲到这里，我们会发现Spine层面设备在传统DCN设计中采用的多槽位Chassis设备，但是在我们下一代25G/100G架构中，被单芯片128口100G的Box交换机替代，实现去框化。所以在考虑Spine层面的收敛比设计时，基于128口100G的设备规划。

对于Spine层面，也是平行多平面设计，与Server-Pod呈现平面正交的连接，目的是保证为所有Pod-Spine之间提供最大化的冗余连接，整体基于ECMP实现相同的跳数，保证最短的路径转发，也简化了网络的规划。

关于Spine层平面的数量，从图 4-1中可以看到，Spine平面的数量其实对应每个Server-Pod中Pod-Spine设备的数量。按照当前Server-Pod的规划，整网需要设计8个Spine平面，每个Pod-Spine上行对应一个独立的Spine平面。

每个Spine平面有多少台设备，取决于Pod-Spine的收敛比设计。按照之前Pod-Spine建议的收敛比设计，每个Spine平面需要规划32台Spine设备，那么8个Spine平面，一共需要规划256台的Spine设备。

之前已经提到，Server-Pod最终可以扩展多少，取决于Spine设备的收敛比设计，根据业内的一些经验，同时考虑各集群之间的东西向流量，即DCI的流量，建议单集群Spine层面至少可以扩展支持到3:1的收敛比性能。按照单集群10万台服务器规模最终有52个Server-Pod，对于每个Spine设备来讲下行方向至少分配52个100G接口，上行方向分配16个100G端口连接MAN设备就可以提供3:1的收敛比，未来可以随着Server-Pod规模的调整和收敛比的需求，灵活调整上、下行100G端口的分配，整体来说，Spine的128个端口数量非常的充裕。

一个完整的数据中心不只是Leaf和Spine

我们之前详细描述的内容只是针对一个DCN的最受关注的部分，即Leaf、Leaf-Spine及Spine，但是只有这三个部分是不完整的，如何实现集群之间的互访、如何对外提供业务呢？所以对于一个整体的数据中心园区来讲，整体架构应该是什么样子？

针对整个园区来说，我们建议的完整架构是基于内网和外网分离的方式，建设超大规模的数据中心园区。

▲ 图 4-2 基于单芯片Box交换机组网的超大规模园区架构

首先，内外网分离。外网就是连接运营商，实现最终用户访问数据中心业务的网络。内网主要是实现数据中心内部服务器之间的东西向流量。采用内外网分离的组网建议，目的在于保证成本增加较少的情况下，让网络的边界更加清晰，简化网络设备的数据规划和管理，实现运维的独立。
第二，建议以园区为单位建设一个集中、独立的GW（Gateway，网关）区域，例如Load-Balance、NAT（Network Address Translation，网络地址转换）、专线接入网关等，这种设计的考虑一方面在于GW业务对服务器的配置和性能要求与普通业务不同，而且两者对网络性能的要求也有较大差异，独立建设方便规划、运维，获得更好的收益。
第三，在园区一级建设MAN平面，实现同园区各集群之间东西向高速互联，或者通过MAN连接其他园区。对于MAN平面网络设备，如果确认对交换机大容量缓存等能力没有强需求，则也可以考虑去框，采用基于单芯片128口100G的Box交换机建设，实现建设成本和运维成本的降低。这里假设了每个平面部署6台，一共8平面进行建设。

之前园区的架构是一个三维立体的示意图，为了方便大家理解，这里展示的是二维平面图，具体如下：

▲ 图 4-3 基于单芯片Box
交换机组网的超大规模园区架构（二维图）