在近日召开的 GTC 2022 春季大会上,英伟达隆重发布了新一代以太网平台 NVIDIA Spectrum-4。该平台由 NVIDIA Spectrum-4 交换机系列、ConnectX-7 智能网卡、NVIDIA BlueField-3 DPU 和 DOCA 数据中心基础设施软件组成,能够大幅加速大规模云原生应用。

作为全球首个 400Gbps 端到端网络平台,NVIDIA Spectrum-4 的单芯片交换吞吐量达到了51.2Tbps,比上一代产品高出 4 倍,能够为规模大数据中心基础设施提供超高的网络性能和强大的安全性。由 Spectrum-4 加持的 SN5000 交换机,最高可以支持 128 个 400GbE 端口或 64 个 800GbE 端口。

为了实现更好的 AI 智能管理运维,NVIDIA Spectrum-4 还优化了 RoCE 网络架构,并提供自适应路由(Adaptive Routing)和增强拥塞控制。其加密带宽不但达到了令人惊叹的12.8Tbps,而且还可以支持硬件级 MACsec 和 VXLANsec。这样一来,搭载了 NVIDIA Spectrum-4 的数据中心不仅各种应用跑得更加畅快,而且在网络与安全性能上也有了更加可靠的保障。

值得一提的是,考虑到不同企业的实际情况,NVIDIA 还为用户准备了全系列的智能网卡,实现了从 10G 到 400G 速率的全覆盖(10/25/40/50/100/200/400G),并且提供了包括 Cumulus Linux、Mellanox 系列产品在内的丰富网络 OS、软件及工具。英伟达收购 Mellanox 和 Cumulus Networks 所产生的巨大价值,也在 NVIDIA Spectrum-4 身上得到了极佳的展现。

全球以太网市场的三强联姻

英伟达很早就意识到,再强大的算力也需要稳定可靠的网络来提供支撑。因此要想在企业级市场打造端到端的产品和解决方案,强大的网络能力可以说至关重要。

于是我们看到,在全球以太网市场一直处于领先地位的英伟达,先是在 2019 年 3 月斥资69 亿美金,收购了全球服务器和存储端到端连接解决方案的领先供应商 Mellanox。此举不仅让英伟达拥有了超高端计算环境下的网络互联能力,而且也在全球数据中心和 HPC 网络市场占据了一席之地。

紧接着,英伟达又在 2020 年 5 月收购了全球知名的网络软件供应商 Cumulus Networks。这在强化英伟达自身网络软件实力的同时,还加速开启了“软件定义数据中心”的全新时代。

通过接连收购 Mellanox 和 Cumulus Networks,英伟达快速消化和吸收了这两家企业强大的技术实力、产业资源与行业积累,使得这场举世瞩目的三强联姻呈现出了“1+1+1>3”的效果。一家集超强算力以及强大端到端联接能力于一身的全新英伟达,如今已蔚然成型。

WJH 让运维管理更加智能

与当前市场上的同类产品相比,英伟达打造的网络产品及解决方案不仅拥有超强的性能,而且还具备超强的智能,能够显著减轻网络管理运维的工作负荷以及提升运营效率。而这些在网络市场上独树一帜、“人无我有”的人性化智能设计,也成为了其产品最大的亮点。

以 WJH(What Just Happen,故障快照)为例,该技术是英伟达旗下以太网交换机独有的一种网络监控技术,内建在 ASIC 中提供线速数据流监控能力。其作用在于可对数据在网络转发过程中出现的各种事件进行精确的发现和定位,帮助网络使用者和维护者快速发现和定位网络中的故障和性能事件,从而提高对网络的监控水平,为故障排除和改进设计提供切实和量化的依据。

作为一种先进的流式遥测(Streaming Telemetry)技术,WJH 技术的优点就在于:它基于事件驱动,通过硬件加速,只保存故障相关数据包以及相关细节。这样既不会因为模糊统计采样影响监控效果,也不会因为过度采样而耗尽系统性能,做到了故障分析与性能运行“鱼与熊掌兼得”,可以说是相当智能了。

举例来说,当网管怀疑企业网络出现问题时,就需要对采样的数据包进行管理和分类,推断问题发生的原因并加以解决。有经验的网管想必都有过亲身体验:在面对大量数据包和缺乏精准信息的时候,这个排查过程往往需要耗费几个小时甚至是几天的时间。但是如今在 WJH 的帮助下,这类问题可能只需要几分钟就可以搞定。WJH 为网络运维管理带来的巨大便利,由此也可见一斑。

NetQ 让网络故障无处遁形

看到 NetQ 这个名字,熟悉它的小伙伴都能认出它其实就是业界好评如潮的 Cumulus NetQ,来自被英伟达收购的 Cumulus Networks。

与内建在以太网交换机里的 WJH 相比,作为一种分析工具软件的 NetQ,可以被企业用来配合 WJH,收集并分析来自 WJH 的遥测数据,并且为用户呈现可视化的分析结果。

事实上,NetQ 的功能还远不止于此。通过远程探针、主机代理进行采集与存储,并分析和处理各类数据,NetQ 还可以实现全网可观测性,让企业得以更加直观地发现和解决各类网络故障。

举例来说,当发现若干台服务器之间无法通信时,网管往往需要查看各台服务器的状态与多种接口配置、BGP 会话、EVPN 地址族、VLAN 以及 VNI 映射等等,整个排查过程需要耗费的时间,从几分钟到几个小时都有可能。然而借助 NetQ 的验证和协议专用选项卡等功能,网管只需轻点几下鼠标,仅用几秒钟就能找到故障原因。

NVIDIA Air 让数字孪生大放异彩

“数字孪生”是当下炙手可热的焦点话题,而 NVIDIA Air 则是一个创建网络数字孪生的免费平台,可以帮助企业创造物理网络的 1:1 的模拟环境。


通过 NVIDIA Air,企业 IT 团队可以在 1:1 的模拟环境中进行无硬件测试/培训、生产部署预演、新功能的测试与验证等各种操作。

对于企业来说,这种数字孪生模拟环境可以带来诸多好处,包括缩短部署时间、减少网络停机时间、降低实验室成本、在等待硬件到达时减少对网络硬件和构建的需求、提高创造力和协作能力(设计、监控、变更管理)、通过提供更多功能提高物理基础设施的价值、模拟真实的基础设施、持续集成……

在 NVIDIA Air 平台诞生之前,企业要想搭建模拟环境是一件非常麻烦的事情,不仅搭建过程耗时耗力,而且测试成本也相当高昂。如今在 NVIDIA Air 的帮助下,企业可以非常轻松地搭建大规模的模拟环境,显著降低测试成本,并将通过验证的成功实践部署到自己的生产环境中。

RoCE 打造一键式快速部署

传统的以太网端到端 RoCE 部署,需要在所有路径上的交换机和网卡添加大量的入出向Buffer,流控和 Qos 等配置,同时网工需要针对不同的企业流量模型和实时变化的业务流量来不停的调整buffer水线,以期达到最佳的 RoCE 无损网络效果。同时当 RoCE 流量丢包或者性能下降后,传统网工也是叫苦不迭,需要进行一台台设备排查来缩小范围,耗时耗力。英伟达交换机结合十几年的 RoCE 运维部署经验和先进的动态 buffer 共享技术,可以帮助用户轻松实现完整的端到端一键式 RoCE 部署和监控,彻底摆脱无损网络带来的高技术门槛。

用户仅需要在交换机敲入”nv set qos roce”一条简单命令便可轻松实现复杂的 RoCE 部署,并且通过一条 CLI 命令” nv show interface xyz qos roce counters”便可立刻收集到所有接口 RoCE 相关的流量统计,轻松掌控入向和出向的 buffer 水线情况,ECN 和 PFC 流控的报文收发情况。结合强大的 NETQ 智能网管平台,用户还可以通过图形化界面来实时查看整网拓扑的端到端 RoCE 流量统计和 buffer 监控,轻松排查由于 buffer 利用率过载或是流控异常导致某台交换机 RoCE 流量丢包情况。

结合英伟达先进的 ConnectX 智能网卡,和最新的 RTTCC 往返时间拥塞控制算法,还可帮助用户在无需交换机配置情况下,快速实现零接触 RoCE 部署,达到与传统无损 RoCE 解决方案的相当的性能。

一个网络新时代的开启

通过前面列举的多个范例,我们可以看到,英伟达在其网络产品及解决方案中的诸多人性化的创新功能设计,不仅通过人工智能技术的深入融合实现了 AI 智能运维管理,而且给传统的网络管理运维模式带来了本质的改变与全新的思路,显著提升了管理运维的工作效率,大幅节省了网管的工作时间,降低了企业的经济成本与开支。

英伟达提供的智能化网络产品和解决方案,不仅可以将网管从繁重的管理运维工作中解放出来,而且还能够为企业带来多方面的裨益:企业可以将更多的资源与资金专注于核心业务的拓展;网管可以有更多的时间与精力学习和探索人工智能、深度学习等新兴技术在业务中的应用与实践,更好地提升技术能力、提高工作效率;企业网络也可以在未来获得更多的升级与提升空间……

可以预见的是,随着越来越多人工智能与自动化技术,被深度融合到新一代的网络产品及解决方案当中,一个明显有别于传统以太网的新时代正在徐徐开启。