光进铜退进行时：UCIe如何成为慢宽CPO的“天选接口”

judy -- 周五, 03/27/2026 - 17:09

人工智能（AI）模型训练对算力需求的增长导致AI数据中心带宽需求的急剧增加。通过传统铜互连来增加总带宽已经面临严峻挑战，功耗、传输距离以及带宽密度的矛盾日益突出，加速推动业界向CPO（共封装光学）技术转型。

四重瓶颈导致“光进铜退”

铜缆在AI Scale-up网络中失效，根源在于其物理极限、功耗、密度和可靠性四重瓶颈。

距离上，200 Gbit/s PAM4速率下，无源铜缆有效传输不足1米，无法覆盖机架内部互联。

功耗上，为补偿高频信号衰减，SerDes中的DSP功耗激增，200G链路能效高达5 pJ/bit，反超光学方案。

密度上，铜缆物理尺寸无法缩小，NVIDIA NVL72单机架已需5000余根铜缆，线束体积失控。

可靠性上，长链路多连接器故障风险高，AI训练中断代价巨大。

铜缆并非一夜过时，而是随着AI集群从百卡迈向万卡，其物理限制被集中引爆。光学技术（尤其是CPO）在传输距离、能效、带宽密度和可靠性上全面胜出，成为AI Scale-up网络唯一面向未来的解决方案。

与铜相比，光学可以提供光谱、偏振和空间复用，以优化比特率、能耗和带宽密度之间的权衡。共封装光学（CPO）将光引擎与处理器共封装，降低了与PCB相关的电子损耗。CPO还可以通过简化电子设备来降低延迟，但需要更高的光学带宽密度和极佳的高温可靠性。

5条技术路线角逐CPO市场

AI数据中心Scale-up网络对带宽近乎疯狂的增长需求促使CPO架构分化为“快而窄”（Fast-and-Narrow, FaN）与“慢而宽”（Slow-and-Wide, SaW）两条路径，本质上是为了在兼容性、能效、系统复杂性这三个维度之间寻找不同的平衡点。

“快而窄”核心逻辑是“进化”。它试图在不改变现有系统架构（如SerDes）的前提下，用光替代铜。技术上追求单通道高速率，通常采用PAM4编码，速率超过100 Gbit/s；同时也付出能耗惩罚和效率瓶颈代价，快而窄路线本质上是现有数据中心互联生态的惯性推动。

“慢而宽”放弃了对单通道速度的执着，转而利用光学天然的空间复用优势。技术上，将单通道速率降至32~64Gbit/s甚至更低，但通过增加通道数量（如使用VCSEL阵列或多芯纤维）来堆出总带宽。低速率带来了极高的信噪比，可移除DSP和纠错电路，显著降低能耗和延迟。

当前，CPO市场共有5条主流技术路线竞争，分别基于“快而窄”与“慢而宽”两种架构。

1、快而窄PAM4 VCSEL

已实现108 Gbps PAM4的CPO原型，3.2 Tbit/s的模块需32个VCSEL器件，200 Gbit/s速率的VCSEL技术已接近成熟。VCSEL技术已在可插拔光模块领域应用25年，累计出货量达数亿只，是相当成熟的技术体系。此外，实现200 Gbit/s传输速率的VCSEL器件已近在咫尺。

2、快而窄Silicon Photonics Microring (SiPho MRM) PAM4

英伟达和博通已将此方案应用到Scale-out网络中，单通道速率200 Gbit/s的速率，与铜互连共享SerDes。学术研究中符号速率可提升至每通道400 Gbit/s。该方案优势在于可与电子器件3D共集成、O波段色散小、可靠性优于硅光子可插拔模块。

3、慢而宽NRZ SiPho MRM

慢宽架构的NRZ SiPho MRM方案，该技术通过在总线上集成多个微环实现波分复用，且兼容CMOS探测。知名光互连创企Ayar Labs所推出的TeraPHY光I/O芯粒即采用了这一方案。

4、慢而宽NRZ MicroLED Arrays

该方案基于氮化镓材料，其可见光波段的特性能利用标准CMOS实现高效探测，且占位面积小，与CMOS共集成成熟。微软的800G原型机已测试成功；三星已完成基于MicroLED的100Gbps单通道光互联原型机开发。

5、慢而宽VCSEL Arrays

与MicroLED方案类似，在光纤束或多芯光纤中采用空间复用，其激光特性更易于实现光纤耦合，支持更长的传输距离，具有更高的电光转换效率。VCSEL更高的带宽使其能够支持从4 Gbit/s到超过100 Gbit/s NRZ的不同速率。

在这五条路线中，慢而宽架构的三条方案（SiPho MRM、MicroLED、VCSEL）均面临一个共同挑战：如何实现电域与光域的高效对接？答案可能就是UCIe。

UCIe为什么天然适配慢宽架构CPO？

1、架构同源：原生高并行度与光学“空间复用”的完美映射

传统SerDes倾向于不断拔高单通道的时钟频率，而UCIe的初衷则是“降频加宽”——通过极宽的数据总线（如x16、x64甚至更高通道数）在相对较低的速率（如32G或64G）下实现海量吞吐。

这种电子域的“并行”架构，恰好完美契合了SaW光学架构中多芯光纤和VCSEL/微环阵列天然的空间复用特性。数据从AI芯片输出后，UCIe芯粒可以作为理想的电子域多路复用器，直接将低速并行的电信号点对点映射到平行的光纤通道中，省去了复杂的串行/解串转换。

2、极致能效：卸载DSP包袱与“流模式”（Streaming Mode）的直连

SaW架构的核心优势在于，通过将单通道速率降至32 Gbit/s甚至更低，并采用简单的NRZ编码，大幅提高了信噪比，从而允许系统彻底移除高功耗的数字信号处理器（DSP）和纠错电子电路。

UCIe标准为这一优势提供了落地的接口：在架构上，UCIe支持绕过复杂的上层协议栈，通过其“流模式”（Streaming Mode）或原始模式（Raw Mode）直接与光引擎直连。结合UCIe的时钟转发机制与无串行器设计，光电链路的整体能效有望被极限压缩。

参考学术界在无串行器架构上的探索，结合UCIe标准的类似方案，能效有望向0.5 pJ/bit迈进。这不仅远低于传统铜线（约5 pJ/bit），更将芯片发热量大幅降低。

3、可靠性：低成本冗余打造“永不掉线”的AI网络

AI大模型训练对网络闪断（Link-flap）零容忍，单一通道的故障往往会导致整个集群停机重启，代价颇高。

在传统的“FaN”架构下，通道极其宝贵，引入冗余的成本极高。

在“SaW”+ UCIe架构下，海量的并行通道使得冗余备用通道的部署成本微乎其微。研究表明，增加10%-15%的备用通道，可将系统级FIT降至10以下，较无冗余方案降低一个数量级以上。

UCIe物理层天然具备的通道修复与降级机制，为这种光电级的容灾设计提供了完美的底层协议支持。

4、商业化印证：UCIe充当光电“协议转换枢纽” 在产业界的最新实践中已被成功验证。

在ASIC设计服务商Alchip与Ayar Labs近期联合发布的AI加速器架构中，系统通过引入一颗专用的I/O协议转换芯粒，对内通过UCIe-A连接AI计算核心，对外则通过UCIe-S的流模式（Streaming mode）直接连接Ayar Labs的慢宽架构（32 Gbps NRZ）TeraPHY光引擎。所有复杂的Scale-up网络协议（如UALink、PCIe、以太网）以及前向纠错（FEC）等控制功能，全部交由该芯粒处理。这种设计不仅让光引擎彻底“瘦身”，还使得核心AI算力芯片无需再为适配多变的网络协议而修改底层光电I/O，实现了计算逻辑与光通信的完美解耦。

参考：

https://ayarlabs.com/resources/enabling-next-gen-ai-infrastructure-with-co-packaged-optics-and-advanced-packaging/

https://ieeexplore.ieee.org/document/11165151

文章来源：奎芯科技

登录或注册后发表评论