人工智能(AI)模型训练对算力需求的增长导致AI数据中心带宽需求的急剧增加。通过传统铜互连来增加总带宽已经面临严峻挑战,功耗、传输距离以及带宽密度的矛盾日益突出,加速推动业界向CPO(共封装光学)技术转型。
四重瓶颈导致“光进铜退”
铜缆在AI Scale-up网络中失效,根源在于其物理极限、功耗、密度和可靠性四重瓶颈。
距离上,200 Gbit/s PAM4速率下,无源铜缆有效传输不足1米,无法覆盖机架内部互联。
功耗上,为补偿高频信号衰减,SerDes中的DSP功耗激增,200G链路能效高达5 pJ/bit,反超光学方案。
密度上,铜缆物理尺寸无法缩小,NVIDIA NVL72单机架已需5000余根铜缆,线束体积失控。
可靠性上,长链路多连接器故障风险高,AI训练中断代价巨大。
铜缆并非一夜过时,而是随着AI集群从百卡迈向万卡,其物理限制被集中引爆。光学技术(尤其是CPO)在传输距离、能效、带宽密度和可靠性上全面胜出,成为AI Scale-up网络唯一面向未来的解决方案。
与铜相比,光学可以提供光谱、偏振和空间复用,以优化比特率、能耗和带宽密度之间的权衡。共封装光学(CPO)将光引擎与处理器共封装,降低了与PCB相关的电子损耗。CPO还可以通过简化电子设备来降低延迟,但需要更高的光学带宽密度和极佳的高温可靠性。
5条技术路线角逐CPO市场
AI数据中心Scale-up网络对带宽近乎疯狂的增长需求促使CPO架构分化为“快而窄”(Fast-and-Narrow, FaN)与“慢而宽”(Slow-and-Wide, SaW)两条路径,本质上是为了在兼容性、能效、系统复杂性这三个维度之间寻找不同的平衡点。
“快而窄”核心逻辑是“进化”。它试图在不改变现有系统架构(如SerDes)的前提下,用光替代铜。技术上追求单通道高速率,通常采用PAM4编码,速率超过100 Gbit/s;同时也付出能耗惩罚和效率瓶颈代价,快而窄路线本质上是现有数据中心互联生态的惯性推动。
“慢而宽”放弃了对单通道速度的执着,转而利用光学天然的空间复用优势。技术上,将单通道速率降至32~64Gbit/s甚至更低,但通过增加通道数量(如使用VCSEL阵列或多芯纤维)来堆出总带宽。低速率带来了极高的信噪比,可移除DSP和纠错电路,显著降低能耗和延迟。
当前,CPO市场共有5条主流技术路线竞争,分别基于“快而窄”与“慢而宽”两种架构。
1、 快而窄PAM4 VCSEL
已实现108 Gbps PAM4的CPO原型,3.2 Tbit/s的模块需32个VCSEL器件,200 Gbit/s速率的VCSEL技术已接近成熟。VCSEL技术已在可插拔光模块领域应用25年,累计出货量达数亿只,是相当成熟的技术体系。此外,实现200 Gbit/s传输速率的VCSEL器件已近在咫尺。
2、 快而窄Silicon Photonics Microring (SiPho MRM) PAM4
英伟达和博通已将此方案应用到Scale-out网络中,单通道速率200 Gbit/s的速率,与铜互连共享SerDes。学术研究中符号速率可提升至每通道400 Gbit/s。该方案优势在于可与电子器件3D共集成、O波段色散小、可靠性优于硅光子可插拔模块。
3、 慢而宽NRZ SiPho MRM
慢宽架构的NRZ SiPho MRM方案,该技术通过在总线上集成多个微环实现波分复用,且兼容CMOS探测。知名光互连创企Ayar Labs所推出的TeraPHY光I/O芯粒即采用了这一方案。
4、 慢而宽NRZ MicroLED Arrays
该方案基于氮化镓材料,其可见光波段的特性能利用标准CMOS实现高效探测,且占位面积小,与CMOS共集成成熟。微软的800G原型机已测试成功;三星已完成基于MicroLED的100Gbps单通道光互联原型机开发。
5、 慢而宽VCSEL Arrays

与MicroLED方案类似,在光纤束或多芯光纤中采用空间复用,其激光特性更易于实现光纤耦合,支持更长的传输距离,具有更高的电光转换效率。VCSEL更高的带宽使其能够支持从4 Gbit/s到超过100 Gbit/s NRZ的不同速率。
在这五条路线中,慢而宽架构的三条方案(SiPho MRM、MicroLED、VCSEL)均面临一个共同挑战:如何实现电域与光域的高效对接?答案可能就是UCIe。
UCIe为什么天然适配慢宽架构CPO?
1、架构同源:原生高并行度与光学“空间复用”的完美映射
传统SerDes倾向于不断拔高单通道的时钟频率,而UCIe的初衷则是“降频加宽”——通过极宽的数据总线(如x16、x64甚至更高通道数)在相对较低的速率(如32G或64G)下实现海量吞吐。
这种电子域的“并行”架构,恰好完美契合了SaW光学架构中多芯光纤和VCSEL/微环阵列天然的空间复用特性。数据从AI芯片输出后,UCIe芯粒可以作为理想的电子域多路复用器,直接将低速并行的电信号点对点映射到平行的光纤通道中,省去了复杂的串行/解串转换。
2、极致能效:卸载DSP包袱与“流模式”(Streaming Mode)的直连
SaW架构的核心优势在于,通过将单通道速率降至32 Gbit/s甚至更低,并采用简单的NRZ编码,大幅提高了信噪比,从而允许系统彻底移除高功耗的数字信号处理器(DSP)和纠错电子电路。
UCIe标准为这一优势提供了落地的接口:在架构上,UCIe支持绕过复杂的上层协议栈,通过其“流模式”(Streaming Mode)或原始模式(Raw Mode)直接与光引擎直连。结合UCIe的时钟转发机制与无串行器设计,光电链路的整体能效有望被极限压缩。
参考学术界在无串行器架构上的探索,结合UCIe标准的类似方案,能效有望向0.5 pJ/bit迈进。这不仅远低于传统铜线(约5 pJ/bit),更将芯片发热量大幅降低。
3、可靠性:低成本冗余打造“永不掉线”的AI网络
AI大模型训练对网络闪断(Link-flap)零容忍,单一通道的故障往往会导致整个集群停机重启,代价颇高。
在传统的“FaN”架构下,通道极其宝贵,引入冗余的成本极高。
在“SaW”+ UCIe架构下,海量的并行通道使得冗余备用通道的部署成本微乎其微。研究表明,增加10%-15%的备用通道,可将系统级FIT降至10以下,较无冗余方案降低一个数量级以上。
UCIe物理层天然具备的通道修复与降级机制,为这种光电级的容灾设计提供了完美的底层协议支持。
4、商业化印证:UCIe充当光电“协议转换枢纽” 在产业界的最新实践中已被成功验证。
在ASIC设计服务商Alchip与Ayar Labs近期联合发布的AI加速器架构中,系统通过引入一颗专用的I/O协议转换芯粒,对内通过UCIe-A连接AI计算核心,对外则通过UCIe-S的流模式(Streaming mode)直接连接Ayar Labs的慢宽架构(32 Gbps NRZ)TeraPHY光引擎。所有复杂的Scale-up网络协议(如UALink、PCIe、以太网)以及前向纠错(FEC)等控制功能,全部交由该芯粒处理。这种设计不仅让光引擎彻底“瘦身”,还使得核心AI算力芯片无需再为适配多变的网络协议而修改底层光电I/O,实现了计算逻辑与光通信的完美解耦。
参考:
https://ieeexplore.ieee.org/document/11165151
文章来源:奎芯科技