ICC訊 隨著人工智能重新定義計算格局,網絡已成為塑造未來數據中心的關鍵支柱。大語言模型訓練性能不僅取決于計算資源,更取決于底層網絡的敏捷性、容量與智能水平。業界正在見證從傳統以CPU為核心的基礎設施,向緊密耦合、GPU驅動、網絡定義的AI工廠(AI數據中心)的演進。
NVIDIA(英偉達)構建了全面的網絡解決方案組合,以滿足大規?,F代AI訓練與推理所需的突發高帶寬、低延遲需求——包括Spectrum-X以太網平臺、NVIDIA Quantum InfiniBand及BlueFieldDPU平臺。通過協同計算與通信,NVIDIA網絡產品為可擴展、高效且具備韌性的AI數據中心奠定基礎,使網絡成為賦能未來AI創新的中樞神經系統。
本文將探討NVIDIA網絡技術如何通過共封裝光學(CPO)創新,為大規模AI數據中心實現能效與韌性的大幅提升。
AI數據中心基礎設施與傳統企業數據中心有何不同?
在傳統企業數據中心中,一層交換機集成在每個服務器機架內,通過銅纜直接連接服務器,最大限度地降低了功耗和組件復雜度。這種架構足以滿足以CPU為核心、網絡需求適中的工作負載。
相比之下,NVIDIA開創的現代AI數據中心采用超密集計算機架和數千個GPU協同處理單一任務。這些設備需要跨整個數據中心實現最大帶寬和最低延遲,因此催生了新的拓撲結構——將一層交換機重新部署到機柜行末端。這種配置顯著增加了服務器與交換機之間的距離,使得光通信網絡成為必需。因此,功耗和光組件數量顯著增加,現在網卡到交換機以及交換機之間的連接都需要光模塊支持。
如圖1所示,這種演進反映了為滿足大規模AI工作負載對高帶寬和低延遲要求所需的拓撲結構和技術重大轉變,從根本上重塑了數據中心的物理形態和能耗特征。
圖1. 橫向擴展(Scale-out)和AI密集度依賴于光互連
如何優化AI數據中心的網絡可靠性與能效?
采用可插拔光模塊的傳統網絡交換機依賴多個電氣接口。在此類架構中,數據信號需經過漫長路徑:從交換芯片到印刷電路板,通過連接器傳輸至外部光模塊,最終才轉換為光信號。如圖2所示,這種分段式傳輸會導致顯著的電信號損耗——200Gbps通道的損耗高達22dB。這迫使系統需要采用復雜的數字信號處理(DSP)和多個有源組件進行補償。
圖2. Spectrum-X光子技術實現64倍信號完整性提升
由此帶來的是更高功耗(每個接口通常達30瓦)、增加的發熱量以及更多潛在故障點。大量獨立模塊和連接不僅推高系統功耗與組件數量,更直接削弱鏈路可靠性,為規模化部署的人工智能系統帶來持續運維挑戰。圖3展示了各組件的典型功耗情況。
圖3. Spectrum-X光子技術實現3.5倍能效提升
相比之下,采用共封裝光學(CPO)技術的交換機將電光轉換模塊直接集成在交換機封裝內。光纖直接連接位于交換芯片旁的光引擎,將電信號損耗降至約4分貝,功耗最低可控制在9W。通過簡化信號路徑并消除冗余接口,這種設計顯著提升了信號完整性、可靠性和能效。這正是高密度、高性能AI數據中心所需的理想解決方案。
共封裝光學(CPO)技術為AI數據中心帶來什么?
為滿足人工智能數據中心前所未有的需求,英偉達設計了基于共封裝光學(CPO)的系統。全新推出的NVIDIA Quantum-X光子學平臺和Spectrum-X光子學平臺(見圖4)將光學引擎直接集成到交換芯片上,以此取代傳統的可插拔光模塊。這些創新方案通過簡化信號路徑,顯著提升性能、能效與可靠性。這些突破不僅創造了帶寬和端口密度的新紀錄,更從本質上改變了人工智能數據中心的經濟效益與物理設計格局。
圖4. 采用集成式共封裝硅光引擎的NVIDIA光子交換芯片
Quantum-X光子技術如何定義下一代InfiniBand網絡
隨著NVIDIA Quantum-X InfiniBand光子平臺的推出,英偉達將InfiniBand交換技術推向新高度。該平臺具備:
· 115Tb/s交換容量,支持144個800Gb/s端口
· 采用第四代NVIDIA可擴展分層聚合與縮減協議(SHARP)技術,提供14.4TFLOPS的網絡內計算能力
· 液冷散熱實現卓越的熱管理效能
· 專用InfiniBand管理端口確保強大的帶內控制與監控功能
NVIDIA Quantum-X通過集成硅光技術實現無與倫比的帶寬、超低延遲及運行韌性。共封裝光學設計降低功耗、提升可靠性、支持快速部署,并能滿足代理式AI工作負載的大規模互聯需求。
Spectrum-X光子技術如何助力大規模以太網AI數據中心
將CPO革命延伸至以太網領域,NVIDIA Spectrum-X光子交換機專為生成式AI和大規模LLM訓練及推理任務設計。新一代Spectrum-X光子解決方案包含兩款基于Spectrum-6芯片的液冷機箱:
· Spectrum SN6810:提供102.4Tb/s,配備128個800Gb/s端口
· Spectrum SN6800:實現409.6Tb/s,配備512個800Gb/s超高密度端口
兩大平臺均采用NVIDIA硅光技術,大幅減少離散組件與電氣接口數量。相比傳統架構實現3.5倍能效提升,并通過減少潛在故障光組件數量將可靠性提高10倍。技術人員可獲得更便捷的維護體驗,AI運營商則享受加速1.3倍的設備上線速度與更優的首令牌生成時間。
英偉達共封裝光學技術由強大的合作伙伴生態系統支撐。這種跨行業協作不僅確保技術性能,更為全球大規模AI基礎設施部署提供了所需的制造擴展性與可靠性。
共封裝光學(CPO)如何實現性能、能效與可靠性的三重突破
共封裝光學技術的優勢顯而易見:
· 3.5倍能效提升:通過消除可插拔光模塊并將光學器件直接集成至交換芯片封裝,即使在網絡密度激增的情況下,單端口功耗仍大幅下降
· 10倍可靠性增強:減少離散有源組件數量并移除易故障的光模塊,顯著提升運行時間與操作可靠性
· 1.3倍部署加速:簡化的組裝與維護流程轉化為AI數據中心的快速部署與彈性擴展
這些交換系統實現業界領先的帶寬性能(最高409.6Tb/s,支持512個800Gb/s端口),并全部采用高效液冷技術應對高密度、高功耗環境。圖5所示分別為:NVIDIA Quantum-X Photonics Q3450交換機(115Tb/s),以及單芯片架構的Spectrum-X SN6810(102.4Tb/s)與四芯片架構集成光纖調配器的Spectrum-X SN6800(409.6Tb/s)光子交換平臺。
這些產品共同推動網絡架構變革,滿足AI工作負載對帶寬和超低延遲的極致需求。尖端光學組件與強大系統集成伙伴的結合,創造了適應當前及未來擴展需求的優化網絡架構。隨著超大規模數據中心對快速部署和堅如磐石的可靠性要求日益提升,CPO正從技術創新轉變為必然選擇。
圖5. NVIDIA Quantum-X與Spectrum-X光子交換平臺
如何開啟代理式AI新時代
NVIDIA Quantum-X與Spectrum-X光子交換機標志著網絡架構向AI規模化需求的專業化轉型。通過消除傳統電氣與可插拔架構的瓶頸,這些共封裝光學系統提供了現代AI數據中心所需的性能、能效與可靠性。隨著NVIDIA Quantum-X InfiniBand交換機計劃于2026年初商用、Spectrum-X以太網交換機于2026下半年上市,英偉達正在為代理式AI時代的優化網絡設立新標準。
敬請關注本文章系列第二篇,我們將深入解析這些突破性平臺的內部架構,揭秘支撐NVIDIA Quantum-X與Spectrum-X光子技術的硅光引擎核心技術——從芯片級集成創新到新型調制方案,下一期將全面剖析這些光子引擎在AI網絡領域脫穎而出的技術奧秘。
作者:Ashkan Seyedi, Nvidia市場產品總監
新聞來源:訊石光通訊網