阿里雲自行研發HPN 企圖甩開輝達技術star4038 (2024-07-01 16:59:12)





網路設計在大型語言模型(LLM)的訓練過程中扮演極為關鍵的角色,而阿里雲的工程師兼研究員翟迪南所發布名為「阿里巴巴HPN:用於大型語言模型訓練的數據中心網絡」的研究論文,揭示了阿里雲自行研發的高性能網路(HPN)如何解決傳統乙太網路技術中的瓶頸。


編譯/戴偉丞




網路設計在大型語言模型(LLM)的訓練過程中扮演極為關鍵的角色,而阿里雲的工程師兼研究員翟迪南所發布名為「阿里巴巴HPN:用於大型語言模型訓練的數據中心網絡」的研究論文,揭示了阿里雲自行研發的高性能網路(HPN)如何解決傳統乙太網路技術中的瓶頸。






阿里雲的工程師兼研究員翟迪南所發布名為「阿里巴巴HPN:用於大型語言模型訓練的數據中心網絡」的研究論文,揭示了阿里雲自行研發的高性能網路(HPN)如何解決傳統乙太網路技術中的瓶頸。(圖/截取自阿里雲 官方X帳號)



翟團隊HPN的設計




傳統雲端運算只能提供速度低於10G的資料傳輸速度,同時更需要面臨LLM訓練過程中負載超過400G的週期性突發狀況。為此,翟迪南與其研究團隊開發了阿里雲HPN,使用雙平面架構以減少傳統數據中心常見的過載狀況,並且讓系統能夠精準地選擇數據傳輸流向。在翟迪南團隊所設計的HPN中,每個資料中心裝有1875個主機,每台主機又載有8個GPU,每個GPU又配有2個連接埠網卡。




更多新聞:阿里雲再度大降價!吸引AI客戶 加劇市場競爭




逐步擺脫輝達技術




即便阿里雲放棄了輝達(Nvidia)高速GPU互連技術「NVLink」,但鑑於GPU間的傳輸仍需大量頻寬,因此在主機內部網路仍是以輝達專有的技術進行運作。同時阿里雲也採用51.2 Tb/sec 乙太網路單晶片ToR交換機,雖然能夠使晶片運作更為穩定,但是也伴隨著散熱冷卻的需求,而市面上卻沒有適合的散熱系統,因此阿里雲將自行研發符合需求的散熱裝置。




翟迪南團隊的HPN設計也並非完美無瑕,其中複雜的佈線結構可能導致在進行網路連接埠、ToR交換機、網卡的連接時產生混淆。但是即便如此,該HPN可能還是會比NVLink還要便宜,除了節省成本外,還能夠在美中科技戰中巧妙地避開輝達的技術。




資料來源:Tom’s Hardware芯智訊



這篇文章 阿里雲自行研發HPN 企圖甩開輝達技術 最早出現於 TechNice科技島-掌握科技與行銷最新動態

加密貨幣
比特幣BTC 68677.12 159.03 0.23%
以太幣ETH 3914.27 88.37 2.31%
瑞波幣XRP 0.527972 0.00 -0.05%
比特幣現金BCH 484.69 0.72 0.15%
萊特幣LTC 84.76 0.86 1.03%
卡達幣ADA 0.461294 0.00 0.64%
波場幣TRX 0.112073 0.00 -0.90%
恆星幣XLM 0.108659 0.00 -0.02%
投資訊息
相關網站
股市服務區
行動版 電腦版
系統合作: 精誠資訊股份有限公司
資訊提供: 精誠資訊股份有限公司
資料來源: 台灣證券交易所, 櫃買中心, 台灣期貨交易所
依證券主管機關規定,使用本網站股票、期貨等金融報價資訊之會員,務請詳細閱讀「資訊用戶權益暨使用同意聲明書」並建議會員使用本網站資訊, 在金融和投資等方面,能具有足夠知識及經驗以判斷投資的價值與風險,同時會員也同意本網站所提供之金融資訊, 係供參考,不能做為投資交易之依據;若引以進行交易時,仍應透過一般合法交易管道,並自行判斷市場價格與風險。
請遵守台灣證券交易所『交易資訊使用管理辦法』等交易資訊管理相關規定本資料僅供參考,所有資料以台灣證券交易所、櫃買中心公告為準。 因網路傳輸問題造成之資料更新延誤,精誠資訊不負交易損失責任。