DeepSeek發布最新NSA 加速文本訓練與推理阿思達克財經新聞 (2025-02-19 07:48:13)

DeepSeek發布最新技術論文《原生稀疏注意力:硬件對齊且可原生訓練的稀疏注意力機制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)。論文署名中,DeepSeek創始人梁文鋒也作為共創在列。

該論文提出一種名為NSA(Natively Sparse Attention),即「原生稀疏注意力」的新型注意力機制。NSA是一種用於超快速長文本訓練與推理的、硬件對齊且可原生訓練的稀疏注意力機制。據分析,在64K長文本場景下,NSA實現解碼速度提升11.6倍、前向傳播9倍加速及反向傳播6倍加速。(ta/w)~

阿思達克財經新聞
網址: www.aastocks.com
加密貨幣
比特幣BTC 93387.42 -40.17 -0.04%
以太幣ETH 1771.83 14.63 0.83%
瑞波幣XRP 2.21 -0.01 -0.25%
比特幣現金BCH 353.75 -9.03 -2.49%
萊特幣LTC 83.56 0.15 0.18%
卡達幣ADA 0.736212 0.06 8.20%
波場幣TRX 0.247200 0.00 -0.44%
恆星幣XLM 0.278893 0.01 5.03%
投資訊息
相關網站
股市服務區
行動版 電腦版
系統合作: 精誠資訊股份有限公司
資訊提供: 精誠資訊股份有限公司
資料來源: 台灣證券交易所, 櫃買中心, 台灣期貨交易所
依證券主管機關規定,使用本網站股票、期貨等金融報價資訊之會員,務請詳細閱讀「資訊用戶權益暨使用同意聲明書」並建議會員使用本網站資訊, 在金融和投資等方面,能具有足夠知識及經驗以判斷投資的價值與風險,同時會員也同意本網站所提供之金融資訊, 係供參考,不能做為投資交易之依據;若引以進行交易時,仍應透過一般合法交易管道,並自行判斷市場價格與風險。
請遵守台灣證券交易所『交易資訊使用管理辦法』等交易資訊管理相關規定本資料僅供參考,所有資料以台灣證券交易所、櫃買中心公告為準。 因網路傳輸問題造成之資料更新延誤,精誠資訊不負交易損失責任。