電廠|英偉達再推「中國特供版」AI芯片：人工智能競爭中的貓鼠游戲

分類: 最新資訊 創(chuàng)業(yè)詞典 編輯 : 創(chuàng)業(yè)知識發(fā)布 : 11-30

閱讀 :155

記者肖余林編輯高宇雷在中美人工智能的激烈競爭中，英偉達成為了游弋在政治和商業(yè)中尋找利益最大化的「鯊魚」。美國商務部產(chǎn)業(yè)與安全局（BIS） 1017 新規(guī)已經(jīng)在 11 月 16 日生效，英偉達針對中國市場推出的「特供版」 A800 和 H800 芯片遭到出口合規(guī)限制，無法向中國客戶出售。然而，11 月 9 日有消息透露，英偉達將推出三款針對中國市場的 AI 芯片，包括 H20、L20 和 L2 三款，并列出了詳細規(guī)格。隨后，英偉達在業(yè)績會上確認，將努力爭取高性能產(chǎn)品在中國市場的銷售許可，也會研發(fā)更多合規(guī)的數(shù)據(jù)中心產(chǎn)品組合?！肝覀冋谂U展我們的數(shù)據(jù)中心產(chǎn)品組合，以提供不需要許可證的新法規(guī)合規(guī)解決方案，這些產(chǎn)品可能會在未來幾個月內(nèi)上市?！?1月 24 日，據(jù)路透社報道，兩位消息人士透露，英偉達已告知中國客戶，H20 發(fā)布時間將推遲到明年第一季度。L20 芯片不會延期，并將按照原定計劃推出。消息人士無法分享有關 L2 狀態(tài)的信息。1017新規(guī)是 BIS 推出的第二個版本的限制措施，這一版本比第一個版本更加嚴格，根據(jù)芯片的總處理性能（TPP）和性能密度劃出限制條件，符合任一條件即認為處于管制范圍。特供版如何突破封鎖根據(jù) Semianalysis 透露的規(guī)格參數(shù)，H20、L20 和 L2 三款芯片的性能被大幅壓縮。以 H20 為例，這款芯片的峰值算力最大理論值僅為 296 TFLOPs，數(shù)字上還不如消費級的游戲顯卡。作為比較，熱門的 H100 芯片的這一數(shù)值為 1979 TFLOPs，消費級的 RTX 4090 顯卡為 661 TFLOPs。這樣的壓縮顯然是為了限制總處理性能和性能密度，以避開精心設計的封鎖條件：- H20的總處理性能為2368，性能密度僅為 2.9，小于 3.2 的管制許可值；- L20的總處理性能為1912，但性能密度為 3.1，小于 3.2 的管制許可值；- L2的性能密度為 5.2，但總處理性能僅為1544，小于 1600 的管制許可值。大幅壓縮參數(shù)之后，三款芯片仍然有眾多耐人尋味的地方。H20有比 H100 更高的緩存和帶寬，支持英偉達第四代 NVLink 連接，連接速度保留了 900 GB/s 滿速。這保證了多卡增強效果的實現(xiàn)，在實際多卡互聯(lián)環(huán)境中，H20 組合性能接近 H100 的 50%。不過，H20 的側重點在模型推理環(huán)節(jié)，不需要承擔 H100 那樣的預訓練任務。由于采用了與英偉達下一代 GPU 相似的核心，Semianalysis 推算，H20 在大模型推理運算中比 H100 還要快 20%，這將極大提高大模型產(chǎn)品在應用端的表現(xiàn)。比如，運行 Meta 700 億參數(shù)的 LLAMA 模型需要兩個 H100，但只需要一個 H20。L20和 L2 分別替代此前遭到管制的 L40 和 L4，更適合用于工作站等領域。L20 和 L2 采用了跟 RTX 4090 同樣的 Ada Lovelace 架構，其中，L20 使用的是 RTX 4090 同款的 AD102 GPU 核心。此前國內(nèi)有 RTX 4090 顯卡 DIY 工廠被曝出，買家大量囤積 RTX 4090，通過拆解出 GPU 核心，再外置鼓風機風冷的方式，讓多卡組合適配 AI 服務器工作?？紤]到國內(nèi)客戶的 DIY 能力，且由于 L20 在生產(chǎn)中不涉及產(chǎn)能受限的 CoWoS 封裝環(huán)節(jié)，因此能夠短時間內(nèi)推向市場，緩解很多買家的算力慌。誰還需要「特供版」聯(lián)想集團董事長兼 CEO 楊元慶曾表示，目前大多數(shù)大模型都在算力較強的公有云上訓練。未來，大模型的計算負載將逐漸由云端向邊緣側和端側下沉。越來越多的人工智能的推理任務將會在邊緣和設備端進行。英偉達的第一代「特供版」芯片 A800 和 H800 有 11 個月的出口窗口期，平臺公司利用這一窗口期大量采購。市場上有消息稱，百度、字節(jié)跳動、騰訊和阿里已向英偉達訂購了價值 10 億美元的共約 10 萬張 A800 芯片，將于年內(nèi)交付，另外價值 40 億美元的芯片將于 2024 年交付。騰訊曾發(fā)布公開聲明稱，儲備了大量的 A800 和 H800 芯片，足夠支持好幾套 AI 大模型的訓練。可以預見，第一代「特供版」將成為公有云算力的重要來源，承擔大模型的預訓練任務。第二代「特供版」把重點放在了大模型推理運算環(huán)節(jié)上，這一環(huán)節(jié)更靠近應用端，對算力要求相對于模型預訓練更低，更多的要求是在短時間內(nèi)處理大量的輸入數(shù)據(jù)。AI大模型訓練涉及到眾多環(huán)節(jié)，從 OpenAI 到創(chuàng)業(yè)公司，普遍面臨缺少訓練數(shù)據(jù)的情況，特別是垂直領域當中與業(yè)務有關的數(shù)據(jù)。電廠記者從業(yè)內(nèi)人士那里了解到，很多行業(yè)在上一輪數(shù)字化轉型當中沒能做好，導致在 AI 落地方面缺少數(shù)據(jù)。低數(shù)據(jù)量會造成應用端表現(xiàn)差，直接影響前端的表現(xiàn)，進而無法沉淀更多數(shù)據(jù)出來。因此，中小企業(yè)和個體創(chuàng)業(yè)者急需大模型落地，用相對不高的算力啟動，用時間把數(shù)據(jù)跑出來。這次的三款特供版芯片，也針對這一趨勢，面向更多「邊緣」客戶。英偉達此前就有布局，為了幫助更多沒有拿到足夠算力的中小企業(yè)和個體創(chuàng)業(yè)者。英偉達在 10 月份針對 Windows 平臺推出了 TensorRT-LLM，這個模型可以幫助運行在 Windows 設備的大模型更好地利用 RTX 顯卡和 GPU 的性能。根據(jù)英偉達的說法，這樣的設備超過 1 億臺?！柑毓┌妗惯€是「煙霧彈」美國商務部 1017 新規(guī)的生效時間是 11 月 16 日，正是傳言中 H20 的發(fā)布日期。H20 「原計劃」將在 11 月 16 日發(fā)布，在 12 月量產(chǎn)，但后來推遲到明年一季度。黃仁勛在業(yè)績會上也提到，「我們將確保與美國政府充分討論我們在這些產(chǎn)品上的意圖?！购茱@然，英偉達要留出時間窗口，等待監(jiān)管方的反應。那么，H20 首先是一枚煙霧彈。從 BIS 1017 新規(guī)中表現(xiàn)出的「哪里漏了補哪里」的特點來看，英偉達在與 BIS 的這場貓鼠游戲中占有主動權，有更豐富的技術儲備和應對思路。一旦 H20 進入安全通道，更多「特供版」也會陸續(xù)到來?？闪硪环矫妫幢阌ミ_主動推出「特供版」，也要考慮市場容量和產(chǎn)能。英偉達 H100 還在消化訂單，H200 排隊到明年二季度，整個供應瓶頸卡在臺積電的 CoWoS 封裝環(huán)節(jié)。H20 同樣使用臺積電的 CoWoS 封裝，這意味著 H20 即便繞過監(jiān)管，交付時間也可能比傳聞更長。由于出口限制措施，英偉達沒有在算力上實現(xiàn)突破，但 H20 在中國市場仍然是一款一魚多吃的產(chǎn)品。H20 買家將更依賴 NVLink 技術，英偉達也能借此鞏固自己 CUDA 軟件平臺的護城河。相應的，H20 買家在后續(xù)考慮國產(chǎn)替代時，就要承擔額外的遷移成本。等待時間越久，這枚「特供版」芯片的命運也會愈發(fā)撲朔迷離。

11-30

下一篇:純電/增程都有東風eπ007將于2024年上半年上市下一篇 【方向鍵 ( → )下一篇】

上一篇:北京市規(guī)自委：嚴格落實“穩(wěn)地價、穩(wěn)房價、穩(wěn)預期” 上一篇 【方向鍵 ( ← )上一篇】

成人动漫一区二区三区_国产主播一区二区_亚洲欧美亚洲_欧洲一区二区三区免费视频

最新資訊

電廠|英偉達再推「中國特供版」AI芯片：人工智能競爭中的貓鼠游戲

欄目列表

最新文章

相關文章