電廠|英偉達再推「中國特供版」AI芯片:人工智能競爭中的貓鼠游戲
記者 肖余林編輯 高宇雷在中美人工智能的激烈競爭中,英偉達成為了游弋在政治和商業(yè)中尋找利益最大化的「鯊魚」。美國商務部產(chǎn)業(yè)與安全局(BIS) 1017 新規(guī)已經(jīng)在 11 月 16 日生效,英偉達針對中國市場推出的「特供版」 A800 和 H800 芯片遭到出口合規(guī)限制,無法向中國客戶出售。然而,11 月 9 日有消息透露,英偉達將推出三款針對中國市場的 AI 芯片,包括 H20、L20 和 L2 三款,并列出了詳細規(guī)格。隨后,英偉達在業(yè)績會上確認,將努力爭取高性能產(chǎn)品在中國市場的銷售許可,也會研發(fā)更多合規(guī)的數(shù)據(jù)中心產(chǎn)品組合?!肝覀冋谂U展我們的數(shù)據(jù)中心產(chǎn)品組合,以提供不需要許可證的新法規(guī)合規(guī)解決方案,這些產(chǎn)品可能會在未來幾個月內(nèi)上市?!?1月 24 日,據(jù)路透社報道,兩位消息人士透露,英偉達已告知中國客戶,H20 發(fā)布時間將推遲到明年第一季度。L20 芯片不會延期,并將按照原定計劃推出。消息人士無法分享有關 L2 狀態(tài)的信息。1017新規(guī)是 BIS 推出的第二個版本的限制措施,這一版本比第一個版本更加嚴格,根據(jù)芯片的總處理性能(TPP)和性能密度劃出限制條件,符合任一條件即認為處于管制范圍。特供版如何突破封鎖根據(jù) Semianalysis 透露的規(guī)格參數(shù),H20、L20 和 L2 三款芯片的性能被大幅壓縮。以 H20 為例,這款芯片的峰值算力最大理論值僅為 296 TFLOPs,數(shù)字上還不如消費級的游戲顯卡。作為比較,熱門的 H100 芯片的這一數(shù)值為 1979 TFLOPs,消費級的 RTX 4090 顯卡為 661 TFLOPs。這樣的壓縮顯然是為了限制總處理性能和性能密度,以避開精心設計的封鎖條件:- H20的總處理性能為2368,性能密度僅為 2.9,小于 3.2 的管制許可值;- L20的總處理性能為1912,但性能密度為 3.1,小于 3.2 的管制許可值;- L2的性能密度為 5.2,但總處理性能僅為1544,小于 1600 的管制許可值。大幅壓縮參數(shù)之后,三款芯片仍然有眾多耐人尋味的地方。H20有比 H100 更高的緩存和帶寬,支持英偉達第四代 NVLink 連接,連接速度保留了 900 GB/s 滿速。這保證了多卡增強效果的實現(xiàn),在實際多卡互聯(lián)環(huán)境中,H20 組合性能接近 H100 的 50%。不過,H20 的側重點在模型推理環(huán)節(jié),不需要承擔 H100 那樣的預訓練任務。由于采用了與英偉達下一代 GPU 相似的核心,Semianalysis 推算,H20 在大模型推理運算中比 H100 還要快 20%,這將極大提高大模型產(chǎn)品在應用端的表現(xiàn)。比如,運行 Meta 700 億參數(shù)的 LLAMA 模型需要兩個 H100,但只需要一個 H20。L20和 L2 分別替代此前遭到管制的 L40 和 L4,更適合用于工作站等領域。L20 和 L2 采用了跟 RTX 4090 同樣的 Ada Lovelace 架構,其中,L20 使用的是 RTX 4090 同款的 AD102 GPU 核心。此前國內(nèi)有 RTX 4090 顯卡 DIY 工廠被曝出,買家大量囤積 RTX 4090,通過拆解出 GPU 核心,再外置鼓風機風冷的方式,讓多卡組合適配 AI 服務器工作??紤]到國內(nèi)客戶的 DIY 能力,且由于 L20 在生產(chǎn)中不涉及產(chǎn)能受限的 CoWoS 封裝環(huán)節(jié),因此能夠短時間內(nèi)推向市場,緩解很多買家的算力慌。誰還需要「特供版」聯(lián)想集團董事長兼 CEO 楊元慶曾表示,目前大多數(shù)大模型都在算力較強的公有云上訓練。未來,大模型的計算負載將逐漸由云端向邊緣側和端側下沉。越來越多的人工智能的推理任務將會在邊緣和設備端進行。英偉達的第一代「特供版」芯片 A800 和 H800 有 11 個月的出口窗口期,平臺公司利用這一窗口期大量采購。市場上有消息稱,百度、字節(jié)跳動、騰訊和阿里已向英偉達訂購了價值 10 億美元的共約 10 萬張 A800 芯片,將于年內(nèi)交付,另外價值 40 億美元的芯片將于 2024 年交付。騰訊曾發(fā)布公開聲明稱,儲備了大量的 A800 和 H800 芯片,足夠支持好幾套 AI 大模型的訓練。可以預見,第一代「特供版」將成為公有云算力的重要來源,承擔大模型的預訓練任務。第二代「特供版」把重點放在了大模型推理運算環(huán)節(jié)上,這一環(huán)節(jié)更靠近應用端,對算力要求相對于模型預訓練更低,更多的要求是在短時間內(nèi)處理大量的輸入數(shù)據(jù)。AI大模型訓練涉及到眾多環(huán)節(jié),從 OpenAI 到創(chuàng)業(yè)公司,普遍面臨缺少訓練數(shù)據(jù)的情況,特別是垂直領域當中與業(yè)務有關的數(shù)據(jù)。電廠記者從業(yè)內(nèi)人士那里了解到,很多行業(yè)在上一輪數(shù)字化轉型當中沒能做好,導致在 AI 落地方面缺少數(shù)據(jù)。低數(shù)據(jù)量會造成應用端表現(xiàn)差,直接影響前端的表現(xiàn),進而無法沉淀更多數(shù)據(jù)出來。因此,中小企業(yè)和個體創(chuàng)業(yè)者急需大模型落地,用相對不高的算力啟動,用時間把數(shù)據(jù)跑出來。這次的三款特供版芯片,也針對這一趨勢,面向更多「邊緣」客戶。英偉達此前就有布局,為了幫助更多沒有拿到足夠算力的中小企業(yè)和個體創(chuàng)業(yè)者。英偉達在 10 月份針對 Windows 平臺推出了 TensorRT-LLM,這個模型可以幫助運行在 Windows 設備的大模型更好地利用 RTX 顯卡和 GPU 的性能。根據(jù)英偉達的說法,這樣的設備超過 1 億臺?!柑毓┌妗惯€是「煙霧彈」美國商務部 1017 新規(guī)的生效時間是 11 月 16 日,正是傳言中 H20 的發(fā)布日期。H20 「原計劃」將在 11 月 16 日發(fā)布,在 12 月量產(chǎn),但后來推遲到明年一季度。黃仁勛在業(yè)績會上也提到,「我們將確保與美國政府充分討論我們在這些產(chǎn)品上的意圖?!购茱@然,英偉達要留出時間窗口,等待監(jiān)管方的反應。那么,H20 首先是一枚煙霧彈。從 BIS 1017 新規(guī)中表現(xiàn)出的「哪里漏了補哪里」的特點來看,英偉達在與 BIS 的這場貓鼠游戲中占有主動權,有更豐富的技術儲備和應對思路。一旦 H20 進入安全通道,更多「特供版」也會陸續(xù)到來??闪硪环矫妫幢阌ミ_主動推出「特供版」,也要考慮市場容量和產(chǎn)能。英偉達 H100 還在消化訂單,H200 排隊到明年二季度,整個供應瓶頸卡在臺積電的 CoWoS 封裝環(huán)節(jié)。H20 同樣使用臺積電的 CoWoS 封裝,這意味著 H20 即便繞過監(jiān)管,交付時間也可能比傳聞更長。由于出口限制措施,英偉達沒有在算力上實現(xiàn)突破,但 H20 在中國市場仍然是一款一魚多吃的產(chǎn)品。H20 買家將更依賴 NVLink 技術,英偉達也能借此鞏固自己 CUDA 軟件平臺的護城河。相應的,H20 買家在后續(xù)考慮國產(chǎn)替代時,就要承擔額外的遷移成本。等待時間越久,這枚「特供版」芯片的命運也會愈發(fā)撲朔迷離。
11-30