必讀視頻專題飛象趣談光通信人工智能低空經(jīng)濟(jì)5G手機智能汽車智慧城市會展特約記者

報道:英偉達(dá)與大客戶終克 Blackwell 芯片部署難題

2026年2月9日 07:02環(huán)球市場播報

一年前,英偉達(dá)首席執(zhí)行官黃仁勛向分析師表示,受新一代 Blackwell 人工智能芯片復(fù)雜度大幅提升的影響,其客戶從前代人工智能服務(wù)器芯片向該款芯片的過渡過程頗具 “挑戰(zhàn)性”。他稱,為提升芯片性能,“服務(wù)器機箱、系統(tǒng)架構(gòu)、硬件配置、供電系統(tǒng)等所有環(huán)節(jié)都必須做出調(diào)整”。

事實上,對于英偉達(dá)的一眾核心客戶而言,推動 Blackwell 服務(wù)器的落地與規(guī)模化運行,一度是令其倍感棘手的難題。據(jù)兩名為 OpenAI 及其他大客戶提供服務(wù)的英偉達(dá)員工、一名親歷相關(guān)問題處理的Meta公司員工透露,去年大部分時間里,OpenAI、Meta Platforms 及其合作的云服務(wù)商始終難以穩(wěn)定搭建并使用該類系統(tǒng)。而這些人士均表示,相比之下,客戶在收到 Blackwell 之前的英偉達(dá)人工智能芯片后,數(shù)周內(nèi)便能順利完成部署并投入使用。

英偉達(dá)核心客戶在使用其 Blackwell 系列芯片(尤其是 Grace Blackwell 型號)時遭遇的種種難題,似乎并未對這家芯片巨頭的業(yè)務(wù)造成嚴(yán)重沖擊。英偉達(dá)仍是全球市值最高的企業(yè),市值達(dá) 4.24 萬億美元,且目前已基本解決阻礙大客戶快速大規(guī)模部署該系列芯片的諸多技術(shù)問題。

但倘若英偉達(dá)未來的新芯片仍出現(xiàn)類似的部署難題,谷歌等競爭對手或?qū)⒂瓉硗粐紮C —— 只要這些競品廠商能幫助客戶更快地大規(guī)模部署芯片,以支撐前沿人工智能技術(shù)的研發(fā)。此類問題還可能導(dǎo)致難以實現(xiàn)芯片規(guī);涞氐脑品⻊(wù)商利潤縮水,同時拖慢依托這些芯片研發(fā)更先進(jìn)人工智能模型的 AI 企業(yè)的研發(fā)進(jìn)度。

對于 OpenAI、Meta這類客戶而言,無法按預(yù)期規(guī)模搭建芯片集群,會限制其訓(xùn)練更大規(guī)模人工智能模型的能力。據(jù)一名英偉達(dá)員工透露,盡管英偉達(dá)的客戶并未公開抱怨相關(guān)問題,但部分客戶已私下向英偉達(dá)的對接人員表達(dá)了不滿。

為彌補給受挫客戶帶來的損失,據(jù)一名云服務(wù)商高管及一名參與相關(guān)協(xié)商的英偉達(dá)員工透露,英偉達(dá)去年針對 Grace Blackwell 芯片的相關(guān)問題,向客戶提供了部分退款及折扣優(yōu)惠。

英偉達(dá)及云服務(wù)商高管均表示,問題主要出在將 72 顆 Grace Blackwell 芯片組聯(lián)的服務(wù)器上 —— 這類設(shè)計本是為了讓芯片間的通信速度大幅提升,并實現(xiàn)單系統(tǒng)協(xié)同運行。該款服務(wù)器可與其他服務(wù)器互聯(lián)互通,組成超大規(guī)模集群,為人工智能模型的高強度訓(xùn)練提供算力支持。

英偉達(dá)一名發(fā)言人表示,公司已于 2024 年回應(yīng)了有關(guān) Grace Blackwell 系統(tǒng)部署進(jìn)度緩慢的相關(guān)質(zhì)疑,并當(dāng)時發(fā)表聲明稱,該類系統(tǒng)是 “有史以來最先進(jìn)的計算機”,其落地需要 “與客戶開展聯(lián)合工程研發(fā)”。

聲明中還提到:“英偉達(dá)正與頭部云服務(wù)商展開深度合作,其團(tuán)隊已成為我們工程研發(fā)體系和流程中不可或缺的一部分,相關(guān)工程迭代屬于行業(yè)正,F(xiàn)象,也是我們預(yù)期中的環(huán)節(jié)!

OpenAI 基礎(chǔ)設(shè)施業(yè)務(wù)高管薩欽・卡蒂發(fā)表聲明稱,這家初創(chuàng)企業(yè)與英偉達(dá)的合作 “正完全按計劃為我們的研發(fā)路線圖提供算力支撐。我們正將所有可用的英偉達(dá)芯片全面應(yīng)用于模型訓(xùn)練和推理環(huán)節(jié),這也推動了研發(fā)的快速迭代與產(chǎn)品落地,近期我們發(fā)布的多款模型便是最好的證明”。

成長的陣痛

有跡象表明,英偉達(dá)已從此次的部署難題中吸取了經(jīng)驗教訓(xùn)。公司不僅對現(xiàn)有 Grace Blackwell 系統(tǒng)進(jìn)行了優(yōu)化,還針對今年晚些時候即將推出的、基于 Vera Rubin 新一代芯片的服務(wù)器開展了改進(jìn)工作。

據(jù)兩名參與芯片設(shè)計的人士透露,英偉達(dá)去年推出了性能更強勁的 Grace Blackwell 芯片升級版,以確保其運行穩(wěn)定性優(yōu)于初代產(chǎn)品。他們表示,這款名為 GB300 的升級版芯片,在散熱能力、核心材料及連接器品質(zhì)上均實現(xiàn)了提升。

一名了解具體情況的Meta員工稱,曾遭遇初代 Grace Blackwell 系統(tǒng)技術(shù)故障的Meta工程師發(fā)現(xiàn),新款芯片的組聯(lián)難度大幅降低。另一名為 OpenAI 提供服務(wù)的英偉達(dá)員工則透露,OpenAI 等部分客戶已對尚未到貨的 Grace Blackwell 芯片訂單進(jìn)行調(diào)整,轉(zhuǎn)而增訂這款升級版產(chǎn)品。

去年秋季,英偉達(dá)曾向投資者透露,其 Blackwell 系列芯片的大部分營收已來自經(jīng)優(yōu)化的 Grace Blackwell 服務(wù)器,公司計劃在今年實現(xiàn)該款服務(wù)器的大批量交付。

深度依賴英偉達(dá)芯片的埃隆・馬斯克旗下 xAI 公司,在 Grace Blackwell 服務(wù)器的落地應(yīng)用上似乎走在了行業(yè)前列。去年 10 月,該公司已在孟菲斯的數(shù)據(jù)中心完成了約 10 萬顆該款芯片的部署并投入運行,目前尚不清楚這一部署策略是否帶來了更優(yōu)的效果。

先搭建,后測試

英偉達(dá)研發(fā) Blackwell 芯片的目標(biāo)十分明確:幫助客戶以遠(yuǎn)優(yōu)于前代人工智能芯片的規(guī)模和成本效益,開展人工智能模型的訓(xùn)練工作。

在英偉達(dá)的前代服務(wù)器中,客戶最多只能將 8 顆芯片進(jìn)行組聯(lián),且芯片間的通信速度較慢。而 Blackwell 系列芯片的設(shè)計核心,是通過在單臺服務(wù)器內(nèi)組聯(lián) 72 顆 Grace Blackwell 芯片,減少不同服務(wù)器間的數(shù)據(jù)傳輸量,從而釋放數(shù)據(jù)中心的網(wǎng)絡(luò)資源,支撐更大規(guī)模人工智能模型的訓(xùn)練與運行。

據(jù)一名曾參與芯片集群搭建的甲骨文員工透露,通過該種方式搭建大規(guī)模芯片集群,還能提升基于其訓(xùn)練的人工智能模型的質(zhì)量,該系統(tǒng)的設(shè)計初衷便是減少模型訓(xùn)練過程中常見的硬件故障。

然而,英偉達(dá)的這一新設(shè)計本身也存在漏洞。將大量芯片高度集成組聯(lián),意味著單顆芯片的故障都可能引發(fā)連鎖反應(yīng),導(dǎo)致由數(shù)千顆芯片組成的整個集群癱瘓或運行中斷。據(jù)三名親歷過此類故障的人士透露,企業(yè)若要從最近的保存節(jié)點重啟中斷的訓(xùn)練流程,所需成本從數(shù)千美元到數(shù)百萬美元不等。

英偉達(dá) Grace Blackwell 系統(tǒng)的落地從一開始便波折不斷。2024 年夏季,芯片設(shè)計缺陷導(dǎo)致量產(chǎn)推遲,各類問題開始顯現(xiàn)。一年前,首批 Blackwell 芯片交付客戶后,服務(wù)器機柜又接連出現(xiàn)過熱、連接故障等問題,致使微軟、亞馬遜云科技、谷歌、Meta等核心客戶紛紛削減訂單,轉(zhuǎn)而采購前代芯片。

多家訂購了 Grace Blackwell 芯片的云服務(wù)商員工表示,他們認(rèn)為英偉達(dá)在相關(guān)軟硬件尚未完全調(diào)試到位的情況下,便向客戶進(jìn)行了交付。

但英偉達(dá)一名前高管為公司的這一策略進(jìn)行了辯護(hù),稱 72 芯組聯(lián)的 Grace Blackwell 服務(wù)器遭遇的這些成長陣痛,恰恰體現(xiàn)了黃仁勛勇于突破技術(shù)邊界、而非追求穩(wěn)妥的經(jīng)營理念。英偉達(dá)現(xiàn)任及前任員工均認(rèn)為,指望英偉達(dá)能精準(zhǔn)預(yù)判 OpenAI、Meta等客戶的規(guī);渴饒鼍跋碌男酒阅,本身并不現(xiàn)實。

且有跡象表明,OpenAI 目前已實現(xiàn)英偉達(dá) 72 芯組聯(lián)服務(wù)器的規(guī)模化使用。本周四,OpenAI 宣布,公司最新的人工智能代碼模型 GPT-5.3-Codex 的研發(fā),全程 “由該款專屬系統(tǒng)聯(lián)合設(shè)計、提供訓(xùn)練算力并支撐部署運行”。

營收兌現(xiàn)遇阻

據(jù)兩家云服務(wù)商的高管透露,去年全年,芯片部署的延遲令 OpenAI 的部分云服務(wù)合作伙伴蒙受了損失 —— 這些企業(yè)曾為 Grace Blackwell 芯片投入巨額資金,原本期望芯片能快速上線并收回成本,而云服務(wù)商只有在客戶開始使用芯片后,才能獲得相關(guān)收入。

據(jù)一名參與相關(guān)協(xié)商的云服務(wù)商高管透露,為緩解資金壓力,部分云服務(wù)商去年與英偉達(dá)協(xié)商達(dá)成了折扣協(xié)議,得以按實際使用量的較小比例支付芯片費用。

另據(jù)一名英偉達(dá)員工及一名英偉達(dá)制造合作伙伴的工作人員透露,英偉達(dá)還為部分退回服務(wù)器的客戶辦理了退款。

云服務(wù)商推出新技術(shù)時,往往需要先承擔(dān)相關(guān)成本,待客戶開始使用硬件后才能獲得收入,因此這一階段的利潤率通常較低。一份文件顯示,在截至去年 8 月的三個月里,甲骨文公司因出租 Blackwell 系列芯片虧損近 1 億美元,究其原因,是甲骨文完成服務(wù)器調(diào)試并向客戶交付的時間,與 OpenAI 等客戶開始使用并支付租金的時間存在明顯滯后。

這份為甲骨文云業(yè)務(wù)高管準(zhǔn)備的內(nèi)部演示文件指出,Grace Blackwell 芯片租賃業(yè)務(wù)毛利率為負(fù),主要是受 OpenAI 位于得克薩斯州阿比林市的數(shù)據(jù)中心相關(guān)芯片部署問題,以及客戶驗收周期滯后的影響。

甲骨文此后曾向投資者表示,其人工智能云業(yè)務(wù)最終將實現(xiàn) 30% 至 40% 的毛利率,這一預(yù)期已涵蓋數(shù)據(jù)中心上線前的投入期。

甲骨文的發(fā)言人則拒絕就此置評。

編 輯:章芳
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
推薦閱讀

精彩視頻

精彩專題

關(guān)于我們廣告報價聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號

公司名稱: 北京飛象互動文化傳媒有限公司

未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像