隨著人工智能(AI)技術(shù)飛速發(fā)展,算力需求呈現(xiàn)爆發(fā)式增長(zhǎng)。從GPT-1到GPT-5,模型參數(shù)量從1.17億躍升至數(shù)萬(wàn)億,模型結(jié)構(gòu)也在不斷演進(jìn),從稠密LLM模型向MoE稀疏化模型以及多模態(tài)模型持續(xù)演進(jìn)。
面對(duì)這一趨勢(shì),單純依靠傳統(tǒng)服務(wù)器的簡(jiǎn)單堆疊已無(wú)法滿足需求,AI算力設(shè)施正加速向高密度、液冷化、集群化方向演進(jìn),這不僅帶來(lái)了更高的功率負(fù)載和更復(fù)雜的散熱要求,也對(duì)傳統(tǒng)數(shù)據(jù)中心的散熱、供配電系統(tǒng)、網(wǎng)絡(luò)設(shè)計(jì)等提出了新的挑戰(zhàn)。
9月17日,在上海召開的首屆AIDC產(chǎn)業(yè)發(fā)展大會(huì)上,中國(guó)電子工程設(shè)計(jì)院數(shù)據(jù)中心事業(yè)部副總經(jīng)理王志強(qiáng)向包括《每日經(jīng)濟(jì)新聞》在內(nèi)的媒體記者表示:“當(dāng)前整個(gè)GPU芯片及AI集群的功率密度演進(jìn)速度,已超過(guò)傳統(tǒng)云數(shù)據(jù)中心的技術(shù)演進(jìn)路徑。超高密度、超大規(guī)模部署,使基礎(chǔ)設(shè)施在動(dòng)力適配、樓體結(jié)構(gòu)、空間規(guī)劃等方面面臨巨大挑戰(zhàn)!
在王志強(qiáng)看來(lái),為匹配AI負(fù)載的快速演進(jìn)對(duì)算力的需求,機(jī)房要具備足夠的靈活性和彈性擴(kuò)展能力,并且在機(jī)房的規(guī)劃和建設(shè)模式上也需具有前瞻性。
算力設(shè)施將走向高密、液冷
事實(shí)上,隨著AI訓(xùn)練與推理任務(wù)復(fù)雜度的不斷提升,單機(jī)柜功率正從當(dāng)前的50kW(千瓦,功率計(jì)量單位)向300kW甚至更高水平躍進(jìn)。與此同時(shí),超節(jié)點(diǎn)規(guī)模的擴(kuò)展也使得單集群供電需求躍升至數(shù)百M(fèi)W(兆瓦,電功率的基本單位),遠(yuǎn)遠(yuǎn)超過(guò)了現(xiàn)有數(shù)據(jù)中心單棟樓10—20MW的供電能力。
在實(shí)際部署落地的過(guò)程中,高功率密度帶來(lái)基礎(chǔ)設(shè)施的升級(jí)挑戰(zhàn)遠(yuǎn)比想象中復(fù)雜。
王志強(qiáng)表示:“去年單柜20kW還算主流,今年華為384型機(jī)柜已經(jīng)做到60kW,而字節(jié)、阿里、騰訊這些互聯(lián)網(wǎng)大廠在推理和訓(xùn)練場(chǎng)景的單柜容量很快會(huì)突破100kW!
功率密度外,制冷也成為數(shù)據(jù)中心投資規(guī)劃中無(wú)法回避的難題。在冷卻技術(shù)方面,風(fēng)冷方案已接近極限,液冷成為轉(zhuǎn)型方向。這意味著數(shù)據(jù)中心的基礎(chǔ)設(shè)施必須同步迭代。
對(duì)此,當(dāng)日(9月17日)發(fā)布的《AIDC機(jī)房參考設(shè)計(jì)白皮書》中對(duì)AIDC(AI數(shù)據(jù)中心)的設(shè)計(jì)思路及部署模式給出了一些建議。比如:構(gòu)建全鏈路高效供電體系,中低壓配電系統(tǒng)按最大容量池化設(shè)計(jì);在建筑結(jié)構(gòu)規(guī)劃上,機(jī)房設(shè)計(jì)必須預(yù)留充足的層高和承重余量,以適配不斷增重的AI服務(wù)器及相關(guān)設(shè)備,同時(shí)保障后續(xù)設(shè)備更新?lián)Q代的靈活性;對(duì)于超節(jié)點(diǎn)域內(nèi)的互聯(lián)走線,按照最短互聯(lián)走線距離進(jìn)行規(guī)劃設(shè)計(jì),確保超節(jié)點(diǎn)內(nèi)時(shí)延最低。
在全球計(jì)算聯(lián)盟(GCC)秘書處CTO苗福友看來(lái),未來(lái)兩三年,國(guó)內(nèi)AIDC建設(shè)仍將保持每年40%以上的年增速,隨后每年新增建設(shè)量還會(huì)增加,然后慢慢趨于平緩。預(yù)計(jì)到2030年前后,年增長(zhǎng)率或在10%左右。
與新建機(jī)房相比,當(dāng)前更為現(xiàn)實(shí)的問(wèn)題是,存量數(shù)據(jù)中心機(jī)房以低密風(fēng)冷機(jī)房為主,面向AIDC高密液冷機(jī)柜需求,如何才能實(shí)現(xiàn)平滑演進(jìn)?
對(duì)此,王志強(qiáng)介紹了幾種路徑:第一,在規(guī)劃層面要引入模塊化理念;第二,做到風(fēng)液兼容和匹配,原來(lái)風(fēng)液比是4∶6,未來(lái)一年就可能變成1∶9!按_實(shí)很難,但我們已經(jīng)找到了一些出口,比如在荷載層面、空間層面、架構(gòu)層面做適度合理的極簡(jiǎn)!
中外AIDC發(fā)展路徑存在差異
今年以來(lái),海外科技巨頭們?cè)贏I基建上持續(xù)加碼。今年8月,OpenAI CEO奧特曼表示,未來(lái)公司將投入數(shù)萬(wàn)億美元夯實(shí)AI基建,用于支持各項(xiàng)人工智能服務(wù)。更早之前,Meta CEO扎克伯格也表示,Meta將斥資數(shù)千億美元建設(shè)幾個(gè)大型AI數(shù)據(jù)中心。
據(jù)統(tǒng)計(jì),2025年年初以來(lái),多個(gè)國(guó)家和地區(qū)紛紛宣布將千億美元以上資金規(guī)模投向AI基建領(lǐng)域。
針對(duì)我國(guó)AIDC和海外AI基建之間的發(fā)展路徑差別,王志強(qiáng)回應(yīng)稱: “在功率密度上,國(guó)際領(lǐng)先項(xiàng)目已普遍達(dá)到120至150kW/柜,英偉達(dá)2028年規(guī)劃向600kW推進(jìn),更追求單柜的超高密度;而國(guó)內(nèi)更多依靠光網(wǎng)絡(luò)封裝,在我們可以掌握的制程下,通過(guò)集群的方式來(lái)解決,目前主流在40-60kW/柜。在技術(shù)路線上,海外更注重GPU的性能發(fā)揮,常配置冷機(jī)提供中溫冷凍水,通過(guò)更低的水溫使GPU能夠工作在更高效的功率段上,而國(guó)內(nèi)受節(jié)能降耗驅(qū)動(dòng),大概供水的水溫在30—40攝氏度,是比較高的,可以實(shí)現(xiàn)全年的自然冷卻(可能會(huì)限制部分算力設(shè)備的峰值性能)!
此外,在集群規(guī)模上也面臨差距!昂M庖褜(shí)現(xiàn)10萬(wàn)卡的集群落地,而國(guó)內(nèi)基于國(guó)產(chǎn)算力卡的超大規(guī)模集群也在做,但規(guī)模再大就會(huì)面臨組網(wǎng)的挑戰(zhàn)。不過(guò)目前很多技術(shù),比如硅光封裝、光互聯(lián)等正在解決產(chǎn)業(yè)界的問(wèn)題。”王志強(qiáng)說(shuō)道。
雖然我國(guó)AIDC建設(shè)面臨諸多挑戰(zhàn),但產(chǎn)業(yè)各方已積極行動(dòng)。中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院高級(jí)工程師沈芷月介紹稱,在標(biāo)準(zhǔn)方面,全球計(jì)算聯(lián)盟(GCC)已經(jīng)布局了智能計(jì)算、數(shù)據(jù)中心、機(jī)密計(jì)算、邊緣計(jì)算、綠色計(jì)算等多個(gè)領(lǐng)域的重點(diǎn)標(biāo)準(zhǔn),目前已發(fā)布20項(xiàng),預(yù)計(jì)年底將達(dá)到30項(xiàng)。在技術(shù)的研發(fā)與創(chuàng)新方面,針對(duì)目前AIDC面臨的熱、電、空間等問(wèn)題的挑戰(zhàn),產(chǎn)業(yè)界將繼續(xù)投入新技術(shù)的研發(fā)和推廣,以提升AIDC的能效和性能。此外,還會(huì)加大產(chǎn)業(yè)協(xié)同與生態(tài)建設(shè)。
免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請(qǐng)核實(shí)。據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。