3月10日,智元發(fā)布首個(gè)通用具身基座大模型——智元啟元大模型(GO-1)。據(jù)了解,該架構(gòu)由VLM(多模態(tài)大模型)+MoE(混合專家)組成。其中VLM借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規(guī)劃器)借助大量跨本體和人類操作數(shù)據(jù)獲得通用的動(dòng)作理解能力,MoE中的Action Expert(動(dòng)作專家)借助百萬真機(jī)數(shù)據(jù)獲得精細(xì)的動(dòng)作執(zhí)行能力。三者環(huán)環(huán)相扣,可以利用人類視頻學(xué)習(xí)、完成小樣本快速泛化并且降低具身智能門檻。其已成功部署到智元多款機(jī)器人(21.120, 1.59, 8.14%)本體,而且還會持續(xù)進(jìn)化,將具身智能推上一個(gè)新臺階。
對于多模態(tài)大模型與混合專家大模型的具體分工,智元具身研究中心常務(wù)主任任廣輝回復(fù)《每日經(jīng)濟(jì)新聞》記者問題時(shí)表示:“我們多模態(tài)大模型本身,自帶了一個(gè)專家。Latent Planner負(fù)責(zé)我們互聯(lián)網(wǎng)規(guī)模的圖文錄像訓(xùn)練,它來理解視頻中的動(dòng)作,比如倒水這個(gè)動(dòng)作,肯定需要手腕旋轉(zhuǎn)。而Action Expert(動(dòng)作專家),則是在看了很多理論,看了很多視頻動(dòng)作后,負(fù)責(zé)在機(jī)器人本體(上的)執(zhí)行!
任廣輝補(bǔ)充表示:“各個(gè)模型分工明確,各司其職,并且是分層的。就如人類學(xué)東西一樣,先學(xué)理論,再看別人如何操作,再自己操作。這樣分層次(學(xué)習(xí)),也令整個(gè)學(xué)習(xí)、訓(xùn)練相對而言更容易一點(diǎn)。”