從簡(jiǎn)單的獨(dú)立行走到精準(zhǔn)的前后空翻,從經(jīng)過(guò)反復(fù)訓(xùn)練才能抓取物品到無(wú)須訓(xùn)練就能聽從指令處理家務(wù)……人形機(jī)器人的“進(jìn)化”速度令人驚訝。最近,硅谷機(jī)器人創(chuàng)新公司Figure AI的最新大模型Helix亮相,業(yè)內(nèi)有觀點(diǎn)認(rèn)為,Helix的能力“前所未有”,讓機(jī)器人能夠像人一樣思考與行動(dòng)。Figure AI這次發(fā)布究竟有哪些重大突破?它會(huì)是現(xiàn)階段人形機(jī)器人的主流發(fā)展方向嗎?中外人形機(jī)器人具有哪些不同的發(fā)力方向?《環(huán)球時(shí)報(bào)》記者對(duì)此進(jìn)行了采訪和調(diào)查。

Figure AI公司兩個(gè)共用“大腦”的機(jī)器人配合完成一系列復(fù)雜任務(wù)
這個(gè)刷屏的美國(guó)機(jī)器人有啥絕活
在Figure AI公布的一段近3分鐘視頻里,兩臺(tái)Figure人形機(jī)器人按照工作人員的指令,配合默契地將一堆食物與雜貨放入冰箱等相應(yīng)的位置。
美國(guó)機(jī)器人網(wǎng)站The Robot Report提到,視頻中有幾個(gè)值得注意的要點(diǎn),例如兩個(gè)機(jī)器人并不進(jìn)行語(yǔ)言交流,但它們?cè)诨?dòng)過(guò)程中會(huì)有明顯的停頓,它們盯著對(duì)方,似乎是一種不可思議的“心靈感應(yīng)”。
按照Figure AI公司的說(shuō)法,兩臺(tái)機(jī)器人共用一個(gè)大模型“大腦”,協(xié)作完成復(fù)雜任務(wù),這在行業(yè)內(nèi)是首例。此外,Helix還創(chuàng)造了其他多項(xiàng)“第一”:它是全球首個(gè)能夠?qū)φ麄(gè)人形機(jī)器人上半身進(jìn)行高頻率、連續(xù)控制的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型;它僅需接收自然語(yǔ)言指令,就能拾取幾乎任何小型家用物品,包括數(shù)千種它從未見過(guò)的物品。這些體現(xiàn)了人形機(jī)器人的“泛化”能力。
“Helix最大的突破在于它是一個(gè)‘通用’的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型。這意味著它將機(jī)器人的視覺(jué)感知、自然語(yǔ)言理解和動(dòng)作控制整合到了一個(gè)統(tǒng)一的框架中,這就是有點(diǎn)奔著端到端具身智能大模型方向去了!币晃蝗斯ぶ悄軐<腋嬖V《環(huán)球時(shí)報(bào)》記者,傳統(tǒng)的機(jī)器人系統(tǒng)往往針對(duì)特定任務(wù)進(jìn)行設(shè)計(jì),需要大量的編程工作,難以適應(yīng)新的環(huán)境和任務(wù)。而Helix模型則具備更強(qiáng)的泛化能力,能夠理解自然語(yǔ)言指令,并處理之前從未見過(guò)的任務(wù),這大大減少了對(duì)特定任務(wù)演示或大量手動(dòng)編程的需求。
《環(huán)球時(shí)報(bào)》記者在調(diào)查和采訪中了解到,Helix模型目前還存在一些短板。首先,Helix目前主要應(yīng)用于Figure機(jī)器人的上半身控制,包括手腕、頭部、手指甚至軀干。這意味著,對(duì)于下半身的控制,比如行走、奔跑等,可能還需要進(jìn)一步研發(fā)和完善。其次,盡管Helix在數(shù)據(jù)利用效率上表現(xiàn)出色,但其訓(xùn)練所用的數(shù)據(jù)量仍然相對(duì)較少,這可能會(huì)影響它在處理更復(fù)雜、更多樣化任務(wù)時(shí)的表現(xiàn)。
代表未來(lái)發(fā)展方向嗎
值得關(guān)注的是,大模型與人形機(jī)器人的融合日益加深。Helix模型不僅讓機(jī)器人能夠“看懂”“聽懂”,更重要的是,能夠讓機(jī)器人根據(jù)所見所聞,做出相應(yīng)的行動(dòng)。這打破了以往機(jī)器人技術(shù)中感知、理解和行動(dòng)之間的壁壘,實(shí)現(xiàn)了更高層次的智能化。有專家告訴記者,Helix模型可以被視為人形機(jī)器人發(fā)展歷程中的一個(gè)重要節(jié)點(diǎn),是數(shù)字化的AI模型與物理世界的真實(shí)交互,是一種“虛實(shí)融合”。
《環(huán)球時(shí)報(bào)》記者在采訪中了解到,從Helix的架構(gòu)來(lái)看,它與最近一篇發(fā)表在2024年機(jī)器人學(xué)習(xí)大會(huì)(CoRL)上的論文“非常相似”。
“Figure AI認(rèn)可了這條路線并成功移植到實(shí)體機(jī)器人上。Helix的出現(xiàn)證明了‘具身智能’方向的迭代速度越來(lái)越快,許多最新提出的技術(shù)路線能迅速落地到真實(shí)機(jī)器人身上。不過(guò),目前我們依然處在技術(shù)爬坡階段,量產(chǎn)仍是具身智能機(jī)器人領(lǐng)域面臨的最大挑戰(zhàn)!鄙钲谑腥斯ぶ悄芘c機(jī)器人研究院具身智能中心主任劉少山對(duì)《環(huán)球時(shí)報(bào)》記者表示。
業(yè)內(nèi)普遍認(rèn)為,“端到端”具身智能大模型是人形機(jī)器人發(fā)展的重要方向之一。即希望機(jī)器人能夠像人一樣,直接根據(jù)眼睛看到的、耳朵聽到的信息,做出相應(yīng)的反應(yīng),然后去執(zhí)行任務(wù)。
“像Helix這樣的通用型VLA(視覺(jué)-語(yǔ)言-動(dòng)作)模型,很可能代表了人形機(jī)器人大模型的一種主流發(fā)展方向。從目前的技術(shù)趨勢(shì)來(lái)看,人形機(jī)器人需要的大模型,不僅僅是‘大’,更重要的是‘通’(指的是模型的通用性和泛化能力)和‘精’(模型的高效性和精確性)!睂<艺f(shuō)。
不過(guò),“端到端”具身智能大模型并非是人形機(jī)器人發(fā)展的唯一目標(biāo),也不是現(xiàn)階段的全部。業(yè)界還存在另一種技術(shù)路線,即基于LLM(大語(yǔ)言模型)或VLM(視覺(jué)-語(yǔ)言模型)的分層大模型。此方案難度低一些,一般將任務(wù)分解為感知、決策、執(zhí)行等多個(gè)模塊,每個(gè)模塊可以使用不同的模型來(lái)實(shí)現(xiàn),更易于快速落地和迭代。一些行業(yè)內(nèi)的頭部企業(yè),都采用了這種方案。
劉少山表示,與聊天式大模型相比,具身智能大模型更需要的是強(qiáng)大的“學(xué)習(xí)能力”——它必須能在陌生環(huán)境中,通過(guò)與環(huán)境的交互不斷學(xué)習(xí)和進(jìn)化。當(dāng)前大模型大多是從海量數(shù)據(jù)中提取知識(shí),而具身智能則強(qiáng)調(diào)“學(xué)習(xí)如何學(xué)習(xí)”,而非簡(jiǎn)單記憶已有的知識(shí)。只有具備這類元學(xué)習(xí)、上下文強(qiáng)化學(xué)習(xí)等理論基礎(chǔ),才能真正實(shí)現(xiàn)通用智能。雖然這類研究方向提供了思路,但還需要時(shí)間來(lái)發(fā)展和完善。
國(guó)內(nèi)外機(jī)器人各有側(cè)重
全球人形機(jī)器人的技術(shù)競(jìng)賽正在升溫,新技術(shù)亮相越來(lái)越密集。近日,國(guó)產(chǎn)“天工”機(jī)器人成為全球首例可在室外連續(xù)攀爬多級(jí)階梯的人形機(jī)器人!疤旃ぁ睂(shí)現(xiàn)了基于視覺(jué)的感知行走,可實(shí)現(xiàn)無(wú)磕碰、不踩棱、不踏空地跨越連續(xù)多級(jí)樓梯和35厘米大高差臺(tái)階,奔跑時(shí)速提高至12公里,并且能在雪地進(jìn)行高速奔跑。深圳一家機(jī)器人公司的產(chǎn)品則完成了全球首例人形機(jī)器人“前空翻”特技。
“與Figure的最新機(jī)器人技術(shù)相比,國(guó)內(nèi)的機(jī)器人是在不同領(lǐng)域各有側(cè)重!币晃蝗斯ぶ悄軐<腋嬖V《環(huán)球時(shí)報(bào)》記者,國(guó)內(nèi)機(jī)器人公司在運(yùn)動(dòng)控制方面取得了顯著成果,例如跳舞、空翻等。這些機(jī)器人可能在部分處理復(fù)雜任務(wù),特別是涉及與環(huán)境的深度交互、理解自然語(yǔ)言指令等方面,與Figure相比可能有一定差距。
何時(shí)能像人一樣思考
在Helix的加持下,人形機(jī)器人能夠直接理解自然語(yǔ)言、解析視覺(jué)信息,并執(zhí)行相應(yīng)動(dòng)作。有科技媒體評(píng)論稱,Helix讓機(jī)器人像人一樣思考和行動(dòng)。Figure AI首席執(zhí)行官宣稱,“Helix的思維方式類似于人類!眲⑸偕秸J(rèn)為,“目前仍處于行業(yè)的早期階段,要讓人形機(jī)器人真正具備與人類相似的思維能力,還有很長(zhǎng)的路要走。即便最先進(jìn)的大模型,在幾乎無(wú)限算力的支持下,與人類的思維方式和水平依然存在顯著差距!
另一位專家稱,綜合國(guó)內(nèi)外多篇論文來(lái)看,目前最先進(jìn)的大模型應(yīng)該定性于“初始AGI(通用人工智能)”階段,雖然能力很強(qiáng),但仍局限于特定領(lǐng)域,比如做題目等,無(wú)法在所有通用任務(wù)中始終超越人類。要實(shí)現(xiàn)真正像人一樣思考,人形機(jī)器人需要實(shí)現(xiàn)通用人工智能(AGI)乃至超級(jí)人工智能(ASI)。這就得包括更先進(jìn)的算法、更強(qiáng)大的計(jì)算能力、更完善的感知系統(tǒng),以及對(duì)人類大腦工作機(jī)制的更深入理解!斑@是一個(gè)長(zhǎng)期、漸進(jìn)的過(guò)程,可能需要十幾年、幾十年甚至更長(zhǎng)時(shí)間!
“大家都是在黑暗中摸索,你現(xiàn)在走的路線看似取得了一定成果,最后這個(gè)路線就一定能走得通嗎?這個(gè)問(wèn)題沒(méi)有人能夠給出答案。”上述不具名專家告訴《環(huán)球時(shí)報(bào)》記者,發(fā)展未來(lái)產(chǎn)業(yè)的精神,就是在不確定性中尋找最大的確定性。階段性的成果也能夠形成較好的規(guī)模應(yīng)用,造福社會(huì),賦能產(chǎn)業(yè)。“我們一開始奔著終極目標(biāo),哪怕遭遇挫折,有部分技術(shù)轉(zhuǎn)化為成果也可以,并不強(qiáng)求非得造出一個(gè)全知全能的AGI!
專家在受訪時(shí)還提到,未來(lái)人形機(jī)器人可能會(huì)出現(xiàn)新的形態(tài)。一方面,機(jī)器人不必非得是人形,“實(shí)際上人形態(tài)并不是專業(yè)場(chǎng)景下最好的選擇,有時(shí)候輪式甚至機(jī)械臂工作效果更好、性價(jià)比更高!绷硪环矫妫诵螜C(jī)器人可能會(huì)呈現(xiàn)虛擬形態(tài),類似更智能、更完善的數(shù)字人!邦愃朴陔娪啊读骼说厍2》中的MOSS系統(tǒng),也有一定的可能,但這些距離現(xiàn)實(shí)還相當(dāng)遙遠(yuǎn)!