速途網(wǎng)專訪(報(bào)道:王佩)一只搭載全景相機(jī)的機(jī)器狗正嘗試?yán)斫饧t燈停綠燈行的含義,而在它背后,一群頂尖AI科學(xué)家正試圖用“以人為中心”的新范式,重新定義機(jī)器人與物理世界的交互方式。
“現(xiàn)有的本體硬件與實(shí)際需求仍存在較大差距。”面對(duì)速途網(wǎng)關(guān)于技術(shù)路線的追問(wèn),大曉機(jī)器人董事長(zhǎng)王曉剛直言不諱。

圖:大曉機(jī)器人董事長(zhǎng)王曉剛
在這場(chǎng)采訪中,王曉剛系統(tǒng)闡述了大曉機(jī)器人的技術(shù)路線——具身智能被期待擁有一個(gè)強(qiáng)大的“大腦”,這源于過(guò)去幾年在大語(yǔ)言模型和多模態(tài)模型上取得的突破,大家期待將這種語(yǔ)言模型的能力賦予機(jī)器人,以實(shí)現(xiàn)通用化能力。
但是,我們能夠看到現(xiàn)有技術(shù)路線的明顯缺陷,包括VLA模型。
VLA模型是以機(jī)器為中心的,通過(guò)輸入指令、圖像和視頻,直接輸出動(dòng)作,它不太需要去理解真實(shí)的物理世界和物理規(guī)律。我們期待將來(lái)有一個(gè)更強(qiáng)的“大腦”能去理解世界,這就是大曉提出的世界模型,與之伴隨的是ACE環(huán)境式采集范式。
王曉剛表示,以前以機(jī)器為中心,基于不同物理結(jié)構(gòu)的本體采集真機(jī)數(shù)據(jù),很難綜合得到一個(gè)比較通用化的“大腦”。現(xiàn)在環(huán)境式采集“以人為中心”,通過(guò)第一視角、第三視角和多模態(tài)數(shù)據(jù),更好地對(duì)人和物理世界的交互進(jìn)行建模,并利用這些數(shù)據(jù)訓(xùn)練我們的世界模型。簡(jiǎn)單粗暴地使用端到端或VLA并不能解決具身智能對(duì)“大腦”的期望。
特斯拉“視覺(jué)方案”路線與大曉的“世界模型”
像特斯拉和Figure AI提出的所謂“視覺(jué)方案”,只有視覺(jué)維度也會(huì)存在缺陷。在王曉剛看來(lái),視覺(jué)確實(shí)是機(jī)器人理解世界的第一步,但要真正掌握物理規(guī)律、實(shí)現(xiàn)與人的自然交互,觸覺(jué)、壓力等力學(xué)感知必不可少。
具身智能的核心,本質(zhì)是研究“人與物理世界如何接觸”。對(duì)人體的理解,不能只看外在動(dòng)作,還要洞察力的傳遞、肌肉的協(xié)作。對(duì)世界的建模,也不能脫離人的需求和交互場(chǎng)景,畢竟我們所處的世界本就是圍繞人建立的。
過(guò)去很多技術(shù)研發(fā),只是讓機(jī)器人“完成任務(wù)”,卻沒(méi)有記錄人與環(huán)境真實(shí)的交互邏輯。比如打拳、跳舞或許能脫離具體環(huán)境,但穿衣、遞物這些日常動(dòng)作,核心是人與物體的力感反饋和精準(zhǔn)配合,這才是真正的難點(diǎn)。

大曉提出的“世界模型”更像是一個(gè)理解物理世界的“大腦”。該模型分為三部分:多模態(tài)數(shù)據(jù)融合、復(fù)雜行為生成與預(yù)測(cè)功能。通過(guò)這三者的結(jié)合,機(jī)器人不僅能理解環(huán)境,還能生成具備物理和因果一致性的長(zhǎng)時(shí)序行為。
與特斯拉從自動(dòng)駕駛繼承而來(lái)的純視覺(jué)方案不同,大曉強(qiáng)調(diào)多模態(tài)融合的必要性。“自動(dòng)駕駛場(chǎng)景中不會(huì)發(fā)生物理接觸,而具身智能需要與周圍物體和環(huán)境產(chǎn)生物理接觸,因此必須納入其他維度的信息。”王曉剛解釋道。
數(shù)據(jù)革命:以人為中心的環(huán)境式采集
傳統(tǒng)機(jī)器人數(shù)據(jù)采集面臨兩大困境:真機(jī)數(shù)據(jù)采集效率低下,仿真數(shù)據(jù)與真實(shí)差距過(guò)大。

大曉的解決方案是“環(huán)境式采集”——讓人戴上第一視角傳感器,結(jié)合周圍第三視角攝像頭,記錄人在真實(shí)生產(chǎn)生活中的行為。“采集效率會(huì)非常高,且能在真實(shí)場(chǎng)景中完成,還能記錄人在長(zhǎng)程、復(fù)雜環(huán)境下完成的動(dòng)作。”王曉剛表示。
這種方式與特斯拉和Figure AI近期采取的數(shù)據(jù)采集方式有相似之處,但大曉有更多環(huán)境視角數(shù)據(jù),并通過(guò)世界模型進(jìn)一步放大了數(shù)據(jù)價(jià)值。“通過(guò)世界模型,我們能將有限的真實(shí)采集數(shù)據(jù)迅速放大。”
今年年初,團(tuán)隊(duì)發(fā)布了Ego Life數(shù)據(jù)集,記錄了人們?cè)谡鎸?shí)環(huán)境中數(shù)百小時(shí)的數(shù)據(jù)。此外,他們還與西南設(shè)計(jì)院合作,獲取大量房屋戶型數(shù)據(jù),用于訓(xùn)練機(jī)器人在不同家庭環(huán)境中的適應(yīng)能力。
落地邏輯:從機(jī)器狗到家庭場(chǎng)景的漸進(jìn)路徑
具身智能的落地路徑一直備受關(guān)注,大曉選擇了一條從易到難、從B端到C端的漸進(jìn)式路線。
短期來(lái)看,搭載導(dǎo)航能力與各類AI應(yīng)用的四足機(jī)器狗是規(guī)模化落地的突破口。“此前這類產(chǎn)品未能廣泛應(yīng)用,很大原因在于空間自主能力不足。”王曉剛指出。
中期目標(biāo)則聚焦于工業(yè)與商業(yè)服務(wù)場(chǎng)景,特別是閃購(gòu)倉(cāng)、前置倉(cāng)等物流場(chǎng)景。這些場(chǎng)景需要大量人力支持7×24小時(shí)服務(wù),機(jī)器人具備較強(qiáng)的可復(fù)制性。
家庭場(chǎng)景被列為遠(yuǎn)期目標(biāo)。“我們期待機(jī)器人完成一些復(fù)雜任務(wù),但安全性是關(guān)鍵問(wèn)題。”王曉剛坦言,“就像自動(dòng)駕駛領(lǐng)域有主動(dòng)安全機(jī)制,機(jī)器人進(jìn)入家庭后,如果碰到人,責(zé)任該如何界定?這些都是需要解決的問(wèn)題。”
行業(yè)卡位:頭部未定,格局遠(yuǎn)未成型
盡管機(jī)器人賽道熱度空前,但王曉剛認(rèn)為行業(yè)頭部卡位遠(yuǎn)未完成。
“從技術(shù)路線來(lái)看,目前機(jī)器人行業(yè)原有的技術(shù)路線存在明顯缺陷。”他舉例說(shuō),“特斯拉和Figure AI在過(guò)去兩三個(gè)月內(nèi),都放棄了以真機(jī)為主的技術(shù)路線,轉(zhuǎn)向以視覺(jué)為主的技術(shù)路線。”
在產(chǎn)業(yè)鏈層面,機(jī)器人行業(yè)的分工也尚未完善。“從零部件、傳感器到計(jì)算芯片等環(huán)節(jié),都存在很大的垂直整合空間。”王曉剛指出,當(dāng)前機(jī)器人成本依然很高,在質(zhì)量、可靠性、一致性等方面,行業(yè)還處于相對(duì)初期的階段。
這種不成熟的狀態(tài),反而給了新入局者機(jī)會(huì)。大曉背靠商湯積累的客戶資源與技術(shù)能力,試圖在具身智能領(lǐng)域找到自己的生態(tài)位。“商湯過(guò)去十幾年積累了幾千家客戶,覆蓋眾多行業(yè)方向,但此前缺少機(jī)器人載體的軟硬件平臺(tái)。”
團(tuán)隊(duì)底色:教授創(chuàng)業(yè)團(tuán)的默契
大曉團(tuán)隊(duì)的組成頗具特色——匯聚了陶大程等多位頂尖AI科學(xué)家。這支以教授為主的團(tuán)隊(duì),有著深厚的學(xué)術(shù)背景與彼此間的默契。

“我和大程在碩士階段跟著湯老師讀書時(shí)就是室友,有很好的默契;其他幾位老師也都是我們的學(xué)生。”王曉剛透露。這種基于師生關(guān)系的信任網(wǎng)絡(luò),成為團(tuán)隊(duì)協(xié)作的重要基礎(chǔ)。
在王曉剛看來(lái),具身智能賽道仍需要持續(xù)創(chuàng)新。“很多教授自己也想過(guò)創(chuàng)業(yè),這些明星教授任何一位都可以去創(chuàng)業(yè),但今天我們要團(tuán)結(jié)起來(lái),集中科研力量和創(chuàng)新能力去做更大的事。”
團(tuán)隊(duì)分工上,陶大程主要負(fù)責(zé)帶領(lǐng)教授團(tuán)隊(duì)聚焦具身智能方向的持續(xù)研究創(chuàng)新,王曉剛則負(fù)責(zé)公司整體戰(zhàn)略規(guī)劃與商業(yè)落地。“這樣就能把研究上的領(lǐng)先性、創(chuàng)新性與現(xiàn)實(shí)中的落地工程化能力結(jié)合起來(lái)。”
寫在最后
商湯布局的“1+X”戰(zhàn)略正在顯現(xiàn)其前瞻性。大曉作為“X”中的重要一環(huán),承載著一代AI科學(xué)家由創(chuàng)新技術(shù)向產(chǎn)業(yè)落地的初心。在商湯的方舟平臺(tái)已接入幾十萬(wàn)路攝像頭數(shù)據(jù)的背景下,一旦具身智能體與方舟打通,上百種AI應(yīng)用都可以遷移到具身平臺(tái)上。
在速途網(wǎng)看來(lái),具身智能的競(jìng)賽不僅是技術(shù)路線的比拼,更是數(shù)據(jù)采集范式與產(chǎn)業(yè)生態(tài)的較量。當(dāng)特斯拉和Figure AI轉(zhuǎn)向視覺(jué)路線時(shí),大曉堅(jiān)持的多模態(tài)融合與以人為中心的ACE范式能否成為破局關(guān)鍵,將決定其在即將到來(lái)的機(jī)器人量產(chǎn)之年能占據(jù)怎樣的位置。
世界模型開(kāi)源、與國(guó)產(chǎn)芯片廠商合作、構(gòu)建自己的數(shù)據(jù)采集體系——大曉正在下一盤多維度的棋。而棋盤的另一端,眾多參賽者也在加速布局。具身智能的頭部卡位戰(zhàn),或許才剛剛開(kāi)始。

