辦公系統(tǒng)
個(gè)人會(huì)員
單位會(huì)員
首頁(yè) 新聞中心 新聞資訊 正文

【W(wǎng)RC大咖論道】宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官王興興:《具身智能指明了實(shí)現(xiàn)AGI的方向》

2024-10-25

2024世界機(jī)器人大會(huì)以“共育新質(zhì)生產(chǎn)力 共享智能新未來”為主題,為期三天的主論壇和26場(chǎng)專題論壇上,416位國(guó)內(nèi)外頂尖科學(xué)家、國(guó)際組織代表、院士和企業(yè)家聚焦前沿技術(shù)、產(chǎn)業(yè)動(dòng)向和創(chuàng)新成果,深入研討人工智能與機(jī)器人技術(shù)深度融合帶來的新趨勢(shì)、新機(jī)遇,共同打造了一場(chǎng)十分精彩的機(jī)器人領(lǐng)域前沿觀點(diǎn)盛宴!

在8月24日下午的主論壇上,宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官王興興以《具身智能指明了實(shí)現(xiàn)AGI的方向》為主題發(fā)表演講。


數(shù)說2024世界機(jī)器人大會(huì)


論壇


26 家國(guó)際支持機(jī)構(gòu)

3 大主題 26 場(chǎng)專題論壇

416 名國(guó)內(nèi)外頂尖科學(xué)家、國(guó)際組織代表、院士和企業(yè)家

74 位國(guó)外嘉賓及港澳臺(tái)嘉賓參會(huì)

線上線下聽眾達(dá) 160萬 人次


展覽


27 款人形機(jī)器人集中亮相

首發(fā)新品 60 余款

近 170 家參展企業(yè) 600 余件參展產(chǎn)品

參觀人數(shù)近 25萬 人次


大賽


全球 10 余個(gè)國(guó)家和地區(qū)的 7000 余支賽隊(duì)

 13000 余名參賽選手

每天參賽人數(shù) 4000 余人



媒體關(guān)注


近 400 家國(guó)內(nèi)外媒體

短視頻平臺(tái)話題播放量達(dá) 2.9億


1730086061917093.jpg

王興興(宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官)

以下是對(duì)話內(nèi)容實(shí)錄 

各位領(lǐng)導(dǎo),各位專家,各位學(xué)者大家下午好,很榮幸在此分享。在展開這個(gè)話題之前想分享一個(gè)小故事。Marc Raibert先生,我當(dāng)時(shí)差不多10歲讀小學(xué)就看到過您做的小的雙足機(jī)器人包括還有后空翻機(jī)器人。這當(dāng)時(shí)是在中國(guó)引進(jìn)的科技紀(jì)錄片里,算算時(shí)間現(xiàn)在差不多20幾年了,時(shí)間真的很快。我們公司2016年成立到現(xiàn)在也有8年時(shí)間,最近幾年具有身智能很熱,所以我主要分享具身智能和AGI的方向。

OpenAI最早的目標(biāo)就是實(shí)現(xiàn)AGI,并且早些年他們也投入不少人做機(jī)器人方向,但是后來GPT發(fā)展速度更快,所以他們反而在機(jī)器人發(fā)展方向投入資源比較少。但是我反而堅(jiān)信,目前具身智能反而是更好的實(shí)現(xiàn)AGI的方向。我們公司最早2013年到2015、2016年的時(shí)候我個(gè)人讀碩期間做的Xdog這款機(jī)器人。做的初衷比較簡(jiǎn)單,我一個(gè)學(xué)生沒有那么多的資源做很大的機(jī)器人,所以一直想能不能用簡(jiǎn)單方法就能實(shí)現(xiàn)低成本,運(yùn)動(dòng)性能很好的方案?

所以當(dāng)時(shí)就想用盤式無刷電機(jī)再加上自己開發(fā)的電機(jī)驅(qū)動(dòng)板,實(shí)現(xiàn)了Xdog方案。這個(gè)方案當(dāng)時(shí)整個(gè)研發(fā)投入大概只有1-2萬元人民幣,2015年還用這個(gè)機(jī)器人參加了上海的比賽拿了二等獎(jiǎng)。這個(gè)機(jī)器人當(dāng)時(shí)在我畢業(yè)的時(shí)候還幫我賺了幾萬快獎(jiǎng)金。也是成為2016年注冊(cè)公司時(shí)的啟動(dòng)資金。后續(xù)產(chǎn)品大家可能比較熟,我們主要做高性能四足機(jī)器人,去年年初也開始做高性能人形機(jī)器人以及別的附屬產(chǎn)品。目前四足機(jī)器人主要是兩款,一款是小一點(diǎn)的Go2型號(hào),它主要搭載了自己開發(fā)的3D激光雷達(dá)。并且去年就搭載了OpenAI的GPT接口,你可以直接語音和它對(duì)話,讓它執(zhí)行底層動(dòng)作。并且試過集成了OpenAI的多模態(tài)接口,你問它前面有什么東西,它也可以回答。

但是開發(fā)過程中我們發(fā)現(xiàn)目前語言模型、多模態(tài)模型對(duì)機(jī)器人應(yīng)用非常不足,它對(duì)空間、物理世界理解個(gè)模型本身對(duì)機(jī)器人本體理解遠(yuǎn)遠(yuǎn)不夠,這也推動(dòng)了我們未來一直希望有更好的機(jī)器人模型誕生。當(dāng)然這可能不能指望我們公司,還是需要全球共同實(shí)驗(yàn)室,所有科技公司一起推動(dòng)。

另外一款也是去年發(fā)布的B2型號(hào),是大一點(diǎn)的工業(yè)級(jí)四足機(jī)器人。最大特點(diǎn)是負(fù)載能力和續(xù)航能力非常非常強(qiáng)。基本大部分工業(yè)場(chǎng)景包括室內(nèi)室外的還有地下管廊或者其他環(huán)境都能使用,也是目前主力型號(hào)。

人形機(jī)器人這塊,目前發(fā)展也非常非???,最早2009年我讀大一的時(shí)候寒假就做過小的人形機(jī)器人,當(dāng)時(shí)用得非常非常便宜,就200塊錢做了小的人形機(jī)器人。但是做好以后非常非常失望,因?yàn)槲也粌H對(duì)自己感到失望,也對(duì)當(dāng)時(shí)全球范圍內(nèi)整個(gè)人形機(jī)器人科技發(fā)展速度感到失望,在2010年時(shí)。所以過去很多年當(dāng)時(shí)好幾年以前,很多人問我,我們公司做不做人形機(jī)器人?我當(dāng)時(shí)非常堅(jiān)決地說我們公司不做人形機(jī)器人。因?yàn)楦杏X目前我們技術(shù)包括全球商業(yè)化沒辦法很好地推動(dòng)人形機(jī)器人。但是過去幾年,很多實(shí)驗(yàn)室都用我們機(jī)器狗做了很多AI開發(fā),我們也肉眼可見地看到強(qiáng)化學(xué)習(xí)在四足機(jī)器人里飛速的進(jìn)展,非常非常好。

并且2022年底的時(shí)候GPT出來了,整個(gè)AI真正點(diǎn)燃了整個(gè)全球范圍內(nèi)AI對(duì)機(jī)器人領(lǐng)域大家的信心。所以2023年初,開始做高性能人形機(jī)器人,這款是去年第一款人形機(jī)器人H1,這款機(jī)器人最大特點(diǎn)是動(dòng)力性能非常非常強(qiáng),基本算是目前同類型電驅(qū)動(dòng)人形機(jī)器人,動(dòng)力性能最強(qiáng)的之一。

這是公司開發(fā)的第二款人形機(jī)器人G1,今年5月份發(fā)布,第一款工程機(jī)前幾天也發(fā)布了量產(chǎn)版本樣子。這款結(jié)合了過去幾年對(duì)四足機(jī)器人、人形機(jī)器人整個(gè)硬件設(shè)計(jì)、軟件工業(yè)設(shè)計(jì)要求,所以大家可以看到。雖然這款機(jī)器人稍微小一點(diǎn),大概只有1.3米,但是無論外觀、動(dòng)力性能、關(guān)節(jié)靈活性、產(chǎn)品完成度都非常非常高。我們也非常有信心,最近已經(jīng)快完成整個(gè)量產(chǎn)化的設(shè)計(jì)改造,年底可以大規(guī)模量產(chǎn)。這個(gè)關(guān)節(jié)布置相對(duì)來說非常流暢和漂亮。

分享一個(gè)小故事,這種關(guān)節(jié)布置對(duì)于動(dòng)力控制并不是最優(yōu)的,但是為什么現(xiàn)在敢這么做?原因就是AI技術(shù)進(jìn)步讓很多原本不容易控制的機(jī)器人反而變得容易控制。不然這種機(jī)器人其實(shí)腿有點(diǎn)重且不方便控制。但是目前AI反而讓難控制的機(jī)器人成為可能性。

這是5月份我們剛發(fā)布時(shí)展示的運(yùn)動(dòng)性能,里面用了傳統(tǒng)控制算法,但是大部分還是用了深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)。這款產(chǎn)品相對(duì)來說目前產(chǎn)品完成度還是非常非常高的,關(guān)節(jié)靈活度也非常好,可以實(shí)現(xiàn)很多人實(shí)現(xiàn)不了的動(dòng)作。

這款是H1,年初的時(shí)候差不多實(shí)現(xiàn)了全球第一款純電機(jī)驅(qū)動(dòng)的人形機(jī)器人空翻,動(dòng)力性能非常強(qiáng)勁,也是用了模仿學(xué)習(xí)加強(qiáng)化學(xué)習(xí)算法。這種機(jī)器人還是太過于不好控制,用傳統(tǒng)算法很難實(shí)現(xiàn)空翻。包括我們用模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了奔跑以及跳舞等動(dòng)作,這也是好幾個(gè)月之前的。這次展會(huì)現(xiàn)場(chǎng),有長(zhǎng)時(shí)間演示技術(shù),穩(wěn)定性非常好。AI技術(shù)相對(duì)于別的技術(shù)最大的點(diǎn)在于它對(duì)硬件和機(jī)器人泛用性非常好。哪怕機(jī)器人硬件有一點(diǎn)點(diǎn)偏差還是可以很穩(wěn)定地控制。

這是基于深度相機(jī)端到端深度強(qiáng)化學(xué)習(xí),更復(fù)雜的地型也可以訓(xùn)練。包括四足機(jī)器人本身也可以兩條腿走路,這是展示了連續(xù)空翻,也是基于模仿學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)做的,這個(gè)我們?cè)谡箷?huì)現(xiàn)場(chǎng)也有演示,大家有興趣可以試一下,而且穩(wěn)定性比較不錯(cuò)。這個(gè)功能其實(shí)在早幾個(gè)月,我們已經(jīng)OTA升級(jí)給全球客戶使用。

這是我們前段時(shí)間基于搖操作的一個(gè)數(shù)據(jù)采集系統(tǒng),因?yàn)榇蠹一谀壳暗腁I技術(shù),基本上都是數(shù)據(jù)驅(qū)動(dòng)的,有多少數(shù)據(jù)就有多少AI,本身對(duì)于人形機(jī)器人的數(shù)據(jù)采集是非常剛需的需求,所以我們做了一套比較簡(jiǎn)單的輕量化的數(shù)據(jù)采集系統(tǒng),這還是需要更加完善。

這也是我們前段時(shí)間搞的,基于模仿學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)做的身體性動(dòng)作。大家可能覺得目前像我們機(jī)器人已經(jīng)做的很不錯(cuò)了,但實(shí)際上在我的想象中,要做的事情還非常多,舉個(gè)最簡(jiǎn)單的例子,目前這些動(dòng)作基本上是每個(gè)動(dòng)作單獨(dú)做AI訓(xùn)練的,單獨(dú)訓(xùn)練有一個(gè)很不好的地方,很多場(chǎng)景下大家還是希望一臺(tái)機(jī)器人可以自動(dòng)的切換所有的動(dòng)作,而不需要人為去切換動(dòng)作,這也是大家希望的方向,一個(gè)AI所有的事情都能做,這是通用AI大家希望達(dá)到的目標(biāo),這也是用了它的深度相機(jī)來做端到端的訓(xùn)練。

(播放視頻)

我覺得目前人形機(jī)器人強(qiáng)化學(xué)習(xí)能做的事情,最主要的還是在比較復(fù)雜的地形下,它可以任意的適應(yīng)各種的地形,并且運(yùn)動(dòng)。相對(duì)來說另外一點(diǎn)就是它的手部能操作比較精細(xì)化的零件,大家也知道現(xiàn)在包括全球范圍內(nèi)用模仿學(xué)習(xí)其實(shí)在一些比較大的物體,比如說一個(gè)水杯,從什么地方拿到什么地方,這其實(shí)都是可以實(shí)現(xiàn)的,但是更精細(xì)一點(diǎn)的事情其實(shí)目前做不好,比如說焊?jìng)€(gè)電路,包括打一個(gè)結(jié),這種更細(xì)小的事情我覺得都是非常值得做的。

另外一點(diǎn),這里稍微岔開一下話題,好高騖遠(yuǎn)一下,說一些更遠(yuǎn)的,我覺得更加激動(dòng)人心的一些事情。具身智能一直是實(shí)現(xiàn)世界模型的方向,當(dāng)然這可能不是我們公司目前能做的,還是希望全球都能推動(dòng)這個(gè)事情,我覺得這是未來最激動(dòng)人心的時(shí)刻。

最大的點(diǎn)就是世界模型對(duì)于機(jī)器人本身包括對(duì)物理世界的理解,其實(shí)大家也知道現(xiàn)在的AI技術(shù)其實(shí)對(duì)機(jī)器人自己的身體和對(duì)自己的世界理解是完全不夠的,比如說對(duì)重力的理解,對(duì)摩擦力和接觸的理解是非常差的,如果有更好的AI能把本身自我的認(rèn)知和理解以及對(duì)環(huán)境的理解能做出來,我覺得可以大大推動(dòng)整個(gè)機(jī)器人行業(yè)的進(jìn)步。

而且我覺得世界模型本身就是AGI的方向,沒準(zhǔn)就是真正實(shí)現(xiàn)AGI的。大家知道AGI最大的點(diǎn)就是大部分人能做的事情都能做,包括開車、洗衣做飯、工廠,世界模型如果對(duì)世界本身有很好的建模,這個(gè)本身目標(biāo)就差不多實(shí)現(xiàn)了。

而且像特斯拉的FSD,某種意義上就是世界模型,對(duì)整個(gè)車輛和它的周邊環(huán)境都會(huì)有建模,包括對(duì)前面一輛車的速度、撞擊,一些未來的動(dòng)作也會(huì)有好的建模和理解,我覺得世界模型是最大的可能性。

另外最主要的是很多現(xiàn)在做AI的,包括OpenAI,大家對(duì)大腦的重視都非常高,我最近一直在分享和強(qiáng)調(diào),其實(shí)身體才是最重要的一件事情,大腦和身體兩部分是分不開的。舉個(gè)最簡(jiǎn)單的例子,這也是從小非常困擾我的問題,我做夢(mèng)的時(shí)候?yàn)槭裁磿?huì)突然感覺從懸崖上往下掉,或者我在夢(mèng)里為什么跑不快,這個(gè)問題我想了十幾年,差不多在本科的時(shí)候我才把這個(gè)問題想通。

其實(shí)原因也非常簡(jiǎn)單,就是人在睡覺的時(shí)候,人的大腦跟身體的感知是完全斷開的,你不能感知到身體的皮膚,你也不能控制你的肌肉,所以你的大腦本身是沒有物理世界連接的。

在我們?cè)镜恼J(rèn)知里面,我跑步,我每跑一步都是要跟地面有接觸的,接觸以后大腦知道我接觸到地面了,我要邁另外一個(gè)腳,但是在我們做夢(mèng)的時(shí)候,由于跟物理世界脫離了關(guān)系,你的大腦其實(shí)不知道你已經(jīng)踩到地面了,所以你永遠(yuǎn)感覺你的腳輕飄飄的,跑不快,沒辦法使力,所以這也是體現(xiàn)了目前大腦、身體的重要性。

包括為什么會(huì)覺得從懸崖上往下面掉,因?yàn)槟阍诟眢w斷開連接的時(shí)候,你其實(shí)并不知道你的身體跟床是接觸的,你覺得你是懸空的,所以你往下掉。

回答了一個(gè)非常簡(jiǎn)單的問題,為什么現(xiàn)在大語言模型會(huì)有一個(gè)幻覺的感覺,簡(jiǎn)單說就是所有的目前大語言模型都活在夢(mèng)里,它對(duì)物理世界是脫離連接的,它不能感知到自己的身體,也不能看到,也不能眨眼睛,它跟物理世界的連接是斷開的,所有的大語言模型都是活在夢(mèng)里,它是非常虛擬的,所以說它會(huì)有很多幻覺,不真實(shí),他自己都不知道做的夢(mèng)真不真。

原因也很簡(jiǎn)單,比如說有一個(gè)人在說夢(mèng)話,你如果跟他說一句話,他也回答你的問題,但是所有說夢(mèng)話的人說的話都是稀里糊涂的,沒有邏輯可言,所以說這也是為什么體現(xiàn)了身體的重要性。

另外分享一個(gè)比較好玩的實(shí)驗(yàn),這也是我小時(shí)候非常喜歡思考的實(shí)驗(yàn),人為什么比一些動(dòng)物聰明,簡(jiǎn)單的思維實(shí)驗(yàn),如果我把我的大腦放到一個(gè)狗的里面或者我把人的大腦放到豬的里面,或者把豬的大腦放到人的身體里面,到底哪種結(jié)構(gòu)可以誕生更多的智能情況。

后來我一直反思,我個(gè)人感覺其實(shí)多方面的原因限制的,而且可能物理限制還會(huì)更多。簡(jiǎn)單說,我很懷疑如果把一個(gè)猴子的大腦放到人的身體里面,它照樣是可以說話的,但是為什么猴子不能說話呢?其實(shí)原因也非常簡(jiǎn)單,就是它的喉嚨和聲帶不支持它說話。

舉一個(gè)最簡(jiǎn)單的例子,像鸚鵡,它的神經(jīng)元其實(shí)是比較少的,比較聰明能說話的鸚鵡大概只要20到30萬的神經(jīng)元,但是猴子的神經(jīng)元跟它差不多,甚至猩猩的神經(jīng)元比它更多,但是為什么猩猩說不了話,而且只能發(fā)一些低級(jí)的聲音,我大概猜測(cè)是它聲帶的原因。

鸚鵡為什么能說話呢?因?yàn)樗芟矚g吃堅(jiān)果,吃堅(jiān)果的過程中,它的喉嚨和舌頭鍛煉的非常靈活,所以它是沒有物理限制在里面的。這也是很大層面上一些高等動(dòng)物,包括一些海豚、鯨魚,很大概率是它的聲帶限制了它的發(fā)聲。

總結(jié)一下,整個(gè)AGI的實(shí)現(xiàn)除了純粹的AI還需要有身體,包括對(duì)視覺和身體的感知都非常重要,包括對(duì)實(shí)時(shí)的數(shù)據(jù)采集。對(duì)物理世界的了解,包括對(duì)一些碰撞、重力、摩擦力、各種環(huán)節(jié)包括光學(xué)的一些理解。

另外再分享一個(gè)觀點(diǎn),事實(shí)上目前從人來說,數(shù)據(jù)的輸出能力是非常弱的,人的數(shù)據(jù)輸入能力非常強(qiáng),因?yàn)槿擞醒劬Γ匆粡垐D片或者視頻的時(shí)候,數(shù)據(jù)的輸入量非常大,至少每秒鐘幾百或幾千KB的數(shù)據(jù)量是有的。但是人輸出數(shù)據(jù)的能力非常弱,只能通過說話或者敲鍵盤,最頂尖的人體敲鍵盤的速度大概也就一秒幾個(gè)字而已,所以它的比特流是非常低的。

如果有一種人機(jī)接口可以把人的數(shù)據(jù)輸出能力大大提升,這樣對(duì)人本身智能的提升,包括干活的效率也會(huì)有非常大的提升,而且我覺得這個(gè)技術(shù)不需要用大腦植入式的設(shè)備,只要在表皮能連接上一些神經(jīng)元就可以實(shí)現(xiàn)這個(gè)功能。

如果在座的有一些神經(jīng)學(xué)或者生物醫(yī)療相關(guān)的朋友,沒準(zhǔn)可以試試這個(gè)方向,為什么分享這個(gè)方向呢?因?yàn)槲覜]有能力去做,有能力做的朋友可以做一下或者叫我一下,我非常有興趣去參與一下這個(gè)事情。

再分享一個(gè)小故事,我小時(shí)候看一些電視劇,大家也發(fā)現(xiàn)有些武林高手都是可以動(dòng)的,他的肌肉可以控制耳朵動(dòng),但是普通人實(shí)現(xiàn)不了你自己去控制你的耳朵動(dòng),其實(shí)這也是可以鍛煉出來的。

為什么呢?舉個(gè)最簡(jiǎn)單的例子,有一次上高中的英語課,因?yàn)槲矣⒄Z很差,一直分心,我當(dāng)時(shí)想控制我腦子殼上面一塊肌肉的運(yùn)動(dòng),我自己鍛煉了好幾天,突然有一天我就能控制那塊肌肉了,那塊肌肉我原本是沒辦法控制的,但突然我用自己的想法去控制這塊肌肉,這塊肌肉就能被我的意志控制了,所以我的意思是沒準(zhǔn)用外部的一些腦機(jī)接口直接連接一些皮表的神經(jīng)元,去鍛煉一下,我們就能做一個(gè)很好的人機(jī)接口的輸出。

另外分享一個(gè)比較有意思的觀點(diǎn),比人更高級(jí)的智能形態(tài)是什么樣子,大家也知道現(xiàn)在的神經(jīng)AI網(wǎng)絡(luò)都是模仿人類的,但是模仿又不完全跟人類一樣,跟飛機(jī)一樣,飛機(jī)的飛行原理是參考了鳥的飛行原理,但是跟鳥又不是完全一樣的工作原理。我們目前計(jì)算機(jī)能實(shí)現(xiàn)的智能形態(tài)跟人的智能形態(tài)多少還是有差異的,具體差異是什么,大家回頭可以想想。

我覺得AGI的黎明快到來了,今年年初的時(shí)候我就預(yù)估在明年年底之前,在全球至少有一家實(shí)驗(yàn)室或者公司可以把通用型的機(jī)器人AI模型做出來,當(dāng)然我不知道是哪一家,有可能是中國(guó),有可能是美國(guó)那邊的公司或者實(shí)驗(yàn)室。

另外盡可能相信AI,我覺得這是當(dāng)下過去人類整個(gè)歷史上最激動(dòng)人心的時(shí)刻,我覺得我每天都在浪費(fèi)時(shí)間。我們可以做更小的人形機(jī)器人,也可以做更大的人形機(jī)器人。

謝謝大家!

(本文根據(jù)錄音整理)


返回列表頁(yè)

加入會(huì)員

學(xué)會(huì)官微