【W(wǎng)RC大咖論道】宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官王興興：《具身智能指明了實(shí)現(xiàn)AGI的方向》

2024-10-25

2024世界機(jī)器人大會(huì)以“共育新質(zhì)生產(chǎn)力共享智能新未來”為主題，為期三天的主論壇和26場(chǎng)專題論壇上，416位國(guó)內(nèi)外頂尖科學(xué)家、國(guó)際組織代表、院士和企業(yè)家聚焦前沿技術(shù)、產(chǎn)業(yè)動(dòng)向和創(chuàng)新成果，深入研討人工智能與機(jī)器人技術(shù)深度融合帶來的新趨勢(shì)、新機(jī)遇，共同打造了一場(chǎng)十分精彩的機(jī)器人領(lǐng)域前沿觀點(diǎn)盛宴！

在8月24日下午的主論壇上，宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官王興興以《具身智能指明了實(shí)現(xiàn)AGI的方向》為主題發(fā)表演講。

數(shù)說2024世界機(jī)器人大會(huì)

論壇

26 家國(guó)際支持機(jī)構(gòu)

3 大主題 26 場(chǎng)專題論壇

416 名國(guó)內(nèi)外頂尖科學(xué)家、國(guó)際組織代表、院士和企業(yè)家

74 位國(guó)外嘉賓及港澳臺(tái)嘉賓參會(huì)

線上線下聽眾達(dá) 160萬人次

展覽

27 款人形機(jī)器人集中亮相

首發(fā)新品 60 余款

近 170 家參展企業(yè) 600 余件參展產(chǎn)品

參觀人數(shù)近 25萬人次

大賽

全球 10 余個(gè)國(guó)家和地區(qū)的 7000 余支賽隊(duì)

13000 余名參賽選手

每天參賽人數(shù) 4000 余人

媒體關(guān)注

近 400 家國(guó)內(nèi)外媒體

短視頻平臺(tái)話題播放量達(dá) 2.9億

王興興（宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官）

以下是對(duì)話內(nèi)容實(shí)錄

各位領(lǐng)導(dǎo)，各位專家，各位學(xué)者大家下午好，很榮幸在此分享。在展開這個(gè)話題之前想分享一個(gè)小故事。Marc Raibert先生，我當(dāng)時(shí)差不多10歲讀小學(xué)就看到過您做的小的雙足機(jī)器人包括還有后空翻機(jī)器人。這當(dāng)時(shí)是在中國(guó)引進(jìn)的科技紀(jì)錄片里，算算時(shí)間現(xiàn)在差不多20幾年了，時(shí)間真的很快。我們公司2016年成立到現(xiàn)在也有8年時(shí)間，最近幾年具有身智能很熱，所以我主要分享具身智能和AGI的方向。

OpenAI最早的目標(biāo)就是實(shí)現(xiàn)AGI，并且早些年他們也投入不少人做機(jī)器人方向，但是后來GPT發(fā)展速度更快，所以他們反而在機(jī)器人發(fā)展方向投入資源比較少。但是我反而堅(jiān)信，目前具身智能反而是更好的實(shí)現(xiàn)AGI的方向。我們公司最早2013年到2015、2016年的時(shí)候我個(gè)人讀碩期間做的Xdog這款機(jī)器人。做的初衷比較簡(jiǎn)單，我一個(gè)學(xué)生沒有那么多的資源做很大的機(jī)器人，所以一直想能不能用簡(jiǎn)單方法就能實(shí)現(xiàn)低成本，運(yùn)動(dòng)性能很好的方案？

所以當(dāng)時(shí)就想用盤式無刷電機(jī)再加上自己開發(fā)的電機(jī)驅(qū)動(dòng)板，實(shí)現(xiàn)了Xdog方案。這個(gè)方案當(dāng)時(shí)整個(gè)研發(fā)投入大概只有1-2萬元人民幣，2015年還用這個(gè)機(jī)器人參加了上海的比賽拿了二等獎(jiǎng)。這個(gè)機(jī)器人當(dāng)時(shí)在我畢業(yè)的時(shí)候還幫我賺了幾萬快獎(jiǎng)金。也是成為2016年注冊(cè)公司時(shí)的啟動(dòng)資金。后續(xù)產(chǎn)品大家可能比較熟，我們主要做高性能四足機(jī)器人，去年年初也開始做高性能人形機(jī)器人以及別的附屬產(chǎn)品。目前四足機(jī)器人主要是兩款，一款是小一點(diǎn)的Go2型號(hào)，它主要搭載了自己開發(fā)的3D激光雷達(dá)。并且去年就搭載了OpenAI的GPT接口，你可以直接語音和它對(duì)話，讓它執(zhí)行底層動(dòng)作。并且試過集成了OpenAI的多模態(tài)接口，你問它前面有什么東西，它也可以回答。

但是開發(fā)過程中我們發(fā)現(xiàn)目前語言模型、多模態(tài)模型對(duì)機(jī)器人應(yīng)用非常不足，它對(duì)空間、物理世界理解個(gè)模型本身對(duì)機(jī)器人本體理解遠(yuǎn)遠(yuǎn)不夠，這也推動(dòng)了我們未來一直希望有更好的機(jī)器人模型誕生。當(dāng)然這可能不能指望我們公司，還是需要全球共同實(shí)驗(yàn)室，所有科技公司一起推動(dòng)。

另外一款也是去年發(fā)布的B2型號(hào)，是大一點(diǎn)的工業(yè)級(jí)四足機(jī)器人。最大特點(diǎn)是負(fù)載能力和續(xù)航能力非常非常強(qiáng)。基本大部分工業(yè)場(chǎng)景包括室內(nèi)室外的還有地下管廊或者其他環(huán)境都能使用，也是目前主力型號(hào)。

人形機(jī)器人這塊，目前發(fā)展也非常非?？?，最早2009年我讀大一的時(shí)候寒假就做過小的人形機(jī)器人，當(dāng)時(shí)用得非常非常便宜，就200塊錢做了小的人形機(jī)器人。但是做好以后非常非常失望，因?yàn)槲也粌H對(duì)自己感到失望，也對(duì)當(dāng)時(shí)全球范圍內(nèi)整個(gè)人形機(jī)器人科技發(fā)展速度感到失望，在2010年時(shí)。所以過去很多年當(dāng)時(shí)好幾年以前，很多人問我，我們公司做不做人形機(jī)器人？我當(dāng)時(shí)非常堅(jiān)決地說我們公司不做人形機(jī)器人。因?yàn)楦杏X目前我們技術(shù)包括全球商業(yè)化沒辦法很好地推動(dòng)人形機(jī)器人。但是過去幾年，很多實(shí)驗(yàn)室都用我們機(jī)器狗做了很多AI開發(fā)，我們也肉眼可見地看到強(qiáng)化學(xué)習(xí)在四足機(jī)器人里飛速的進(jìn)展，非常非常好。

并且2022年底的時(shí)候GPT出來了，整個(gè)AI真正點(diǎn)燃了整個(gè)全球范圍內(nèi)AI對(duì)機(jī)器人領(lǐng)域大家的信心。所以2023年初，開始做高性能人形機(jī)器人，這款是去年第一款人形機(jī)器人H1，這款機(jī)器人最大特點(diǎn)是動(dòng)力性能非常非常強(qiáng)，基本算是目前同類型電驅(qū)動(dòng)人形機(jī)器人，動(dòng)力性能最強(qiáng)的之一。

這是公司開發(fā)的第二款人形機(jī)器人G1，今年5月份發(fā)布，第一款工程機(jī)前幾天也發(fā)布了量產(chǎn)版本樣子。這款結(jié)合了過去幾年對(duì)四足機(jī)器人、人形機(jī)器人整個(gè)硬件設(shè)計(jì)、軟件工業(yè)設(shè)計(jì)要求，所以大家可以看到。雖然這款機(jī)器人稍微小一點(diǎn)，大概只有1.3米，但是無論外觀、動(dòng)力性能、關(guān)節(jié)靈活性、產(chǎn)品完成度都非常非常高。我們也非常有信心，最近已經(jīng)快完成整個(gè)量產(chǎn)化的設(shè)計(jì)改造，年底可以大規(guī)模量產(chǎn)。這個(gè)關(guān)節(jié)布置相對(duì)來說非常流暢和漂亮。

分享一個(gè)小故事，這種關(guān)節(jié)布置對(duì)于動(dòng)力控制并不是最優(yōu)的，但是為什么現(xiàn)在敢這么做？原因就是AI技術(shù)進(jìn)步讓很多原本不容易控制的機(jī)器人反而變得容易控制。不然這種機(jī)器人其實(shí)腿有點(diǎn)重且不方便控制。但是目前AI反而讓難控制的機(jī)器人成為可能性。

這是5月份我們剛發(fā)布時(shí)展示的運(yùn)動(dòng)性能，里面用了傳統(tǒng)控制算法，但是大部分還是用了深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)。這款產(chǎn)品相對(duì)來說目前產(chǎn)品完成度還是非常非常高的，關(guān)節(jié)靈活度也非常好，可以實(shí)現(xiàn)很多人實(shí)現(xiàn)不了的動(dòng)作。

這款是H1，年初的時(shí)候差不多實(shí)現(xiàn)了全球第一款純電機(jī)驅(qū)動(dòng)的人形機(jī)器人空翻，動(dòng)力性能非常強(qiáng)勁，也是用了模仿學(xué)習(xí)加強(qiáng)化學(xué)習(xí)算法。這種機(jī)器人還是太過于不好控制，用傳統(tǒng)算法很難實(shí)現(xiàn)空翻。包括我們用模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了奔跑以及跳舞等動(dòng)作，這也是好幾個(gè)月之前的。這次展會(huì)現(xiàn)場(chǎng)，有長(zhǎng)時(shí)間演示技術(shù)，穩(wěn)定性非常好。AI技術(shù)相對(duì)于別的技術(shù)最大的點(diǎn)在于它對(duì)硬件和機(jī)器人泛用性非常好。哪怕機(jī)器人硬件有一點(diǎn)點(diǎn)偏差還是可以很穩(wěn)定地控制。

這是基于深度相機(jī)端到端深度強(qiáng)化學(xué)習(xí)，更復(fù)雜的地型也可以訓(xùn)練。包括四足機(jī)器人本身也可以兩條腿走路，這是展示了連續(xù)空翻，也是基于模仿學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)做的，這個(gè)我們?cè)谡箷?huì)現(xiàn)場(chǎng)也有演示，大家有興趣可以試一下，而且穩(wěn)定性比較不錯(cuò)。這個(gè)功能其實(shí)在早幾個(gè)月，我們已經(jīng)OTA升級(jí)給全球客戶使用。

這是我們前段時(shí)間基于搖操作的一個(gè)數(shù)據(jù)采集系統(tǒng)，因?yàn)榇蠹一谀壳暗腁I技術(shù)，基本上都是數(shù)據(jù)驅(qū)動(dòng)的，有多少數(shù)據(jù)就有多少AI，本身對(duì)于人形機(jī)器人的數(shù)據(jù)采集是非常剛需的需求，所以我們做了一套比較簡(jiǎn)單的輕量化的數(shù)據(jù)采集系統(tǒng)，這還是需要更加完善。

這也是我們前段時(shí)間搞的，基于模仿學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)做的身體性動(dòng)作。大家可能覺得目前像我們機(jī)器人已經(jīng)做的很不錯(cuò)了，但實(shí)際上在我的想象中，要做的事情還非常多，舉個(gè)最簡(jiǎn)單的例子，目前這些動(dòng)作基本上是每個(gè)動(dòng)作單獨(dú)做AI訓(xùn)練的，單獨(dú)訓(xùn)練有一個(gè)很不好的地方，很多場(chǎng)景下大家還是希望一臺(tái)機(jī)器人可以自動(dòng)的切換所有的動(dòng)作，而不需要人為去切換動(dòng)作，這也是大家希望的方向，一個(gè)AI所有的事情都能做，這是通用AI大家希望達(dá)到的目標(biāo)，這也是用了它的深度相機(jī)來做端到端的訓(xùn)練。

（播放視頻）

我覺得目前人形機(jī)器人強(qiáng)化學(xué)習(xí)能做的事情，最主要的還是在比較復(fù)雜的地形下，它可以任意的適應(yīng)各種的地形，并且運(yùn)動(dòng)。相對(duì)來說另外一點(diǎn)就是它的手部能操作比較精細(xì)化的零件，大家也知道現(xiàn)在包括全球范圍內(nèi)用模仿學(xué)習(xí)其實(shí)在一些比較大的物體，比如說一個(gè)水杯，從什么地方拿到什么地方，這其實(shí)都是可以實(shí)現(xiàn)的，但是更精細(xì)一點(diǎn)的事情其實(shí)目前做不好，比如說焊?jìng)€(gè)電路，包括打一個(gè)結(jié)，這種更細(xì)小的事情我覺得都是非常值得做的。

另外一點(diǎn)，這里稍微岔開一下話題，好高騖遠(yuǎn)一下，說一些更遠(yuǎn)的，我覺得更加激動(dòng)人心的一些事情。具身智能一直是實(shí)現(xiàn)世界模型的方向，當(dāng)然這可能不是我們公司目前能做的，還是希望全球都能推動(dòng)這個(gè)事情，我覺得這是未來最激動(dòng)人心的時(shí)刻。

最大的點(diǎn)就是世界模型對(duì)于機(jī)器人本身包括對(duì)物理世界的理解，其實(shí)大家也知道現(xiàn)在的AI技術(shù)其實(shí)對(duì)機(jī)器人自己的身體和對(duì)自己的世界理解是完全不夠的，比如說對(duì)重力的理解，對(duì)摩擦力和接觸的理解是非常差的，如果有更好的AI能把本身自我的認(rèn)知和理解以及對(duì)環(huán)境的理解能做出來，我覺得可以大大推動(dòng)整個(gè)機(jī)器人行業(yè)的進(jìn)步。

而且我覺得世界模型本身就是AGI的方向，沒準(zhǔn)就是真正實(shí)現(xiàn)AGI的。大家知道AGI最大的點(diǎn)就是大部分人能做的事情都能做，包括開車、洗衣做飯、工廠，世界模型如果對(duì)世界本身有很好的建模，這個(gè)本身目標(biāo)就差不多實(shí)現(xiàn)了。

而且像特斯拉的FSD，某種意義上就是世界模型，對(duì)整個(gè)車輛和它的周邊環(huán)境都會(huì)有建模，包括對(duì)前面一輛車的速度、撞擊，一些未來的動(dòng)作也會(huì)有好的建模和理解，我覺得世界模型是最大的可能性。

另外最主要的是很多現(xiàn)在做AI的，包括OpenAI，大家對(duì)大腦的重視都非常高，我最近一直在分享和強(qiáng)調(diào)，其實(shí)身體才是最重要的一件事情，大腦和身體兩部分是分不開的。舉個(gè)最簡(jiǎn)單的例子，這也是從小非常困擾我的問題，我做夢(mèng)的時(shí)候?yàn)槭裁磿?huì)突然感覺從懸崖上往下掉，或者我在夢(mèng)里為什么跑不快，這個(gè)問題我想了十幾年，差不多在本科的時(shí)候我才把這個(gè)問題想通。

其實(shí)原因也非常簡(jiǎn)單，就是人在睡覺的時(shí)候，人的大腦跟身體的感知是完全斷開的，你不能感知到身體的皮膚，你也不能控制你的肌肉，所以你的大腦本身是沒有物理世界連接的。

在我們?cè)镜恼J(rèn)知里面，我跑步，我每跑一步都是要跟地面有接觸的，接觸以后大腦知道我接觸到地面了，我要邁另外一個(gè)腳，但是在我們做夢(mèng)的時(shí)候，由于跟物理世界脫離了關(guān)系，你的大腦其實(shí)不知道你已經(jīng)踩到地面了，所以你永遠(yuǎn)感覺你的腳輕飄飄的，跑不快，沒辦法使力，所以這也是體現(xiàn)了目前大腦、身體的重要性。

包括為什么會(huì)覺得從懸崖上往下面掉，因?yàn)槟阍诟眢w斷開連接的時(shí)候，你其實(shí)并不知道你的身體跟床是接觸的，你覺得你是懸空的，所以你往下掉。

回答了一個(gè)非常簡(jiǎn)單的問題，為什么現(xiàn)在大語言模型會(huì)有一個(gè)幻覺的感覺，簡(jiǎn)單說就是所有的目前大語言模型都活在夢(mèng)里，它對(duì)物理世界是脫離連接的，它不能感知到自己的身體，也不能看到，也不能眨眼睛，它跟物理世界的連接是斷開的，所有的大語言模型都是活在夢(mèng)里，它是非常虛擬的，所以說它會(huì)有很多幻覺，不真實(shí)，他自己都不知道做的夢(mèng)真不真。

原因也很簡(jiǎn)單，比如說有一個(gè)人在說夢(mèng)話，你如果跟他說一句話，他也回答你的問題，但是所有說夢(mèng)話的人說的話都是稀里糊涂的，沒有邏輯可言，所以說這也是為什么體現(xiàn)了身體的重要性。

另外分享一個(gè)比較好玩的實(shí)驗(yàn)，這也是我小時(shí)候非常喜歡思考的實(shí)驗(yàn)，人為什么比一些動(dòng)物聰明，簡(jiǎn)單的思維實(shí)驗(yàn)，如果我把我的大腦放到一個(gè)狗的里面或者我把人的大腦放到豬的里面，或者把豬的大腦放到人的身體里面，到底哪種結(jié)構(gòu)可以誕生更多的智能情況。

后來我一直反思，我個(gè)人感覺其實(shí)多方面的原因限制的，而且可能物理限制還會(huì)更多。簡(jiǎn)單說，我很懷疑如果把一個(gè)猴子的大腦放到人的身體里面，它照樣是可以說話的，但是為什么猴子不能說話呢？其實(shí)原因也非常簡(jiǎn)單，就是它的喉嚨和聲帶不支持它說話。

舉一個(gè)最簡(jiǎn)單的例子，像鸚鵡，它的神經(jīng)元其實(shí)是比較少的，比較聰明能說話的鸚鵡大概只要20到30萬的神經(jīng)元，但是猴子的神經(jīng)元跟它差不多，甚至猩猩的神經(jīng)元比它更多，但是為什么猩猩說不了話，而且只能發(fā)一些低級(jí)的聲音，我大概猜測(cè)是它聲帶的原因。

鸚鵡為什么能說話呢？因?yàn)樗芟矚g吃堅(jiān)果，吃堅(jiān)果的過程中，它的喉嚨和舌頭鍛煉的非常靈活，所以它是沒有物理限制在里面的。這也是很大層面上一些高等動(dòng)物，包括一些海豚、鯨魚，很大概率是它的聲帶限制了它的發(fā)聲。

總結(jié)一下，整個(gè)AGI的實(shí)現(xiàn)除了純粹的AI還需要有身體，包括對(duì)視覺和身體的感知都非常重要，包括對(duì)實(shí)時(shí)的數(shù)據(jù)采集。對(duì)物理世界的了解，包括對(duì)一些碰撞、重力、摩擦力、各種環(huán)節(jié)包括光學(xué)的一些理解。

另外再分享一個(gè)觀點(diǎn)，事實(shí)上目前從人來說，數(shù)據(jù)的輸出能力是非常弱的，人的數(shù)據(jù)輸入能力非常強(qiáng)，因?yàn)槿擞醒劬Γ匆粡垐D片或者視頻的時(shí)候，數(shù)據(jù)的輸入量非常大，至少每秒鐘幾百或幾千KB的數(shù)據(jù)量是有的。但是人輸出數(shù)據(jù)的能力非常弱，只能通過說話或者敲鍵盤，最頂尖的人體敲鍵盤的速度大概也就一秒幾個(gè)字而已，所以它的比特流是非常低的。

如果有一種人機(jī)接口可以把人的數(shù)據(jù)輸出能力大大提升，這樣對(duì)人本身智能的提升，包括干活的效率也會(huì)有非常大的提升，而且我覺得這個(gè)技術(shù)不需要用大腦植入式的設(shè)備，只要在表皮能連接上一些神經(jīng)元就可以實(shí)現(xiàn)這個(gè)功能。

如果在座的有一些神經(jīng)學(xué)或者生物醫(yī)療相關(guān)的朋友，沒準(zhǔn)可以試試這個(gè)方向，為什么分享這個(gè)方向呢？因?yàn)槲覜]有能力去做，有能力做的朋友可以做一下或者叫我一下，我非常有興趣去參與一下這個(gè)事情。

再分享一個(gè)小故事，我小時(shí)候看一些電視劇，大家也發(fā)現(xiàn)有些武林高手都是可以動(dòng)的，他的肌肉可以控制耳朵動(dòng)，但是普通人實(shí)現(xiàn)不了你自己去控制你的耳朵動(dòng)，其實(shí)這也是可以鍛煉出來的。

為什么呢？舉個(gè)最簡(jiǎn)單的例子，有一次上高中的英語課，因?yàn)槲矣⒄Z很差，一直分心，我當(dāng)時(shí)想控制我腦子殼上面一塊肌肉的運(yùn)動(dòng)，我自己鍛煉了好幾天，突然有一天我就能控制那塊肌肉了，那塊肌肉我原本是沒辦法控制的，但突然我用自己的想法去控制這塊肌肉，這塊肌肉就能被我的意志控制了，所以我的意思是沒準(zhǔn)用外部的一些腦機(jī)接口直接連接一些皮表的神經(jīng)元，去鍛煉一下，我們就能做一個(gè)很好的人機(jī)接口的輸出。

另外分享一個(gè)比較有意思的觀點(diǎn)，比人更高級(jí)的智能形態(tài)是什么樣子，大家也知道現(xiàn)在的神經(jīng)AI網(wǎng)絡(luò)都是模仿人類的，但是模仿又不完全跟人類一樣，跟飛機(jī)一樣，飛機(jī)的飛行原理是參考了鳥的飛行原理，但是跟鳥又不是完全一樣的工作原理。我們目前計(jì)算機(jī)能實(shí)現(xiàn)的智能形態(tài)跟人的智能形態(tài)多少還是有差異的，具體差異是什么，大家回頭可以想想。

我覺得AGI的黎明快到來了，今年年初的時(shí)候我就預(yù)估在明年年底之前，在全球至少有一家實(shí)驗(yàn)室或者公司可以把通用型的機(jī)器人AI模型做出來，當(dāng)然我不知道是哪一家，有可能是中國(guó)，有可能是美國(guó)那邊的公司或者實(shí)驗(yàn)室。

另外盡可能相信AI，我覺得這是當(dāng)下過去人類整個(gè)歷史上最激動(dòng)人心的時(shí)刻，我覺得我每天都在浪費(fèi)時(shí)間。我們可以做更小的人形機(jī)器人，也可以做更大的人形機(jī)器人。

謝謝大家！

（本文根據(jù)錄音整理）

返回列表頁(yè)

歡迎關(guān)注

掃描二維碼關(guān)注
中國(guó)電子學(xué)會(huì)公眾號(hào)

掃描二維碼加入
中國(guó)電子學(xué)會(huì)會(huì)員

更多新聞資訊

【W(wǎng)RC大咖論道】宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官王興興：《具身智能指明了實(shí)現(xiàn)AGI的方向》

2024.12.26

2024.12.24

2024.12.23

2024.12.23

2024.12.17

2024.12.12

2024.12.12

2024.12.10

【W(wǎng)RC大咖論道】宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官王興興：《具身智能指明了實(shí)現(xiàn)AGI的方向》

2024.12.26

2024.12.24

2024.12.23

2024.12.23

2024.12.17

2024.12.12

2024.12.12

2024.12.10

友情鏈接：

【W(wǎng)RC大咖論道】宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官王興興：《具身智能指明了實(shí)現(xiàn)AGI的方向》