具身智能,一個一年前還在學(xué)術(shù)圈“圈地自萌”的概念,近來熱度持續(xù)攀升,甚至超過了此前爆火的大模型。圖靈獎得主姚期智、英偉達創(chuàng)始人黃仁勛、“硅谷鋼鐵俠”馬斯克、華裔人工智能權(quán)威李飛飛等AI領(lǐng)域的大咖紛紛發(fā)聲,認(rèn)為具身智能將是人工智能的下一波浪潮。
除了言語上的“力挺”,產(chǎn)業(yè)端也在發(fā)力。今年5月,特斯拉公布人形機器人“擎天柱”最新進展。馬斯克預(yù)言,人形機器人這類產(chǎn)品的需求,未來將遠超特斯拉汽車。7月舉行的2023世界人工智能大會上,上海期智研究院“小星”、傅利葉智能“GR-1”等多款人形機器人同時亮相。從華為離職的“天才少年”彭志輝創(chuàng)立的上海智元機器人公司也于近期發(fā)布其自主研發(fā)的首款人形機器人“遠征A1”,目標(biāo)直指“具身通用人工智能”。
有人說今年是“人形機器人元年”。有了大模型加持,人們不再滿足于機器人只是一個“大玩具”,更希望它能通過自我學(xué)習(xí)掌握各項技能,以更自然更智能的方式與周邊環(huán)境交互,完成各種任務(wù),成為真正有意識的智能形態(tài)。也正是在大模型問世后,人們看到了實現(xiàn)通用人工智能的可行性。
要擁有人一樣的智能,必須有人一樣的身體
1950年,“人工智能之父”艾倫·圖靈在其論文《計算機器與智能》中首次提出“具身智能”概念。其基本假設(shè)是,智能行為可以被具有對應(yīng)形態(tài)的智能體通過適應(yīng)環(huán)境的方式習(xí)得。換言之,要擁有人一樣的智能,必須有人一樣的身體。
相比之下,人類的學(xué)習(xí)過程并不只是“看”,我們可以通過撫摸、喂食、學(xué)貓叫等方式與貓互動,并在貓的反饋中不斷加深對這種生物的認(rèn)知。上海交通大學(xué)電子信息與電氣工程學(xué)院計算機系教授、2023年“科學(xué)探索獎”得主盧策吾表示,從認(rèn)知角度看,人是“第一人稱視角智能”,沒有身體的機器是“第三人稱視角智能”,前者可以通過與真實世界的互動進行主動學(xué)習(xí),通過思維鏈的拓展去理解新的概念。
與過去通過“喂數(shù)據(jù)”指揮機器行動不同,具身智能的做法是讓機器自己學(xué)習(xí)如何與環(huán)境交互。OpenAI團隊曾公布過一段讓機械手還原魔方的視頻,他們在這項任務(wù)中設(shè)置了各種障礙,比如給機械手戴上手套、綁住其中兩根手指、更換不同阻力的魔方等,目的就是讓機器自己想辦法還原魔方。
“大腦”與“小腦”結(jié)合,更好地理解世界
在圖靈提出具身智能概念后的幾十年里,盡管大家都認(rèn)可這是一個重要概念,但并沒有取得很大進展,因為當(dāng)時的技術(shù)還不足以支撐其發(fā)展。
這兩年,具身智能在學(xué)術(shù)界的熱度逐步攀升。盧策吾透露,近年來在CoRL上,具身智能領(lǐng)域的論文數(shù)量激增。今年年初舉行的IROS(智能機器人及系統(tǒng)國際會議)則將具身智能作為一個極為重要的議題。
而真正讓它爆火的,是今年上半年以ChatGPT為代表的大語言模型爆炸式“出圈”。彭志輝表示,大語言模型以及結(jié)合視覺等多種傳感器的復(fù)雜多模態(tài)模型,是實現(xiàn)具身智能的關(guān)鍵先決條件。它使機器人可以從程序執(zhí)行導(dǎo)向轉(zhuǎn)向任務(wù)目標(biāo)導(dǎo)向,向通用機器人邁出堅實步伐。
事實上,“遠征A1”就是以大模型為機器人“大腦”,任務(wù)泛化率和任務(wù)執(zhí)行成功率是它的核心指標(biāo),具體考驗“大腦”在面對從未涉及的任務(wù)時能否自行決策并生成解決方案。有了大模型“端腦”,“遠征A1”就能聽懂自然語言指令,分析出講話者的意圖。比如,主人說“我要一杯水”或“我渴了”,它都能理解,隨后前往飲水機或其他地方取水,并把水杯遞給主人。
外骨骼機器人公司傅利葉智能闖入具身智能賽道,既在意料之外又在情理之中。在其創(chuàng)始人顧捷看來,具身智能可以被視作“認(rèn)知智能+運動智能”:多模態(tài)模型相當(dāng)于讓機器人有了可以在真實世界中決策和行動的“大腦”,公司此前在運動機器人方面的技術(shù)儲備相當(dāng)于在“小腦”上積累了豐富經(jīng)驗,如今“大腦”與“小腦”結(jié)合挺進具身智能,可謂水到渠成。
具身智能的“終極幻想”還有多遠
在傅利葉智能豐富的產(chǎn)品線中,各類機器人對應(yīng)不同的康復(fù)需求。而一旦實現(xiàn)具身智能,出現(xiàn)在人們面前的可能是另一幅場景——一款機器人,只需在專用場景上做一些開發(fā)適配,就能像人一樣勝任醫(yī)生、廚師、消防員等不同職業(yè),在多場景中發(fā)揮作用。“這正是具身智能如此吸引人的原因之一。”顧捷說。
在大模型加持下,微軟、谷歌、英偉達等大廠,以及斯坦福大學(xué)、卡內(nèi)基·梅隆大學(xué)等研究機構(gòu)均在具身智能研究領(lǐng)域發(fā)力。其中谷歌依托旗下兩家AI科研機構(gòu)——谷歌大腦和DeepMind,在技術(shù)路線上較為領(lǐng)先,其研發(fā)的RoboCat是全球首個能解決并適應(yīng)多個任務(wù)的機器人,只需上百次演示就能掌握一項新技能。
盧策吾團隊的研究思路也是讓機器“自適應(yīng)”。以讓機器人打開微波爐門這個操作為例,第一次,機器人可能沒有見過微波爐,所以距離軸和力氣預(yù)估會有偏差,不過沒關(guān)系,通過不斷嘗試,它就會自我習(xí)得打開微波爐所需的各項參數(shù)。目前,盧策吾團隊已經(jīng)匯聚了100TB的研究數(shù)據(jù),讓機器抓取了成千上萬個它從未見過的物體。
盡管大模型時代,人們對人形機器人有了更寬廣的想象空間,但在現(xiàn)實中,感知、驅(qū)動、能源、計算等具身智能的每一個關(guān)鍵環(huán)節(jié),都距離理想狀態(tài)還相去甚遠,甚至連像普通人一樣走路這件事,至今仍是一個大難題。以人形機器人的移動能力為例,波士頓動力已經(jīng)是業(yè)內(nèi)望塵莫及的標(biāo)桿,它推出的Atlas跑酷的視頻,一度讓人覺得機器人的運動能力已接近人類。實際上,Atlas在拍攝過程中,接近一半時間都會失去平衡。
目前在全球范圍內(nèi),人形機器人都還處于研發(fā)階段。動輒一臺幾十萬元的成本,以及技術(shù)上面臨的諸多瓶頸,仍然預(yù)示著人形機器人距離落地應(yīng)用還有一段很長的路要走。
聲明:以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體,相關(guān)信息僅為傳遞更多企業(yè)信息之目的,不代表本網(wǎng)觀點,亦不代表本網(wǎng)站贊同其觀點或證實其內(nèi)容的真實性。投資有風(fēng)險,需謹(jǐn)慎。