從技術(shù)路線(xiàn)上看,目前基于大模型的“大腦”技術(shù)路線(xiàn)正處在并行探索階段,并逐漸向端到端的大模型演進(jìn)。
現階段主要是 4 條技術(shù)路線(xiàn):
實(shí)現人機語(yǔ)言交互、任務(wù)理解、推理和規劃,目前最為成熟。主要代表是谷歌的 SayCan 模型,通過(guò)預訓練技能的價(jià)值函數對齊(Grounds)大語(yǔ)言模 型或者通過(guò)價(jià)值函數的訓練使大語(yǔ)言模型對用戶(hù)指令進(jìn)行推理分解 獲得任務(wù)步驟。
彌合語(yǔ)言與視覺(jué)理解間的差距,讓機器人實(shí)現更準確的任務(wù)規劃和決策。主要代表是清華大學(xué)的 CoPa 模型,利用嵌入在基礎模型(比如視覺(jué)語(yǔ)言模型的代表 GPT-4V)中 的常識知識為開(kāi)放世界機器人操控生成一系列的自由度末端執行器 姿勢,生成的操控任務(wù)分為任務(wù)導向抓取和感知運動(dòng)規劃。
在 VLM 基礎上增加運動(dòng)控制,解決機器人運動(dòng)軌跡決策問(wèn)題。主要代表是谷歌的 RT-H 模型,學(xué)習語(yǔ)言和運動(dòng), 并使用視覺(jué)上下文,通過(guò)利用語(yǔ)言-視覺(jué)-動(dòng)作結合的多任務(wù)數據集學(xué) 習更強大和靈活的動(dòng)作策略。
實(shí)現對物理世界環(huán) 境的全面感知,是未來(lái)的主要研究方向。主要代表是麻省理工、IBM 等共同研究的 MultiPLY 模型,將視覺(jué)、觸覺(jué)、語(yǔ)音等 3D 環(huán)境的各類(lèi) 特征作為輸入,以形成場(chǎng)景外觀(guān)的初步印象,并通過(guò)多視圖關(guān)聯(lián)將印 象中的輸出融合到 3D,最終得到以對象為中心的場(chǎng)景特征。
此外,類(lèi)腦智能和腦機接口等創(chuàng )新技術(shù)也為人形機器人“大腦”的 解決方案帶來(lái)無(wú)限可能。類(lèi)腦智能是人工智能技術(shù)的進(jìn)一步延伸,是 通過(guò)對人腦生物結構和思維方式進(jìn)行直接模擬,使智能體能夠像人腦 一樣精確高效處理多場(chǎng)景下的復雜任務(wù),是未來(lái)有望代替大模型的新 技術(shù)路線(xiàn)。腦機接口是在人腦與外部設備間建立連接通路的技術(shù),實(shí) 現人腦與外界設備的信息交換。未來(lái)有望基于腦機接口實(shí)現“大腦”的 “人+機”混合智能。
![]() |
商用機器人 Disinfection Robot 展廳機器人 智能垃圾站 輪式機器人底盤(pán) 迎賓機器人 移動(dòng)機器人底盤(pán) 講解機器人 紫外線(xiàn)消毒機器人 大屏機器人 霧化消毒機器人 服務(wù)機器人底盤(pán) 智能送餐機器人 霧化消毒機 機器人OEM代工廠(chǎng) 消毒機器人排名 智能配送機器人 圖書(shū)館機器人 導引機器人 移動(dòng)消毒機器人 導診機器人 迎賓接待機器人 前臺機器人 導覽機器人 酒店送物機器人 云跡科技潤機器人 云跡酒店機器人 智能導診機器人 |