TRI:預訓練的大型行為模型加速機器人學習
兩臺協(xié)作機器人使用從微調(diào)的大型行為模型(LBMs)中獲得的自主評估部署來執(zhí)行長時程行為,例如安裝自行車轉(zhuǎn)盤。| 來源:豐田研究院
豐田研究院(TRI)本周發(fā)布了其關(guān)于大型行為模型(LBMs)的研究結(jié)果,這些模型可用于訓練通用機器人。該研究顯示,單個 LBM 可以學習數(shù)百個任務,并利用先驗知識以 80%更少的訓練數(shù)據(jù)獲取新技能。
LBMs 在大型、多樣化的操作數(shù)據(jù)集上進行預訓練。盡管它們越來越受歡迎,但機器人社區(qū)對 LBMs 實際上能提供什么仍然知之甚少。TRI 的工作旨在通過這項研究揭示算法和數(shù)據(jù)集設計方面的最新進展。
總體而言,TRI 表示其發(fā)現(xiàn)大體上支持了近期 LBM 風格機器人基礎(chǔ)模型的熱度激增,并補充了大規(guī)模在多樣化機器人數(shù)據(jù)上進行預訓練是通往更強大機器人的可行路徑的證據(jù),盡管存在一些需要注意的方面。
通用型機器人承諾一個未來,即家用機器人可以提供日常協(xié)助。然而,我們尚未達到任何機器人都能處理普通家庭任務的階段。TRI 表示,LBMs,即輸入機器人傳感器數(shù)據(jù)并輸出動作的具身 AI 系統(tǒng),可能會改變這一點。
2024 年,TRI 因其快速機器人教學 LBMs 的工作贏得了機器人創(chuàng)新獎 。
TRI 研究發(fā)現(xiàn)的概述
TRI 在近 1700 小時的機器人數(shù)據(jù)上訓練了一系列基于擴散的 LBMs,并進行了 1800 次真實世界的評估部署和超過 47000 次模擬部署,以嚴格研究它們的性能。它發(fā)現(xiàn) LBMs:
相對于從頭開始制定的策略,能夠持續(xù)提升性能
在需要抵抗各種環(huán)境因素的挑戰(zhàn)性環(huán)境中,能夠以3-5倍更少的數(shù)據(jù)量學習新任務
隨著預訓練數(shù)據(jù)的增加,性能穩(wěn)步提升
即使只有幾百小時多樣化的數(shù)據(jù),并且每個行為只有幾百個演示,性能也顯著提升,TRI 表示。預訓練在比預期更早的規(guī)模上提供了持續(xù)的性能提升。目前還沒有一個值得注意的機器人數(shù)據(jù)量,但收益在達到那個規(guī)模之前就已經(jīng)顯現(xiàn)——這對于實現(xiàn)數(shù)據(jù)獲取和自舉性能的良性循環(huán)是一個有希望的跡象,TRI 聲稱。
TRI 的評估套件包括幾個新穎且極具挑戰(zhàn)性的長時程真實世界任務;在這種設置下微調(diào)和評估,LBM 預訓練提高了性能,盡管這些行為與預訓練任務高度不同。
在 TRI 的 LBMs 的架構(gòu)和數(shù)據(jù)中
LBM 架構(gòu)被實例化為一個擴散 Transformer,用于預測機器人動作。| 來源:豐田研究院
TRI 的 LBMs 是具有多模態(tài) ViT 視覺語言編碼器和基于 AdaLN 條件編碼觀測值的 Transformer 去噪頭的多任務擴散策略。這些模型消耗手腕和場景相機、機器人本體感覺和語言提示,并預測 16 個時間步長(1.6 秒)的動作片段。
研究人員在 468 小時內(nèi)部部收集的雙臂機器人遙操作數(shù)據(jù)、45 小時模擬收集的遙操作數(shù)據(jù)、32 小時通用操作界面(UMI)數(shù)據(jù)以及從 Open X-Embodiment 數(shù)據(jù)集精心策劃的約 1150 小時互聯(lián)網(wǎng)數(shù)據(jù)上訓練了 LBMs。
雖然模擬數(shù)據(jù)的比例很小,但將其包含在 TRI 的預訓練混合中,確保它可以評估相同的 LBM 檢查點,無論是在模擬還是真實環(huán)境中。
TRI 的評估方法
TRI 在模擬和現(xiàn)實世界中,使用雙臂平臺在各種任務和環(huán)境條件下評估其 LBM 模型。 | 來源:豐田研究院
TRI 在使用 Franka Panda FR3 機械臂和最多六個攝像頭的物理和 Drake 模擬雙臂工作站上評估其大型行為模型(LBMs)——每只手腕最多兩個攝像頭,以及兩個靜態(tài)場景攝像頭。
TRI 在已見任務(存在于預訓練數(shù)據(jù)中)和未見任務(TRI 用于微調(diào)其預訓練模型的任務)上評估模型。TRI 的評估套件包括 16 個在預訓練期間模擬的已見任務、3 個真實世界的已見任務、5 個之前未見的長時程模擬任務和 5 個復雜的之前未見的長時程真實世界任務。
每個模型都通過每個真實世界任務50次運行和每個模擬任務200次運行進行測試。這使我們的分析具有高度統(tǒng)計學意義,預訓練模型在29個任務上進行了4200次運行評估。
TRI 表示它仔細控制初始條件,以確保在現(xiàn)實世界和模擬中保持一致。它還在現(xiàn)實世界中進行盲法 A/B 風格的測試,并通過順序假設檢驗框架計算統(tǒng)計顯著性。
許多研究人員觀察到的效應只有在比標準更大的樣本量和仔細的統(tǒng)計測試中才能測量,而這種統(tǒng)計測試在實證機器人學中并不標準。由于實驗變化的噪聲很容易掩蓋所測量的效應,許多機器人學論文可能是在測量由于統(tǒng)計能力不足而產(chǎn)生的統(tǒng)計噪聲。
TRI 從研究中得出的主要結(jié)論
團隊的主要結(jié)論之一是,微調(diào)性能隨著預訓練數(shù)據(jù)的增加而平穩(wěn)提高。在我們考察的數(shù)據(jù)規(guī)模下,TRI 沒有發(fā)現(xiàn)性能斷點或明顯的拐點;人工智能的擴展在機器人領(lǐng)域依然有效。
TRI 在非微調(diào)的預訓練大型行為模型上經(jīng)歷了混合結(jié)果。令人鼓舞的是,它發(fā)現(xiàn)單個網(wǎng)絡能夠同時學習許多任務,但它沒有觀察到從頭開始的單任務訓練在沒有微調(diào)的情況下始終具有優(yōu)勢。TRI 預計這部分是由于其模型的語言引導能力。
在內(nèi)部測試中,TRI 表示已經(jīng)看到一些有希望的早期跡象,表明更大的 VLA 原型克服了部分這種困難,但需要更多的工作來嚴格檢驗這種效果在高語言能力模型中的表現(xiàn)。
在注意事項方面,TRI 表示微小的設計選擇,如數(shù)據(jù)歸一化,可以對性能產(chǎn)生重大影響,往往超過架構(gòu)或算法的變更。重要的是要仔細隔離這些設計選擇,以避免混淆性能變化的來源。
評論