當(dāng)前位置：首頁 > 要聞 >

今日熱聞!機器人感知大升級！輕量化注入幾何先驗，成功率提升31%2025-09-29 14:33:02 | 編輯：admin | 來源：量子位

在機器人學(xué)習(xí)領(lǐng)域，如何讓AI真正“看懂”三維世界一直是個難題。

(相關(guān)資料圖)

VLA模型通常建立在預(yù)訓(xùn)練視覺語言模型（VLM）之上，僅基于2D圖像-文本數(shù)據(jù)訓(xùn)練，缺乏真實世界操作所需的3D空間理解能力。

當(dāng)前基于顯式深度輸入的增強方案雖有效，但依賴額外傳感器或深度估計網(wǎng)絡(luò)，存在部署難度、精度噪聲等問題。

為此，上海交通大學(xué)和劍橋大學(xué)提出一種增強視覺語言動作（VLA）模型空間理解能力的輕量化方法Evo-0，通過隱式注入3D幾何先驗，無需顯式深度輸入或額外傳感器。

該方法利用視覺幾何基礎(chǔ)模型VGGT，從多視角RGB圖像中提取3D結(jié)構(gòu)信息，并融合到原有視覺語言模型中，實現(xiàn)空間感知能力的顯著提升。

在rlbench仿真實驗中，Evo-0在5個需要精細操作的任務(wù)上，平均成功率超過基線pi0 15%，超過openvla-oft 31%。

Evo-0：實現(xiàn)2D–3D表征的融合

Evo-0提出將VGGT作為空間編碼器，引入VGGT訓(xùn)練過程中針對3D結(jié)構(gòu)任務(wù)提取的t3^D token。這些token包含深度上下文、跨視圖空間對應(yīng)關(guān)系等幾何信息。

模型引入一個cross-attention融合模塊，將ViT提取的2D視覺token作為query，VGGT輸出的3D token作為key/value，實現(xiàn)2D–3D表征的融合，從而提升對空間結(jié)構(gòu)、物體布局的理解能力。

融合后的token與語言指令共同輸入凍結(jié)主干的VLM，預(yù)測動作由flow-matching策略生成。訓(xùn)練中，僅微調(diào)融合模塊、LoRA適配層與動作專家，降低計算成本。

研究團隊通過在5個rlbench模擬任務(wù)、5個真實世界操作任務(wù)上的全面實驗，以及在5種不同干擾條件下的魯棒性評估，證明了空間信息融合方法的有效性。在所有設(shè)置中，Evo-0都一致地增強了空間理解，并且優(yōu)于最先進的VLA模型。

除了上述展示的效果外，在超參數(shù)實驗中，為了分析超參數(shù)如何影響模型性能，團隊在5個RLBench任務(wù)上進行了額外的實驗。他們重點關(guān)注兩個方面：訓(xùn)練步數(shù)和執(zhí)行步數(shù)，并評估它們對任務(wù)成功率的影響。

值得注意的是，僅用15k步訓(xùn)練的Evo-0已經(jīng)超過了用20k步訓(xùn)練的π0，這表明Evo-0具有更高的訓(xùn)練效率。

在真機實驗部分，實驗設(shè)計五個空間感知要求高的真實機器人任務(wù)，包括目標(biāo)居中放置、插孔、密集抓取、置物架放置及透明物體操作等。所有任務(wù)均對空間精度容忍度極低。

Evo-0在全部任務(wù)中均超越基線模型pi0，平均成功率提升28.88%。尤其在插孔與透明物抓取任務(wù)中，表現(xiàn)出對復(fù)雜空間關(guān)系的理解與精準(zhǔn)操控能力。

在魯棒性實驗中，論文設(shè)計了5類干擾條件：（1）引入一個未見過的干擾物體，（2）背景顏色的變化，（3）目標(biāo)位置的位移，（4）目標(biāo)高度的變化，（5）相機角度的變化。Evo-0均有相對魯棒的結(jié)果，并且強于基準(zhǔn)pi0。

綜上所述，Evo-0的關(guān)鍵在于通過VGGT提取豐富的空間語義，繞過深度估計誤差與傳感器需求，以插件形式增強VLA模型的空間建模能力，訓(xùn)練高效、部署靈活，為通用機器人策略提供新的可行路徑。

論文鏈接：https://arxiv.org/abs/2507.00416

關(guān)鍵詞實驗視覺機器人幾何先驗

分享到：收藏

上一篇：每日熱門：新余市鈐陽辦事處開展“慶國慶迎中秋”主題活動最后一頁下一篇：

推薦內(nèi)容

今日熱聞!機器人感知大升級！輕量化注入幾何先驗，成功率提升31%
機器人感知大升級！輕量化注入幾何先驗，成功率提升31%,實驗,視覺,機器
金融科技股震蕩走高，匯金股份觸及20cm漲停
每經(jīng)AI快訊，9月29日，金融科技股震蕩走高，匯金股份觸及20cm漲停，指
最新消息：“有 AI 的 Air”：聯(lián)想 moto X70 Air 手機官宣 10 月底見
“有AI的Air”：聯(lián)想motoX70Air手機官宣10月底見,手機,聯(lián)想,攝像頭,air
鳳山全力推動幫扶產(chǎn)業(yè)提質(zhì)增效當(dāng)前熱訊
近年來，鳳山縣緊緊圍繞產(chǎn)業(yè)振興目標(biāo)，積極推進幫扶產(chǎn)業(yè)高質(zhì)量發(fā)展，通
每日熱門：新余市鈐陽辦事處開展“慶國慶迎中秋”主題活動
為傳承中華優(yōu)秀傳統(tǒng)文化，營造歡樂祥和的雙節(jié)氛圍，9月28日，新余市鈐
資訊：黃光裕名下國美氫能投資成立新公司
人民財訊9月29日電，企查查APP顯示，近日，北京國美氫源新能科技有限公
港股異動 | 中資券商股早盤回暖券商三季度業(yè)績預(yù)期樂觀 ...
智通財經(jīng)APP獲悉，中資券商股早盤回暖，截至發(fā)稿，華泰證券(06886)漲5
港股榮昌生物漲超7%
港股榮昌生物漲超7%
今頭條！恒生科技指數(shù)漲幅達2%，新能源賽道股領(lǐng)漲
此頁面是否是列表頁或首頁？未找到合適正文內(nèi)容。
大越期貨：短期預(yù)計玻璃震蕩運行為主
1、基本面：玻璃生產(chǎn)利潤回落，行業(yè)冷修高位，開工率、產(chǎn)量下降至歷史
當(dāng)前熱門：水利部：預(yù)計“十四五”末國家水網(wǎng)覆蓋率達80.3%
我國建設(shè)了一大批水源工程、調(diào)水工程、灌區(qū)工程，預(yù)計“十四五”末國家
曝勇士對庫明加的報價保持不變均包含球隊選項每日熱點
曝勇士對庫明加的報價保持不變均包含球隊選項,霍福德,梅爾頓,勇士更衣
盯盤:釩鈦股份秒停
【10:23盯盤:釩鈦股份秒停】釩鈦股份(000629)在10:20瞬間封漲停。【10:
跨境支付板塊震蕩走弱，*ST東通跌超10%-熱推薦
此頁面是否是列表頁或首頁？未找到合適正文內(nèi)容。
萬得凱：9月26日獲融資買入179.09萬元
同花順（300033）數(shù)據(jù)中心顯示，萬得凱（301309）9月26日獲融資買入179
兩融余額縮水199.09億元杠桿資金大幅加倉221股
9月26日滬指下跌0 65%，市場兩融余額為24244 58億元，較前一交易日減少
9月29日昨日漲停_含一字板塊漲幅達2%
9月29日9點59分，昨日漲停_含一字板塊指數(shù)報3687 016點，漲幅達2%，成
今日熱訊：京東宣布：今年雙11于10月9日晚8點開啟，現(xiàn)貨開賣不用等
9月29日，京東宣布，今年京東雙11購物節(jié)將于10月9日晚8點現(xiàn)貨開賣，在
嵐圖汽車取得懸架控制相關(guān)專利
國家知識產(chǎn)權(quán)局信息顯示，嵐圖汽車科技有限公司取得一項名為“懸架控制
9月29日生意社苯酚基準(zhǔn)價為6850.00元/噸今日播報
9月29日，生意社苯酚基準(zhǔn)價為6850 00元噸，與本月初(6740 00元噸)相
服務(wù)到“佳”
近日，一位農(nóng)民工（右）走進農(nóng)業(yè)銀行四川廣元劍閣縣支行營業(yè)部，在填寫
威博液壓：9月26日獲融資買入15.63萬元
同花順（300033）數(shù)據(jù)中心顯示，威博液壓9月26日獲融資買入15 63萬元，
觀天下！南通朋根竹制品有限公司成立注冊資本30萬人民幣
天眼查App顯示，近日，南通朋根竹制品有限公司成立，法定代表人為周朋
播報:儀征新旭塑料制品經(jīng)營部（個體工商戶）成立注冊資本3...
天眼查App顯示，近日，儀征新旭塑料制品經(jīng)營部（個體工商戶）成立，法
今日報丨大連市欒織箱包銷售商店（個人獨資）成立注冊資本1...
天眼查App顯示，近日，大連市欒織箱包銷售商店（個人獨資）成立，法定
新方法可同時精確測量粒子位置和動量
【新方法可同時精確測量粒子位置和動量】澳大利亞和英國科學(xué)家團隊提出
巴薩落后，皇馬舊將奧德里奧索拉近距離推射破門_焦點消息
巴薩落后，皇馬舊將奧德里奧索拉近距離推射破門,西甲,巴薩,皇家社會,皇
2-0客勝卡利亞里，何塞普-馬丁內(nèi)斯：不會止步于此，全力備戰(zhàn)歐冠
2-0客勝卡利亞里，何塞普-馬丁內(nèi)斯：不會止步于此，全力備戰(zhàn)歐冠,歐冠,
快報:年輕人正用他們的方式改變世界
近日，江西一名19歲大學(xué)生小吳用暑假助農(nóng)直播賣水果的收入，帶著全村38
三項重大基礎(chǔ)設(shè)施順利投運（記錄中國）貴州花江峽谷大橋正...
本報貴陽9月28日電（記者蘇濱、陳雋逸）28日，經(jīng)過3年多的努力，世界第