亚洲最新在线视频_日韩欧美在线看_亚洲一区二区视频在线_亚洲国产精品一区二区久久恐怖片

當前位置:首頁 > 要聞 >

今日熱聞!機器人感知大升級!輕量化注入幾何先驗,成功率提升31%2025-09-29 14:33:02 | 編輯:admin | 來源:量子位

在機器人學習領域,如何讓AI真正“看懂”三維世界一直是個難題。


(相關資料圖)

VLA模型通常建立在預訓練視覺語言模型(VLM)之上,僅基于2D圖像-文本數據訓練,缺乏真實世界操作所需的3D空間理解能力。

當前基于顯式深度輸入的增強方案雖有效,但依賴額外傳感器或深度估計網絡,存在部署難度、精度噪聲等問題。

為此,上海交通大學和劍橋大學提出一種增強視覺語言動作(VLA)模型空間理解能力的輕量化方法Evo-0,通過隱式注入3D幾何先驗,無需顯式深度輸入或額外傳感器。

該方法利用視覺幾何基礎模型VGGT,從多視角RGB圖像中提取3D結構信息,并融合到原有視覺語言模型中,實現空間感知能力的顯著提升。

在rlbench仿真實驗中,Evo-0在5個需要精細操作的任務上,平均成功率超過基線pi0 15%,超過openvla-oft 31%。

Evo-0:實現2D–3D表征的融合

Evo-0提出將VGGT作為空間編碼器,引入VGGT訓練過程中針對3D結構任務提取的t3^D token。這些token包含深度上下文、跨視圖空間對應關系等幾何信息。

模型引入一個cross-attention融合模塊,將ViT提取的2D視覺token作為query,VGGT輸出的3D token作為key/value,實現2D–3D表征的融合,從而提升對空間結構、物體布局的理解能力。

融合后的token與語言指令共同輸入凍結主干的VLM,預測動作由flow-matching策略生成。訓練中,僅微調融合模塊、LoRA適配層與動作專家,降低計算成本。

研究團隊通過在5個rlbench模擬任務、5個真實世界操作任務上的全面實驗,以及在5種不同干擾條件下的魯棒性評估,證明了空間信息融合方法的有效性。在所有設置中,Evo-0都一致地增強了空間理解,并且優于最先進的VLA模型。

除了上述展示的效果外,在超參數實驗中,為了分析超參數如何影響模型性能,團隊在5個RLBench任務上進行了額外的實驗。他們重點關注兩個方面:訓練步數和執行步數,并評估它們對任務成功率的影響。

值得注意的是,僅用15k步訓練的Evo-0已經超過了用20k步訓練的π0,這表明Evo-0具有更高的訓練效率。

在真機實驗部分,實驗設計五個空間感知要求高的真實機器人任務,包括目標居中放置、插孔、密集抓取、置物架放置及透明物體操作等。所有任務均對空間精度容忍度極低。

Evo-0在全部任務中均超越基線模型pi0,平均成功率提升28.88%。尤其在插孔與透明物抓取任務中,表現出對復雜空間關系的理解與精準操控能力。

在魯棒性實驗中,論文設計了5類干擾條件:(1)引入一個未見過的干擾物體,(2)背景顏色的變化,(3)目標位置的位移,(4)目標高度的變化,(5)相機角度的變化。Evo-0均有相對魯棒的結果,并且強于基準pi0。

綜上所述,Evo-0的關鍵在于通過VGGT提取豐富的空間語義,繞過深度估計誤差與傳感器需求,以插件形式增強VLA模型的空間建模能力,訓練高效、部署靈活,為通用機器人策略提供新的可行路徑。

論文鏈接:https://arxiv.org/abs/2507.00416

關鍵詞 實驗 視覺 機器人 幾何先驗

上一篇:每日熱門:新余市鈐陽辦事處開展“慶國慶 迎中秋”主題活動 最后一頁下一篇:

推薦內容
主站蜘蛛池模板: 视频一区二区在线| 日本精品久久久久久久久久| 久久免费国产视频| 国产成人综合久久| 久久视频在线观看中文字幕| 视频一区亚洲| 亚洲日本精品国产第一区| 国产成人久久精品| 国产精品网红直播| 久久在精品线影院精品国产| 日韩中文不卡| 亚洲一区二区不卡视频| 尤物av无码色av无码| 91精品国产高清久久久久久91| 国产精品久久国产三级国电话系列| 九九精品在线播放| 久久久久北条麻妃免费看| 日本久久久网站| 欧美日韩亚洲国产成人| 欧美午夜精品久久久久久蜜欧美亚洲第一页| 91精品国产综合久久香蕉最新版| 国产精品极品尤物在线观看| 国产精品亚洲视频在线观看| 激情五月综合色婷婷一区二区| 久久久久久欧美| 国产精品午夜国产小视频| 国产精品视频免费在线观看| 国产精品福利网| 91久久久亚洲精品| 亚州成人av在线| 日韩国产精品一区二区三区| 日本一区免费看| 欧美日韩一道本| 久久免费精品视频| 国产精品网站免费| 99国产在线| 日韩国产高清一区| 久久国产精品亚洲| 岛国视频一区| 日韩在线免费视频V| 久久99久久精品国产|