2026世界杯官方指定中國區認證平臺 HiF-VLA: 以motion為中心打造「邊想邊作念」的寰宇動作模子


本文第一作家為西湖大學科研助理藺聰明,通信作家為阿里巴巴達摩院算法眾人黃想騰和西湖大學東談主工智能系副主任王東林。通盤作家均來自西湖大學機器智能實驗室(MiLAB)和西湖機器東談主科技有限公司,團隊責任 ReconVLA 近期得到 AAAI 2026 最好論文獎。
具身智能要想真著實復雜場景中落地,離不開對長程任務(Long-horizon tasks)的領路實踐。可是,現存的 VLA(視覺-說話-動作)模子大多停留在「動作師法」階段,枯竭對物理寰宇動態變換的深入不竭,在長線操作中極易墮入因果污染;同期,傳統通過徑直堆疊多幀圖像來引入時間維度的順次,不僅容易引入無數靜態布景冗余,更會帶來厄運性的推理延長與顯存溢出。

為處理上述挑戰,來自西湖大學、浙江大學、西湖機器東談主等機構的盤問團隊建議了一種以理解(Motion)為中心的全新雙向時空推理框架 HiF-VLA。廢棄冗余的像素級輸入,HiF-VLA 玄機索要低維緊湊的 Motion 向量行動動態先驗,在一個調動的「承接眾人」模塊中,同步完成將來視覺理解的瞻望與高精度動作序列的生成。
比擬傳統的時空建圭臬式,HiF-VLA 澈底摒棄了不消的視覺布景攪擾,不僅在極長的歷史不雅測窗口下依然保抓了恒定、極低的推理延長,更賦予了機器東談主竟然「邊想邊作念」的物理直觀。在 CALVIN 與 LIBERO-LONG 等長程任務評測中,其生遵守顯赫卓越現存 SOTA 順次,為構建竟然不竭寰宇啟動軌則的 WAM(寰宇動作模子)迷惑了全新旅途。
面前,該責任已被 CVPR 2026 羅致,代碼已開源。
論文地址:HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models
01 盤問動機:
從「動作師法」到「不竭物理寰宇」

面前主流的 VLA(視覺-說話-動作)模子,實質上大多是高等的「動作師法」。它們羅致面前的圖像不雅測,徑直映射出對應的動作。
這種范式在短視距任務中尚可交接,但在實踐長程任務時卻屢屢翻車。為什么?因為模子枯竭對物理寰宇「動態變化」的不竭。它們不知談我方剛才作念了什么,也無法預判面前動作會對環境產生怎樣的影響,從而極易墮入因果污染。
要沖破這種「短視」魔咒,模子必須從單純的「動作師法」走向「物理不竭」。這就條款咱們引入 World Action Model (WAM) 的宗旨——智能體不僅要會「作念」,還要能在腦海中「想」(推演環境的變化)。
如何賦予機器東談主「邊想邊作念」的時空推明智力?最直不雅的目的是把已往幀和將來幀的圖像統共塞進大模子里。但推行是骨感的:圖像級別的時空建模不僅會導致算力爆炸,還會引入無數的靜態布景冗余,使得過錯的物理變化被湮滅。HiF-VLA 團隊找到了一個高效的切入點:理解(Motion)。
02 核心有盤算:
HiF-VLA 的「三位一體」時空推理
比擬于冗余的像素,Motion 是捕捉物理寰宇動態演變最地談、最高效、最實質的表征。以 Motion 為中心,HiF-VLA 構建了一個名為 Hindsight-Insight-Foresight (HiF) 的雙向時空推理框架。
1. Hindsight(后見之明):沖破馬爾可夫假定的「記念錨點」
智能體必須領有連貫的自我締結。HiF-VLA 將機器東談主已往的歷史幀通過視頻編解碼器(H.264、MPEG-4 等)索要為低維且緊湊的 Motion 動態先驗。這就像給機器東談主植入了一個記念核心,它不需要回看已往的攝像,就能精確感知到「環境剛剛閱歷了怎樣的理解變化」。這個歷史落魄文,是后續一切推理的基石。
2. Insight(瞻念察面前)和 Foresight(預知之明):走向 WAM 的「全知視角」
竟然的智能,既需要扎根當下,更需要預判將來。在 HiF-VLA 框架中,這兩個智力被完滿解耦又縝密交匯,共同組成了邁向 WAM(寰宇動作模子)的核心:
Insight(瞻念察面前):認真深度解析面前的說話提示和及時視覺不雅測,讓機器東談主感知「我此時此刻瀕臨的是什么環境,需要完成什么具體標的」。
Foresight(料想將來):基于當下的 Insight,HiF-VLA 在輸挪動作的同期,會初模式瞻望將來的理解趨勢。這至極于在模子里面鑲嵌了一個憑空物理模擬器,世界杯官方認證平臺讓機器東談主大要提前推演自己的活動后果。
3. 深度對王人:視覺與動作的協同瞻望
這是 HiF-VLA 最為核心、也最出彩的調動——歷史調制的承接眾人(Hindsight-modulated joint expert)。淌若說 Hindsight 和 Foresight 拉長了時間軸,那么承接眾人模塊則改變了模子的生成標的。HiF-VLA 合計,視覺與動作的割裂是不容模子不竭物理軌則的絆腳石,因此想象的承接眾人模塊毫不是簡便地將視覺特征和說話提示拼接,而是實踐了一個雙標的協同的戰略:
視覺 Motion 瞻望 + 動作序列生成:承接眾人在歷史信息(Hindsight)的動態調制下,被強制條款同期輸出對將來視覺 Motion 的瞻望以及高精度的實踐動作序列。
為什么這很遑急?這種雙標的的承接對王人,阻擋模子不可只死記硬背動作,而是必須去不竭「我輸出這個動作后,物理寰宇的視覺表征會發生怎樣的動態變換」。
通過將「瞻望將來視覺變化(想)」與「籌謀動作序列(作念)」深度綁定,HiF-VLA 好意思滿了竟然的 Think-while-acting(邊想邊作念)。它不再是盲目地師法眾人軌跡,而是產生了竟然的「物理直觀」。
03 實驗死字
? Q1:HiF-VLA 與 SOTA 的 VLA 模子比擬較如何?
HiF-VLA 在種種化的短程和長程任務中展現出了浩瀚的智力。


團隊尤其關懷 HiF-VLA 在長程任務上的進展。在 LIBERO-LONG 任務套件以及 CALVIN ABC-D 長程任務評測中,HiF-VLA 的進展顯赫優于諸多 SOTA 順次。同期,在竟然寰宇的長程任務測試中,HiF-VLA 也展現出愈加領路且優勝的任務完成性能(更多細心盤算請參閱原論文)。
? Q2:HiF-VLA 是否有用地緩解了傳統順次中的視覺冗余和低效問題?

? 傳統作念法的窘境:當簡便惡毒地將歷史多幀圖像塞給模子時,顯存一忽兒爆炸。峰值 GPU 顯存徑直翻倍飆升至 63.6 GB(漲幅 2.06 倍),推理延長更是暴增到 229.5 ms(高達 3.15 倍)。更令東談主窒息的是,由于引入了海量冗余的靜態布景噪聲,模子反而被攪擾了視野,平均生遵守(Avg. SR)不升反降。
HiF-VLA 的處理有盤算:HiF-VLA 玄機地將歷史幀編碼為低維、結構化的理解向量。引入 Hindsight 模塊后,模子面對不異長度的歷史窗口,峰值顯存只是督察在 31.4 GB,相較于 Baseline 險些作念到了「零背負」(僅增多極細微的 1.02 倍支撥)。同期,推理延長(117.7 ms)也遠低于傳統堆疊順次。最遑急的是,在剔除了視覺冗余后,它讓模子能專注不竭物理理解,生效將平均生遵守大幅擢升。
? Q3:跟著時間跨度的增多,HiF-VLA 在推理時的可推廣性如何?

終結指數級老本增長,沖破長序列籌劃瓶頸。
從推理效果對比圖不錯直不雅看出,跟著歷史時間跨度的增多,傳統堆疊圖像幀的順次會碰到指數級的籌劃延長暴漲以至顯存溢出(OOM)。而 HiF-VLA 憑借索要低維緊湊的 Motion 特征,澈底沖破了長序列推理的籌劃瓶頸,跟著歷史不雅測窗口變長,都歷久保抓領路且極低的推理延長,展現出了在處理長程動態變換時浩瀚的時間可推廣性。
? Q4:HiF-VLA 所謂的「邊想邊作念」究竟是怎樣的經由?

千聞不如一見:motion 瞻望與 action 實踐的時空高度吻合。
從可視化死字中不錯看到,HiF-VLA 在實踐動作的并吞時刻,其里面承接眾人模塊也曾精確瞻望出了由紅色箭頭標記的將來視覺體育場。這有勁地講解了模子并非在盲目背誦提示,而是竟然好意思滿了「邊想邊作念」。它能明晰地預判自己動作將激勵環境中怎樣的物理動態變換,從而在復雜任務中展現出精確的「物理直觀」。
04 講求
從機械的「動作師法」進化為不竭物理軌則的「寰宇動作模子(WAM)」2026世界杯官方指定中國區認證平臺,HiF-VLA 邁出了至關遑急的一步。它講解了機器東談主的動作不應只是對提示的盲目反應,而應當是在對已往的瞻念察與對將來的預判交匯下,當可是然的物理反饋。關于具身智能走向更復雜、更竟然的物理寰宇,HiF-VLA 無疑提供了一個極具后勁和啟發性的全新范式。