2026世界杯(中國) 傳統UED瓶頸被沖破, 強化學習也能精確定位「最近發展區」


本文第一作家來自國防科技大學數智建模與仿真國度級重心實驗室(State Key Laboratory of Digital Intelligent Modeling and Simulation)2024 級博士生原方,通信作家為國防科技大學曾俊杰助理磋商員、李慶倫博士,并由尹三軍磋商員、秦龍副老師、沈想淇長聘副老師(廈門大學)、謝毓湘老師、楊俊強副磋商員共同相助完成。磋商團隊永久聚焦建師法真、強化學習等干系地方磋商。
純熟強化學習智能體時,一個常見問題是:有些 level 太淺顯,智能體跑幾遍就會;有些 level 又太難,智能體簡直得不到有用反應。前者僅僅在近似已有才能,后者則會把純熟預算浮濫在無效探索上。信得過有價值的純熟環境,時常位于二者之間。它剛好越過智能體刻下才能規模,但又莫得難到全齊學不會。換句話說,強化學習純熟也存在某種「最近發展區」:高效純熟的樞紐,不僅僅生成更多 level,而是找到刻下階段最值得學的 level。
Unsupervised Environment Design(UED)恰是圍繞這一問題伸開。UED 不再把純熟環境看作固定數據集,而是通過自動生成、選定或重放 level,動態塑造純熟散播,讓智能體在不絕學習中贏得更好的泛化才能。但 UED 靠近一個中樞不毛:系統需要知說念,哪些 level 信得過推動了智能體學習。
近日,來自國防科技大學、廈門大學等機構的磋商者提議了 PACE(Parameter Change Environment Design)。PACE 使用 level 指引的計謀參數變化看成純熟價值信號,徑直預計該 level 是否帶來實踐學習進展。該責任已被 ICML 2026 領受。

論文題目:PACE: Parameter Change for Unsupervised Environment Design
論文斡旋:https://doi.org/10.48550/arXiv.2605.01358
UED:讓純熟環境我方釀成課程
UED 的起點并不復雜。傳統強化學習往往先給定一批純熟環境,再讓智能體在其中反復學習。但純熟環境并非越多越好,也不是越難越好。若是 level 太淺顯,智能體很快參預「興隆區」,只可牢固還是掌合手的行為;若是 level 太難,智能體又會參預「心焦區」,永久得不到有用獎勵。兩種情況齊會削弱學習惡果和最終泛化才能。
在 UED 之前,Domain Randomization 還是標明,環境各種性有助于培植泛化才能;但這類設施往往僅僅靜態地立地采樣環境參數,難以憑證智能體刻下的學習狀況動態治愈純熟內容。
UED 進一步將「純熟什么」納入學習過程:系統不再把純熟環境視為固定布景,而是動態生成、選定或重放 level,并憑證某種評價信號決定哪些 level 更值得保留、重放或進一步剪輯。遐想情況下,這些 level 應該不絕迫臨智能體刻下才能規模:既不減弱被經管,2026世界杯(中國)也不全齊超出可學習范疇。
現存 UED 設施往往需要一個 score 來評價 level。常見作念法包括 regret、GAE、MaxMC 等。這些信號在履行中有用,但它們更多從可解性差距、價值忖度顛倒或講演忖度啟程,莫得評估「此次純熟到底帶來了幾許計謀改變」。另一類設施更徑直,舉例 Marginal Benefit 會比擬計謀更新前后的進展變化,因此更接近果真學習逾越。但它需要迥殊 rollout 來忖度更新前后的講演,算計支出更高,忖度方差也更大。
因此,UED 的中樞問題就變成了:若何淺顯而準確地判斷一個 level 是否信得過推動了智能體的學習?
PACE:用參數變化預計學習逾越
PACE 的中樞判斷很徑直:若是一個 level 信得過促成了學習,那么智能體在這個 level 上純熟后,計謀參數應該發生挑升旨的變化。也即是說,PACE 不再把 level 的價值設立在 regret、GAE 或 Monte Carlo return 等盤曲音號上,而是徑直不雅察該 level 指引的計謀更新。




進一步假定這一步更新沿著局部梯度地方進行,即


將其代入一階伸開,可得主義培植的近似時勢:

這個近似關系闡揚:在局部梯度更新假定下,一個 level 帶來的主義培植與其指引的計謀參數變化普遍范數成正比。因此,PACE 將 level score 界說為:



圖 1:PACE 責任經過圖。
基于這一 score,PACE 的開動過程不錯分為兩個部分:level scoring 和 policy training(圖 1)。



所有過程不拒接替進行:新 level 被生成并打分,高價值 level 被寫入 buffer,buffer 中的 level 又被優先重放來純熟計謀。由此,PACE 用計謀參數變化構造出一種內生的學習逾越信號,并用它驅動純熟課程隨智能體才能動態演化。
實驗限度:從迷宮泛化到怒放式任務




圖 2:MiniGrid 上的零樣本移動性能。

表 1:MiniGrid 上的合座泛化方針。
為了進一步磨真金不怕火 PACE 在更復雜任務中的適用性,論文還在 Craftax 上進行實驗。Craftax 是一個面向怒放式強化學習的 JAX benchmark。跟著探索激動,智能體會碰到新的區域、機制和主義,任務散播也會不絕變化,因此更能磨真金不怕火 UED 設施是否能在長純熟過程中不絕提供有用課程。


表 2:Craftax 上 20 個未見過 levels 上的平均講演和軌范差。
結語與預計
在強化學習智能體需要不絕適合未見環境的布景下2026世界杯(中國),若何準確識別信得過推動學習的 levels 是 UED 的樞紐問題;PACE 通過參數變化這一淺顯、低方差、算計友好的內生信號,將環境評價徑直設立在 realized learning progress 之上,從而減少代理方針偏差、高方差忖度和迥殊 rollout 支出的影響,并為構建更融會、更可擴張的自適合純熟課程提供了新的想路。