谷歌宣布,它在多任務學習方面取得了巨大進展:他們創造了一個可以玩41場雅達利游戲的AI,采用的新訓練方法與其他算法相比,大大提高了訓練效率!
之前玩星際的CherryPi和火了的AlphaGo都屬于單場代理。也就是說,一個AI只能玩一局。在多智能體方面,現有的訓練算法屈指可數:主要包括時間差異學習(TD)和行為克隆(BC)。
但是要讓一個代理學會同時玩多個游戲,這些方法之前的訓練過程是很漫長的。
現在,谷歌采用了新的決策變壓器架構來訓練代理,可以在少量的新游戲數據上進行快速微調,使得訓練速度更快。而且訓練效果也是杠杠的——這種多局代理打41場的綜合得分是DQN等其他多局代理的兩倍左右,甚至比得上只進行單局訓練的代理。
100%代表每個游戲的平均人類水平,灰條代表單游戲代理,藍條代表多游戲代理。
讓我們來看看這款性能出色的多游戲代理。
新決策轉換器的三大亮點
這種處理多種游戲學習的轉換器采用了一種將強化學習問題視為條件序列建模的框架。它根據agent與環境過去的交互以及預期的收益來指導agent接下來的活動。
說到強化學習,討論的主要問題是:在訓練的過程中,面對復雜環境的agent如何在每個時間步感知當前的狀態和獎勵來指導下一步的行動,從而最終實現累積收益的最大化。
傳統的深度RL智能學習一個策略梯度,增加高回報軌跡的概率,降低低回報軌跡的概率。
這就導致了一些問題:需要手動定義一個標量值范圍,信息量很大,包括每個具體游戲的適當信息。這是一個相當龐大的項目,擴展性很差。
為了解決這個問題,谷歌團隊提出了一種新方法。
培訓包容性數據更加多樣化。
谷歌的新決策Transformer將初級玩家到高級玩家的體驗數據映射到相應的收入水平。開發者認為,這將使AI模型更全面地“理解”游戲,從而使其更加穩定,提高其游戲水平。
根據培訓期間代理人與環境之間的相互作用,他們建立了一個利潤分配模型。這個代理玩游戲的時候,只需要加一個優化偏差,就可以增加高獎勵的概率。
此外,為了更全面地捕捉訓練期間智能體與環境交互的時空模式,開發者還將輸入的全局圖像改為像素塊,使模型能夠關注局部動態,掌握與游戲相關的更詳細信息。
決策轉換器基本架構示意圖
可視化代理培訓流程
此外,開發人員還別出心裁地將代理的行為可視化。然后他們發現,這種多博弈決策智能體總是關注包含關鍵環境特征等重要信息的區域,它還可以“多任務處理”:即同時關注多個關鍵點。
紅色越亮,代理越關注該像素。
這種多樣化的注意力分配也提高了模型的性能。
更好的擴展性。
如今,規模已經成為許多機器學習相關突破的重要驅動力之一,規模擴張一般是通過增加變壓器模型中的參數數量來實現的。研究人員發現,這種多博弈決策變壓器是相似的:隨著規模的擴大,其性能較其他模型有顯著提高。
臉書也在研究決策轉換器。
Google通過AI使用Decision Transformer,不僅提高了AI玩多游戲的水平,還提高了多游戲代理的可擴展性。
此外,根據谷歌大腦、加州大學伯克利分校和臉書人工智能研究中心的一篇論文,決策變壓器架構在加強學習研究平臺OpenAI Gym和Key-to-Door的任務方面也表現良好。
也許決策轉換器是通用人工智能發展的關鍵因素之一。
對了,Google AI說相關代碼和Checkpoint會陸續在GitHub上開源,有興趣的朋友可以去看看~
門戶網站:
參考鏈接:
聲明:以上內容為本網站轉自其它媒體,相關信息僅為傳遞更多企業信息之目的,不代表本網觀點,亦不代表本網站贊同其觀點或證實其內容的真實性。投資有風險,需謹慎。