DeepMind 的一個名為Open-Ended Learning Team 的小組開發了一種訓練 AI 系統玩游戲的新方法。


DeepMind 的團隊并沒有像其他玩游戲的 AI 系統那樣,將其暴露于數百萬個先前的游戲中,而是為其新的 AI 系統代理提供了一組最低限度的技能,他們使用這些技能來實現一個簡單的目標(例如發現另一個玩家在虛擬世界中),然后在此基礎上進行構建。


“養成系”AI系統:讓機器人從“嚶嚶學語”開始學習


研究人員創建了一個名為 XLand 的虛擬世界,一個色彩繽紛的虛擬世界,具有一般的電子游戲的場景。


在其中,研究人員稱之為代理的 AI 玩家開始實現一個總體目標,并且在他們這樣做的過程中,他們獲得了可用于實現其他目標的技能。研究人員然后改變游戲,給代理一個新的目標,但允許他們保留他們在以前的游戲中學到的技能。


該技術的一個示例涉及代理試圖進入其世界的一部分,該部分太高而無法直接爬上并且沒有諸如樓梯或坡道之類的接入點。在四處走動時,代理發現它可以移動它發現的平坦物體作為坡道,從而到達它需要去的地方。為了讓他們的代理學習更多技能,研究人員創建了 700,000 個場景或游戲,其中代理面臨大約 340 萬個獨特的任務。


“養成系”AI系統:讓機器人從“嚶嚶學語”開始學習


通過采用這種方法,代理能夠自學如何玩多種游戲,例如標記、奪旗和捉迷藏。研究人員稱他們的方法具有無限挑戰性。XLand 另一個有趣的方面是存在一種霸主,一個實體,它密切關注代理并記錄他們正在學習哪些技能,然后生成新游戲以增強他們的技能。使用這種方法,只要代理被賦予新任務,它們就會繼續學習。


在運行他們的虛擬世界時,研究人員發現代理通常是偶然地學到了新技能,他們發現這些技能有用,然后在這些技能的基礎上進行開發,從而獲得更高級的技能,例如在沒有選擇的情況下訴諸實驗,與其他代理合作并學習如何使用對象作為工具。


該方法是朝著創建通用算法邁出的一步,這些算法可以學習如何自己玩新游戲,這些技能有朝一日可能會被自主機器人使用。


免責聲明

我來說幾句

不吐不快,我來說兩句
最新評論

還沒有人評論哦,搶沙發吧~