還有比這更狠的學霸？AI：我教我自己

發布時間：2021-01-20 14:15 原文鏈接：還有比這更狠的學霸？AI：我教我自己

　　要學的東西太簡單？太難？人類可能會因此無聊或沮喪，但人工智能不會。在剛結束不久的神經信息處理系統大會(NeurIPS)上，來自加州大學伯克利分校和谷歌的研究者展示了一項新方法，讓人工智能自己訓練自己。

人工智能可以通過自學完成訓練，從而用越來越復雜的方式操縱方塊。（圖片來源：OPENAI）

　　這一新方法有望讓自動駕駛汽車、家用機器人更快地學習，甚至可能幫助攻破懸而未決的數學難題。

　　人工智能在地圖導航領域已有不少研究，其中一種實驗方法是讓人工智能程序沿著有實心分布塊的2D網格導航。為了讓程序更快地熟悉復雜環境并到達目的地，科學家會對其反復訓練，從而達到強化目的，進而提高人工智能的應用程度。

　　新發布的研究中，來自加州大學伯克利分校的邁克爾·丹尼斯（Michael Dennis）和谷歌科學家娜塔莎·杰奎斯（Natasha Jaques）考慮了兩種繪制地圖的方法。第一種方法是在網格中隨機安排分布塊，但這一方法并沒有讓人工智能程序有很大提升。第二種方法則讓人工智能程序記住過去的嘗試，并相應地提升訓練難度——但這種方法的瓶頸在于，有時訓練模式的難度太大，程序根本無法完成。

　　為此，丹尼斯和杰奎斯等人創造了一個合適的環境，讓人工智能自我訓練。在名為“配對”（PAIRED）的新訓練方法中，他們先將已有的人工智能程序與另一個幾乎相同的程序結合，二者間的優勢各不相同，但它們互為“對手”。在這一模式中，已有的人工智能程序是主角，但因為遇到了旗鼓相當的“對手”，挑戰變得非常困難，也正因此，其解決問題的能力一直處于臨界狀態。

　　經過一系列訓練，作為主角的人工智能程序可以解決大約五分之一的新問題。在NeurIPS的討論會上，丹尼斯表示他們對新成果即將開展的大量工作感到非常興奮。

　　同期，在討論會上發布的另一項研究中，杰奎斯和同事已經在用PAIRED訓練其他人工智能程序，使之學會自動填寫網絡表單并預定航班。與傳統模式相比，采用新訓練模式的成功率大概有50%。

　　對此，人工智能促進協會主席、康奈爾大學的計算機科學家巴特·塞爾曼（Bart Selman）表示，PAIRED是一種機智的人工智能訓練方法。

　　塞爾曼等人在討論會上介紹的研究也與人工智能的自我訓練有關。他們設計的人工智能程序需要在推箱子游戲中將方塊推向目標位置。如果規劃不當，方塊很可能陷入死胡同。

　　為了訓練人工智能，塞爾曼和同事創建了一組更簡易的拼圖。訓練程序會根據人工智能的表現好壞，選擇不同難度的“考題”，從而讓訓練計劃達到合適的水準。

　　不過目前為止，考題對人工智能而言難還是簡單并不好預測。在出給人工智能的225道考題中，有80%被破解，其中約三分之一的考題完全來自新的訓練方法。塞爾曼表示，這一研究發現非常有趣，未來，他們希望將有關成果應用到未解決的數學難題上。