人工智能國際頂級會議比賽，北大學生奪冠！

發布時間：2023-02-14 14:26 原文鏈接：人工智能國際頂級會議比賽，北大學生奪冠！

“火出圈”的聊天機器人程序ChatGPT

和《流浪地球2》中的“幕后大佬”MOSS

近日引起人們的好奇

敲代碼、寫情書、做題......

ChatGPT為什么啥都會

人工智能是如何變得“智能”的

事實上，這一切都離不開

研發者“耳提面命”式的啟蒙、指導和訓練

讓我們通過一項訓練人工智能轉骰子的比賽

看看北京大學圖靈班兩名大三學生

如何指導出一名聰明的“人工智能學生”

耿逸然（左）安博施（右）

趣味性比賽與硬核挑戰

在人工智能頂級會議NeurIPS 2022（第36屆神經信息處理系統大會）上，由北京大學人工智能研究院楊耀東助理教授、計算機學院前沿計算研究中心董豪助理教授共同指導，北京大學信息科學技術學院2020級圖靈班本科生耿逸然和安博施作為共同第一作者獲得MyoChallenge挑戰賽Die Reorientation賽道冠軍。

國際會議報告截圖

挑戰賽提供了一套高逼真度的肌肉-骨骼靈巧手模型以及交互環境，參賽者需要設計一套科學有效的訓練方法，培養出一個通用的人工智能算法，來控制仿生靈巧手完成隨機的抓取、轉動骰子等既定任務，最終成功率最高、需要肌肉施加力最小的團隊將獲勝。該挑戰吸引了來自全球十多個國家的40個頂尖隊伍參加，共產生了340余份有效方案。

怎樣教會人工智能認識骰子？怎樣指導它用手靠近并抓取骰子？怎樣訓練它轉動骰子到指定角度？看似有趣的比賽背后是一系列的挑戰。

不同于只能控制每個獨立關節的靈巧手，此次比賽采用的基于肌肉的仿生靈巧手具有“牽一發而動全身”的特點，如果控制指尖的肌肉收縮，整根手指的所有關節都會受到影響；控制一個關節向不同方向轉動也將涉及到不同的肌肉。此外，MyoChallenge的手部模型還引入了肌減少癥、肌肉疲勞和肌腱轉移等異常情況，再加上挑戰環境包含了物體初始位置隨機化、任務目標隨機化以及物體的物理屬性（如物體大小和摩擦力）的隨機化等許多隨機參數，意味著一個更接近人類手部條件的復雜仿生手和一個隨機變化的未知環境，這既考驗人工智能從一無所知到熟能生巧的學習能力，也考驗作為“老師”的參賽者們的訓練策略。

左側：不同靈巧手控制方式；右側：MyoChallenge中的特殊靈巧手模型

怎么“教”人工智能？

比賽的核心競爭集中在尋找一個能夠適應特殊手部控制模型以及參數隨機化的策略，也就是說，因材施教地指導人工智能自主學習。對耿逸然和安博施來說，在特定的問題背景中選取合適的方法成為最大的挑戰。在經歷了幾次嘗試的失敗后，他們決定采用強化學習框架來在模擬器里訓練他們的策略，通過獎勵塑造（Reward Shaping）、課程學習（Curriculum Learning）和多目標訓練（Multi-target Training）等技巧來提高訓練后的策略的性能。

獎勵塑造

這一方法就好比訓練動物完成一些特殊動作的過程。水族館中飼養員在海豚完成高難度動作后用作獎勵的小魚類似于強化學習框架下的獎勵函數，在算法有希望完成目標動作的時候加大獎勵函數，從而激勵算法逐漸掌握目標動作。

課程學習

這與人類從易到難學習一門知識的過程相似。如果一次性完成骰子重定向任務很難，那就拆分成三個課程分別學習：拿穩骰子、90°以內的重定向、180°以內的重定向。算法將先從最簡單的拿穩骰子學起，最后完成最困難的180°重定向任務，在逐步增加課程難度的過程中使算法的性能穩定上升。

多目標學習

相比于課程學習通過改變環境難度逐步完成任務，多目標學習則是在不變的環境難度下將一個課程分解成多個子任務，這與體操比賽中的組合動作練習類似。在體操中，運動員需要連續地完成一系列不同的動作。多目標學習過程要求算法控制仿生靈巧手連續地完成多個重定向任務，從而提高對物體的掌控能力。

方法概覽

與之相伴的問題是，訓練策略的過程中需要大量算力支持，耿逸然打了一個形象的比方：“我們面臨的算力需求大概是日常使用的‘游戲本’電腦的10倍甚至30倍，在此基礎上訓練一個有競爭力的智能體需要的訓練時間大致為3到5天。”學院及時為他們提供了硬件上的支持，在指導老師楊耀東和董豪的幫助之下，算力問題得到有效解決，這也為團隊的研發打下良好的基礎。最終，這些方法共同產生的成功率比MyoChallenge中給出的基線算法有了明顯的改善（在挑戰的第一階段提升為70%，第二階段為11%）。

經過MyoChallenge提供的仿生靈巧手控制算法測試平臺的驗證，在本次的挑戰中，耿逸然和安博施團隊采用的強化學習框架下基礎而有效的方法，證明了強化學習算法進行復雜的骨骼-肌肉模型的運動控制以及與物體交互的可行性。

成長的“沃土”

耿逸然和安博施能夠在人工智能國際頂級會議的比賽中拿到冠軍并在會議中做報告實屬不易。成就的背后是北京大學圖靈班和北京通用人工智能研究院的有力支撐：圖靈班的科研輪轉為學生了解不同方向、學習多元內容、立體認識科研提供了良好的環境；而北京通用人工智能研究院匯集了一群頂級的人工智能專家，幫助本科生也能走到國際科研最前沿。耿逸然坦言這樣的科研環境之于他的重要作用：

我的科研導師是董豪老師和楊耀東老師，他們總能給我及時的指導和幫助，從理論學習到實驗設計，再到論文寫作與投稿，都能“手把手”幫我解決問題。

除此之外，圖靈班科研輪轉還提供了和其他不同領域的老師學習知識，拓展視野的機會：我分別在王鶴老師、穆亞東老師、盧宗青老師那里學習了三維視覺、機器人和視覺相關的結合內容以及強化學習的理論知識。

而在北京通用人工智能研究院，朱松純院長為我指明了研究方向，我也有機會和許多非常優秀的研究員一起合作。

北大2020級圖靈班第一次班會合影

在這些知識背景的滋養下，他在ICRA 2023（國際機器人與自動化頂級會議）中，再次與安博施作為共同第一作者發表了題為RLAfford：End-to-End Affordance Learning for Robotic Manipulation（基于端到端可操作性學習的機器人操縱框架）的研究論文，并參與了另外兩篇ICRA中稿論文的算法設計與實驗。