“火出圈”的聊天機器人程序ChatGPT
和《流浪地球2》中的“幕后大佬”MOSS
近日引起人們的好奇
敲代碼、寫情書、做題......
ChatGPT為什么啥都會
人工智能是如何變得“智能”的
事實上,這一切都離不開
研發者“耳提面命”式的啟蒙、指導和訓練
讓我們通過一項訓練人工智能轉骰子的比賽
看看北京大學圖靈班兩名大三學生
如何指導出一名聰明的“人工智能學生”
耿逸然(左)安博施(右)
趣味性比賽與硬核挑戰
在人工智能頂級會議NeurIPS 2022(第36屆神經信息處理系統大會)上,由北京大學人工智能研究院楊耀東助理教授、計算機學院前沿計算研究中心董豪助理教授共同指導,北京大學信息科學技術學院2020級圖靈班本科生耿逸然和安博施作為共同第一作者獲得MyoChallenge挑戰賽Die Reorientation賽道冠軍。
國際會議報告截圖
挑戰賽提供了一套高逼真度的肌肉-骨骼靈巧手模型以及交互環境,參賽者需要設計一套科學有效的訓練方法,培養出一個通用的人工智能算法,來控制仿生靈巧手完成隨機的抓取、轉動骰子等既定任務,最終成功率最高、需要肌肉施加力最小的團隊將獲勝。該挑戰吸引了來自全球十多個國家的40個頂尖隊伍參加,共產生了340余份有效方案。
怎樣教會人工智能認識骰子?怎樣指導它用手靠近并抓取骰子?怎樣訓練它轉動骰子到指定角度?看似有趣的比賽背后是一系列的挑戰。
不同于只能控制每個獨立關節的靈巧手,此次比賽采用的基于肌肉的仿生靈巧手具有“牽一發而動全身”的特點,如果控制指尖的肌肉收縮,整根手指的所有關節都會受到影響;控制一個關節向不同方向轉動也將涉及到不同的肌肉。此外,MyoChallenge的手部模型還引入了肌減少癥、肌肉疲勞和肌腱轉移等異常情況,再加上挑戰環境包含了物體初始位置隨機化、任務目標隨機化以及物體的物理屬性(如物體大小和摩擦力)的隨機化等許多隨機參數,意味著一個更接近人類手部條件的復雜仿生手和一個隨機變化的未知環境,這既考驗人工智能從一無所知到熟能生巧的學習能力,也考驗作為“老師”的參賽者們的訓練策略。
左側:不同靈巧手控制方式;右側:MyoChallenge中的特殊靈巧手模型
怎么“教”人工智能?
比賽的核心競爭集中在尋找一個能夠適應特殊手部控制模型以及參數隨機化的策略,也就是說,因材施教地指導人工智能自主學習。對耿逸然和安博施來說,在特定的問題背景中選取合適的方法成為最大的挑戰。在經歷了幾次嘗試的失敗后,他們決定采用強化學習框架來在模擬器里訓練他們的策略,通過獎勵塑造(Reward Shaping)、課程學習(Curriculum Learning)和多目標訓練(Multi-target Training)等技巧來提高訓練后的策略的性能。
獎勵塑造
這一方法就好比訓練動物完成一些特殊動作的過程。水族館中飼養員在海豚完成高難度動作后用作獎勵的小魚類似于強化學習框架下的獎勵函數,在算法有希望完成目標動作的時候加大獎勵函數,從而激勵算法逐漸掌握目標動作。
課程學習
這與人類從易到難學習一門知識的過程相似。如果一次性完成骰子重定向任務很難,那就拆分成三個課程分別學習:拿穩骰子、90°以內的重定向、180°以內的重定向。算法將先從最簡單的拿穩骰子學起,最后完成最困難的180°重定向任務,在逐步增加課程難度的過程中使算法的性能穩定上升。
多目標學習
相比于課程學習通過改變環境難度逐步完成任務,多目標學習則是在不變的環境難度下將一個課程分解成多個子任務,這與體操比賽中的組合動作練習類似。在體操中,運動員需要連續地完成一系列不同的動作。多目標學習過程要求算法控制仿生靈巧手連續地完成多個重定向任務,從而提高對物體的掌控能力。
方法概覽
與之相伴的問題是,訓練策略的過程中需要大量算力支持,耿逸然打了一個形象的比方:“我們面臨的算力需求大概是日常使用的‘游戲本’電腦的10倍甚至30倍,在此基礎上訓練一個有競爭力的智能體需要的訓練時間大致為3到5天。”學院及時為他們提供了硬件上的支持,在指導老師楊耀東和董豪的幫助之下,算力問題得到有效解決,這也為團隊的研發打下良好的基礎。最終,這些方法共同產生的成功率比MyoChallenge中給出的基線算法有了明顯的改善(在挑戰的第一階段提升為70%,第二階段為11%)。
經過MyoChallenge提供的仿生靈巧手控制算法測試平臺的驗證,在本次的挑戰中,耿逸然和安博施團隊采用的強化學習框架下基礎而有效的方法,證明了強化學習算法進行復雜的骨骼-肌肉模型的運動控制以及與物體交互的可行性。
成長的“沃土”
耿逸然和安博施能夠在人工智能國際頂級會議的比賽中拿到冠軍并在會議中做報告實屬不易。成就的背后是北京大學圖靈班和北京通用人工智能研究院的有力支撐:圖靈班的科研輪轉為學生了解不同方向、學習多元內容、立體認識科研提供了良好的環境;而北京通用人工智能研究院匯集了一群頂級的人工智能專家,幫助本科生也能走到國際科研最前沿。耿逸然坦言這樣的科研環境之于他的重要作用:
我的科研導師是董豪老師和楊耀東老師,他們總能給我及時的指導和幫助,從理論學習到實驗設計,再到論文寫作與投稿,都能“手把手”幫我解決問題。
除此之外,圖靈班科研輪轉還提供了和其他不同領域的老師學習知識,拓展視野的機會:我分別在王鶴老師、穆亞東老師、盧宗青老師那里學習了三維視覺、機器人和視覺相關的結合內容以及強化學習的理論知識。
而在北京通用人工智能研究院,朱松純院長為我指明了研究方向,我也有機會和許多非常優秀的研究員一起合作。
北大2020級圖靈班第一次班會合影
在這些知識背景的滋養下,他在ICRA 2023(國際機器人與自動化頂級會議)中,再次與安博施作為共同第一作者發表了題為RLAfford:End-to-End Affordance Learning for Robotic Manipulation(基于端到端可操作性學習的機器人操縱框架)的研究論文,并參與了另外兩篇ICRA中稿論文的算法設計與實驗。
在RLAfford中,作者利用強化學習過程中的接觸信息,結合三維視覺表達可操作性信息,可以統一描述各類操作任務(如開關門,抓取物體等任務),并具有即插即用的特點。
在這次比賽的基礎上,他與合作者繼續探索著人工智能與環境交互的問題,從機械臂到靈巧手,從簡單環境到復雜場景,從虛擬引擎到真實世界,不斷探索人工智能的無限可能性。
機械臂與靈巧手在虛擬環境和真實世界中進行訓練與測試
10月14日,2024國際光化學技術與產業大會在武漢開幕。參加會議的2021年諾貝爾化學獎獲得者、德國馬克斯·普朗克煤炭研究所教授本杰明·李斯特(BenjaminList),在會議期間接受了《中國科學......
Meta首席人工智能科學家、有“AI教父”之稱的楊立昆(YannLeCun)似乎并不不擔心人工智能會對人類構成威脅。他在接受最新采訪時詳細闡述了自己的觀點,并在回答有關AI是否聰明到足以對人類構成威脅......
2024年10月10日,深化部市合作推動人工智能賦能新型工業化座談會在京召開,北京市委書記尹力,工業和信息化部黨組書記、部長金壯龍,北京市委副書記、市長殷勇講話。工業和信息化部黨組成員、副部長單忠德,......
“我整個職業生涯一直在做這個東西,但心里很清楚,同行也這么認為——在我們有生之年,‘蛋白質的折疊’問題是不可能解決的,尤其是蛋白質結構預測問題。結果AlphaFold出來了!”10月9日,博士生導師、......
記者10日從中山大學獲悉,該校醫學院施莽教授團隊與阿里云李兆融團隊將人工智能技術應用于病毒鑒定,發現了傳統研究方法未能發現的病毒“暗物質”,探索了病毒學研究的新路徑。相關成果近日發表在國際期刊《細胞》......
2024年諾貝爾獎的三大科學獎項已經依次揭曉。人工智能(AI)成為今年開獎期間最熱門的詞匯。其中,美國物理學家約翰·霍普菲爾德和英裔加拿大計算機科學家杰弗里·辛頓出人意料地獲得了諾貝爾物理學獎,而辛頓......
在當前由大模型和AIGC(人工智能生成內容)驅動的AI時代,算力需求暴增,同時還面臨供給不足、供需匹配難、能耗激增等挑戰,算力產業亟須由“量”向“質”加速高質量發展。近日,《人工智能算力高質量發展評估......
2024年諾貝爾三大科學獎項中,兩大獎項與人工智能研究相關,先是物理學獎頒給了曾獲圖靈獎的機器學習先驅,緊接著化學獎也將一半頒給了“程序員”。不僅諾獎得主在接到獲獎電話時表示大感意外,就連諾貝爾獎官方......
工業和信息化部辦公廳、國家藥監局綜合司關于印發人工智能醫療器械創新任務揭榜優勝單位名單的通知。原文如下:工信廳聯科函〔2024〕355號各省、自治區、直轄市及計劃單列市、新疆生產建設兵團工業和信息化主......
近日,市發改委、市住建委聯合啟動征集2025年市重點工程,重點包括科技創新及現代化產業項目、基礎設施項目、民生改善項目和其他市委市政府重點工作涉及的重大項目四大類。此次征集專門將商業航天、6G、低空經......