近日,上海交通大學自然科學研究院和數學科學學院的深度學習基礎理論團隊張耀宇、張眾望(學生)、羅濤和許志欽發現了不同寬度的深度神經網絡的損失景觀之間一種普遍內稟的聯系,他們稱之為嵌入原則(Embedding Principle)。研究成果《Embedding Principle of Loss Landscape of Deep Neural Networks》被機器學習領域頂會NeurIPS 2021錄用為亮點論文(低于3%的錄用率),并給予“This could provide a framework towards deeper understanding of deep learning loss landscape.”的評價。
神經網絡損失景觀的描繪是機器學習領域長久以來難以解決的重要基礎理論問題。由于神經網絡的損失函數通常維數極高且高度非凸,從而導致直觀理解和刻畫其在高維空間中的特征與規律變得極為困難。面對這個難題,該團隊從他們自身長期的實驗現象觀測中受到啟發,另辟蹊徑將不同寬度神經網絡的損失景觀作為一個整體進行考察,發現了它們之間一種內稟的聯系——神經網絡的嵌入原則(Embedding Principle), 即一個神經網絡的損失景觀中 “包含”所有更窄神經網絡損失景觀的所有臨界點(包括鞍點、局部最優點和全局最優點等)。具體而言,這項工作發現了一類將窄網絡的參數空間嵌入到任一更寬網絡的參數空間中的方法,能夠保證窄網絡的任何臨界點嵌入到寬網絡后仍然是臨界點并且網絡的表征保持不變(作為推論,網絡的輸出函數和損失值也都保持不變)。通過引入這種一般的嵌入方法,我們可以發現對于任一窄網絡的臨界點,所有比之更寬的網絡的損失景觀中都包含有和該臨界點具有相同輸出函數的臨界點,這也就是“包含”的含義。實驗發現,在很大的初始化區域,神經網絡的實際訓練過程會經歷這類由嵌入原則帶來的極值點附近,這使得嵌入原則的理論對理解神經網絡的訓練過程具有重要意義。
以上示意圖展示了單步嵌入的具體操作,即將任一神經網絡嵌入到一個某一層多一個神經元的網絡。單步嵌入的核心想法在于選擇一個神經元并按照α、(1-α)的比例將其一分為二,從而在增加神經元的情況下保持原有表征和臨界性。通過單步嵌入的復合,可以得到一族從一個神經網絡到任意更寬神經網絡的嵌入方法。
嵌入原則的發現為更深入地理解深度神經網絡的損失景觀提供了全新的視角和分析框架,即不同寬度神經網絡的損失景觀本質上來說是一個有層層嵌入關系的整體對象。在此框架的基礎上,可以進一步分析一個臨界點的首次出現以及臨界點性質隨著寬度增加的變化。可以預見,隨著后續研究工作的開展,對神經網絡損失景觀更系統深入的理解將逐步呈現在我們面前。
本工作由上海交通大學深度學習基礎理論團隊的張耀宇、張眾望、羅濤和許志欽合作完成,第一作者為張耀宇,通訊作者為張耀宇和許志欽。其中張耀宇、羅濤、許志欽為交大自然科學研究院和數學科學學院雙聘的長聘教軌副教授,也是交大致遠學院首屆2008級理科班的畢業生。張眾望是該團隊一年級博士生,也是交大2017級致遠榮譽計劃數學方向的畢業生。目前上海交通大學自然科學研究院和數學科學學院已經形成了一批從事深度學習基礎研究的科研人員并發表了一系列相關工作,比如本文的相關作者合作發現并命名的頻率原則的論文獲得2021世界人工智能大會青年優秀論文提名獎,他們關于兩層無窮寬的ReLU網絡的相圖分析發表在機器學習領域頂刊Journal of Machine Learning Research等。
相關論文:
嵌入原則 https://papers.nips.cc/paper/2021/hash/7cc532d783a7461f227a5da8ea80bfe1-Abstract.html
相圖分析 https://www.jmlr.org/papers/volume22/20-1123/20-1123.pdf
頻率原則 https://www.global-sci.org/intro/article_detail/cicp/18395.html
最近,DeepSeek火爆出圈,人工智能熱度再上新高。在高校,學生們利用AI工具輔助論文寫作已越發普遍,相比翻閱厚重的書籍資料或者利用互聯網搜索引擎查找資料,借助AI工具讓論文撰寫方便了很多。但在調查......
近日,上海交大機械與動力工程學院制冷與低溫工程研究所王如竹教授ITEWA創新團隊在Energy&EnvironmentalScience上發表了題為“Fewertemperatureties:......
本科生究竟要不要寫畢業論文?不久前,一則新聞再掀波瀾。寧波大學科學技術學院人文學院允許漢語言文學專業學生,以網文作品代替學位論文,從而獲得畢業資格。這讓不少網友覺得“不可思議”,紛紛質疑這一行為是“放......
本科生究竟要不要寫畢業論文?不久前,一則新聞再掀波瀾。寧波大學科學技術學院人文學院允許漢語言文學專業學生,以網文作品代替學位論文,從而獲得畢業資格。這讓不少網友覺得“不可思議”,紛紛質疑這一行為是“放......
11月23日晚,在上海交通大學學生中心,科學家們在音樂聲中走過紅毯鋪就的科技星光大道,開啟了一年一度的科學之夜,第二屆上海交通大學“睿遠科技大獎”和第一屆“睿遠青年科技獎”同時頒發。經全球提名和評委會......
文|《中國科學報》記者徐可瑩李思輝39歲的孫亞東不久前收獲了人生第4篇Science論文。第一作者兼通訊作者的標注,讓他的貢獻躍然紙上。進入不惑之年前,他扎實地立住了自己的科研人設。這也是他本人最喜歡......
編譯|未玖Nature,26September2024,Volume633,Issue8031《自然》,2024年9月26日,第633卷,8031期天文學AstronomyAtemperatesupe......
文|《中國科學報》記者溫才妃“北京大學本碩博、教授、博士生導師。”“對學生的基礎知識和成績無要求。”“實驗無需長時間重復操作。”“若每周工作15小時以上,保證發表IF(影響因子)大于4的論文(一作/共......
科學網APP論文頻道上新100本期刊!科學網APP論文頻道覆蓋生命科學、數理科學、工程材料等8大領域,并細分100多個二級學科,收錄期刊1600本(持續增加中),將為您提供最新、最全的論文信息,打造您......
近日,據上海交通大學官網“學校領導”欄目更新信息顯示,管海兵已任上海交通大學副校長。據公開資料,管海兵,男,漢族,1971年5月生,工學博士,教授。現任上海交通大學副校長。擔任中國計算機學會高性能計算......