從客戶服務到內容創作,人工智能(AI)影響了眾多領域的進展。但是,一個日益嚴重的被稱為“模型崩潰”的問題,可能會使AI的所有成就功虧一簣。
“模型崩潰”是今年7月發表在英國《自然》雜志上的一篇研究論文指出的問題。它是指用AI生成的數據集訓練未來幾代機器學習模型,可能會嚴重“污染”它們的輸出。
多家外媒報道稱,這不僅是數據科學家需要擔心的技術問題,如果不加控制,“模型崩潰”可能會對企業、技術和整個數字生態系統產生深遠影響。天津大學自然語言處理實驗室負責人熊德意教授在接受科技日報記者采訪時,從專業角度對“模型崩潰”進行了解讀。
“模型崩潰”是怎么回事
大多數AI模型,比如GPT-4,都是通過大量數據進行訓練的,其中大部分數據來自互聯網。最初,這些數據是由人類生成的,反映了人類語言、行為和文化的多樣性和復雜性。AI從這些數據中學習,并用它來生成新內容。
然而,當AI在網絡上搜索新數據來訓練下一代模型時,AI很可能會吸收一些自己生成的內容,從而形成反饋循環,其中一個AI的輸出成為另一個AI的輸入。當生成式AI用自己的內容進行訓練時,其輸出也會偏離現實。這就像多次復制一份文件,每個版本都會丟失一些原始細節,最終得到的是一個模糊的、不那么準確的結果。
美國《紐約時報》報道稱,當AI脫離人類輸入內容時,其輸出的質量和多樣性會下降。
熊德意解讀稱:“真實的人類語言數據,其分布通常符合齊普夫定律,即詞頻與詞的排序成反比關系。齊普夫定律揭示了人類語言數據存在長尾現象,即存在大量的低頻且多樣化的內容。”
熊德意進一步解釋道,由于存在近似采樣等錯誤,在模型生成的數據中,真實分布的長尾現象逐漸消失,模型生成數據的分布逐漸收斂至與真實分布不一致的分布,多樣性降低,導致“模型崩潰”。
AI自我“蠶食”是壞事嗎
對于“模型崩潰”,美國《The Week》雜志近日刊文評論稱,這意味著AI正在自我“蠶食”。
熊德意認為,伴隨著這一現象的出現,模型生成數據在后續模型迭代訓練中占比越高,后續模型丟失真實數據的信息就會越多,模型訓練就更加困難。
乍一看,“模型崩潰”在當前似乎還是一個僅需要AI研究人員在實驗室中擔心的小眾問題,但其影響將是深遠而長久的。
美國《大西洋月刊》刊文指出,為了開發更先進的AI產品,科技巨頭可能不得不向程序提供合成數據,即AI系統生成的模擬數據。然而,由于一些生成式AI的輸出充斥著偏見、虛假信息和荒謬內容,這些會傳遞到AI模型的下一版本中。
美國《福布斯》雜志報道稱,“模型崩潰”還可能會加劇AI中的偏見和不平等問題。
不過,這并不意味著所有合成數據都是不好的。《紐約時報》表示,在某些情況下,合成數據可以幫助AI學習。例如,當使用大型AI模型的輸出訓練較小的模型時,或者當可以驗證正確答案時,比如數學問題的解決方案或國際象棋、圍棋等游戲的最佳策略。
AI正在占領互聯網嗎
訓練新AI模型的問題可能凸顯出一個更大的挑戰。《科學美國人》雜志表示,AI內容正在占領互聯網,大型語言模型生成的文本正充斥著數百個網站。與人工創作的內容相比,AI內容的創作速度更快,數量也更大。
OpenAI首席執行官薩姆·奧特曼今年2月曾表示,該公司每天生成約1000億個單詞,相當于100萬本小說的文本,其中有一大部分會流入互聯網。
互聯網上大量的AI內容,包括機器人發布的推文、荒謬的圖片和虛假評論,引發了一種更為消極的觀念。《福布斯》雜志稱,“死亡互聯網理論”認為,互聯網上的大部分流量、帖子和用戶都已被機器人和AI生成的內容所取代,人類不再能決定互聯網的方向。這一觀念最初只在網絡論壇上流傳,但最近卻獲得了更多關注。
幸運的是,專家們表示,“死亡互聯網理論”尚未成為現實。《福布斯》雜志指出,絕大多數廣為流傳的帖子,包括一些深刻的觀點、犀利的語言、敏銳的觀察,以及在新背景下對新生事物的定義等內容,都不是AI生成的。
不過,熊德意仍強調:“隨著大模型的廣泛應用,AI合成數據在互聯網數據中的占比可能會越來越高,大量低質量的AI合成數據,不僅會使后續采用互聯網數據訓練的模型出現一定程度的‘模型崩潰’,而且也會對社會形成負面影響,比如生成的錯誤信息對部分人群形成誤導等。因此,AI生成內容不僅是一個技術問題,同時也是社會問題,需要從安全治理與AI技術雙重角度進行有效應對。”
10月22日,百度在北京發布了“2024十大科技前沿發明”,一批創新AI(人工智能)原生應用和高價值專利成果披露,“大模型”成為關鍵詞。這十大科技前沿發明具體為:基于生成式大模型的智能體技術,基于大模......
記者從市場監管總局獲悉,近期,我國提出并牽頭推動在國際電工委員會核儀器儀表技術委員會(IEC/TC45)成立帶電粒子加速器和核設施人工智能兩個國際標準新工作組,實現了我國在核儀器儀表領域牽頭成立國際標......
10月26日,2024年北京市數字教育工作推進會上,《北京市教育領域人工智能應用指南》發布,明確人工智能在6大重點教育領域、29個典型場景的應用規范,指導師生穩妥有序開展實踐。今后,《指南》將隨技術進......
10月27日,在2024年北京市數字教育工作推進會上,《北京市教育領域人工智能應用指南》(以下簡稱《指南》)發布。該《指南》是由北京市教育行政主管部門委托研制并發布的首份教育領域人工智能應用指南。此前......
10月25日,人工智能和醫學影像醫療器械創新發展座談會在北京召開。會議交流了人工智能和醫學影像產品研發使用情況,聚焦創新發展共性問題,研討支持政策。會議認為,人工智能和醫學影像醫療器械是醫療器械領域新......
24日,北京市海淀區人工智能青年領軍人才論壇暨第五屆“智匯·海淀”人才主題周活動在北京舉辦。活動以“智匯AI英才·創領新質未來”為主題,旨在共同探索教育科技人才一體化發展的有效路徑,進一步拓寬育才引才......
被稱為是“未來已來”和“無所不能”的人工智能(AI)技術,通過迅猛發展和廣泛應用,正影響著人類生活與工作的方方面面,其未來發展趨勢廣受關注。2024年世界科技與發展論壇“人工智能治理創新為培育科技治理......
10月14日,2024國際光化學技術與產業大會在武漢開幕。參加會議的2021年諾貝爾化學獎獲得者、德國馬克斯·普朗克煤炭研究所教授本杰明·李斯特(BenjaminList),在會議期間接受了《中國科學......
Meta首席人工智能科學家、有“AI教父”之稱的楊立昆(YannLeCun)似乎并不不擔心人工智能會對人類構成威脅。他在接受最新采訪時詳細闡述了自己的觀點,并在回答有關AI是否聰明到足以對人類構成威脅......
2024年10月10日,深化部市合作推動人工智能賦能新型工業化座談會在京召開,北京市委書記尹力,工業和信息化部黨組書記、部長金壯龍,北京市委副書記、市長殷勇講話。工業和信息化部黨組成員、副部長單忠德,......