大模型有許多“崩”的時候,但有一種崩潰叫做“自毀前程”——
近日,《自然》發表在封面的一篇論文指出,用AI生成的數據集訓練未來幾代機器學習模型,可能會“污染”它們的輸出。這項由英國牛津大學、劍橋大學、帝國理工學院、加拿大多倫多大學等多所高校聯合開展的研究顯示,原始內容會在數代內變成不相關的“胡言亂語”,彰顯出使用可靠數據訓練AI模型的重要性。
該論文被放在《自然》封面介紹,配圖為“Garbage Out”(垃圾出)。圖源:Nature
研究團隊給出一個例子。他們測試了Meta的OPT-125m模型,詢問了關于中世紀建筑的相關信息,并且每一次微調都是由上一次生成的數據來訓練。結果,前面幾輪的回答還算過關,但隨著生成內容的迭代,模型逐漸語無倫次;到第九次,模型居然開始“胡說八道”,回答從討論建筑跳躍到一串“野兔”的名字……
該論文主要作者表示,他們曾考慮過合成數據可能對大模型造成誤差,但未曾預料到模型的惡化速度會如此迅速。
對此,研究團隊專門定義了“模型崩潰”:模型崩潰是一個退化過程,模型生成的內容會污染下一代的訓練數據集。而在被污染的數據上訓練之后,新一代模型就容易誤解現實。同時,研究團隊還分析了導致大模型同原始模型發生偏離的三個誤差原因。
經過理論分析,研究人員指出,對于使用前幾代生成的訓練數據集的AI模型來說,模型崩潰似乎是一個不可避免的結局。作者團隊認為,用AI生成數據訓練一個模型并非不可能,但必須對數據進行嚴格過濾。與此同時,依賴人類生成內容的科技公司或許能比競爭對手訓練出更高效的AI模型。
這一研究給AI訓練敲響了警鐘。當下,大語言模型等生成式AI工具越來越受歡迎,這些模型工具主要使用人類生成的數據進行訓練。然而,隨著這些AI模型工具被大量使用,它們生成的內容會逐漸充斥于互聯網,未來計算機生成內容可能會以遞歸循環的形式被用于訓練其他AI模型或其自身。
不過,也有業內人士認為,這項研究的邏輯有些問題,畢竟“訓練一個失敗的模型要比訓練成功一個模型要容易得多”。該觀點指出,訓練AI模型過程中除了對數據的選擇之外,還有強化學習、模型精調等必要方法;即便是使用AI合成數據,基本上也都有各種生成方式的設計和嚴格的篩選。
“要訓練好AI不容易,但要讓它崩潰,那我有一萬種辦法。”該觀點指出。
無獨有偶,美國斯坦福大學也有人工智能研究人員發表論文中研究了模型崩潰的問題。在這項工作的研究者看來,將合成數據添加到現實世界數據中而不是替換它,并不會引起任何重大問題。但該作者補充道:“所有關于模型崩潰的研究都得出一個結論,那就是高質量且多樣化的訓練數據至關重要。”
來自生命科學的前沿研究,始終是化妝品行業創新的重要源泉。而在探索生命科學的邊界中,人工智能(以下簡稱:AI)技術正成為一個不可或缺的研究工具,尤其是在蛋白質科學領域,AI技術的應用正在揭開蛋白質的神秘......
來自生命科學的前沿研究,始終是化妝品行業創新的重要源泉。而在探索生命科學的邊界中,人工智能(以下簡稱:AI)技術正成為一個不可或缺的研究工具,尤其是在蛋白質科學領域,AI技術的應用正在揭開蛋白質的神秘......
人工智能(AI)的蓬勃發展離不開能源的支持。對此,一些科技公司試圖讓傳統的大型核電站重煥生機,以滿足AI產業對能源的需求。還有一些公司另辟蹊徑,如谷歌、亞馬遜先后宣布將推動建設小型模塊化核反應堆(SM......
人工智能(AI)的蓬勃發展離不開能源的支持。對此,一些科技公司試圖讓傳統的大型核電站重煥生機,以滿足AI產業對能源的需求。還有一些公司另辟蹊徑,如谷歌、亞馬遜先后宣布將推動建設小型模塊化核反應堆(SM......
被稱為是“未來已來”和“無所不能”的人工智能(AI)技術,通過迅猛發展和廣泛應用,正影響著人類生活與工作的方方面面,其未來發展趨勢廣受關注。2024年世界科技與發展論壇“人工智能治理創新為培育科技治理......
被稱為是“未來已來”和“無所不能”的人工智能(AI)技術,通過迅猛發展和廣泛應用,正影響著人類生活與工作的方方面面,其未來發展趨勢廣受關注。2024年世界科技與發展論壇“人工智能治理創新為培育科技治理......
2024年度國家自然科學基金指南引導類原創探索計劃項目“數據流通市場的基礎理論與治理方法”項目指南以數據要素為核心引擎推動數字經濟深化發展,有利于構建新發展格局、建設現代化經濟體系、構筑國家競爭新優勢......
10月21日下午和10月22日上午,國家計量科學數據中心在恩施市接續2024年度工作會召開了“計量與數字化”學術會議。本次會議共安排了13場精彩的學術報告,展出了系列學術墻報,并為學術墻報獲獎者頒獎。......
金秋十月,丹桂飄香。2024年10月21日,國家計量科學數據中心2024年度工作會暨“計量與數字化”學術會議在湖北省恩施州順利召開。本屆大會由中國計量科學研究院主辦,湖北省計量測試技術研究院和恩施州計......
在最新的直播中,馬斯克一如既往的語出驚人,透露了特斯拉的許多重大信息。第一,馬斯克承認了他的AI大模型Grok要集成到特斯拉汽車上,這可以說是特斯拉車型機器人最重要的一步。Grok相當于給這些車型機器......