<li id="omoqo"></li>
  • <noscript id="omoqo"><kbd id="omoqo"></kbd></noscript>
  • <td id="omoqo"></td>
  • <option id="omoqo"><noscript id="omoqo"></noscript></option>
  • <noscript id="omoqo"><source id="omoqo"></source></noscript>
  • 發布時間:2024-07-28 17:29 原文鏈接: 《自然》封面:以AI生成數據訓練AI,模型變傻?

    大模型有許多“崩”的時候,但有一種崩潰叫做“自毀前程”——

    近日,《自然》發表在封面的一篇論文指出,用AI生成的數據集訓練未來幾代機器學習模型,可能會“污染”它們的輸出。這項由英國牛津大學、劍橋大學、帝國理工學院、加拿大多倫多大學等多所高校聯合開展的研究顯示,原始內容會在數代內變成不相關的“胡言亂語”,彰顯出使用可靠數據訓練AI模型的重要性。

    該論文被放在《自然》封面介紹,配圖為“Garbage Out”(垃圾出)。圖源:Nature



    研究團隊給出一個例子。他們測試了Meta的OPT-125m模型,詢問了關于中世紀建筑的相關信息,并且每一次微調都是由上一次生成的數據來訓練。結果,前面幾輪的回答還算過關,但隨著生成內容的迭代,模型逐漸語無倫次;到第九次,模型居然開始“胡說八道”,回答從討論建筑跳躍到一串“野兔”的名字……

    該論文主要作者表示,他們曾考慮過合成數據可能對大模型造成誤差,但未曾預料到模型的惡化速度會如此迅速。

    對此,研究團隊專門定義了“模型崩潰”:模型崩潰是一個退化過程,模型生成的內容會污染下一代的訓練數據集。而在被污染的數據上訓練之后,新一代模型就容易誤解現實。同時,研究團隊還分析了導致大模型同原始模型發生偏離的三個誤差原因。

    經過理論分析,研究人員指出,對于使用前幾代生成的訓練數據集的AI模型來說,模型崩潰似乎是一個不可避免的結局。作者團隊認為,用AI生成數據訓練一個模型并非不可能,但必須對數據進行嚴格過濾。與此同時,依賴人類生成內容的科技公司或許能比競爭對手訓練出更高效的AI模型。

    這一研究給AI訓練敲響了警鐘。當下,大語言模型等生成式AI工具越來越受歡迎,這些模型工具主要使用人類生成的數據進行訓練。然而,隨著這些AI模型工具被大量使用,它們生成的內容會逐漸充斥于互聯網,未來計算機生成內容可能會以遞歸循環的形式被用于訓練其他AI模型或其自身。

    不過,也有業內人士認為,這項研究的邏輯有些問題,畢竟“訓練一個失敗的模型要比訓練成功一個模型要容易得多”。該觀點指出,訓練AI模型過程中除了對數據的選擇之外,還有強化學習、模型精調等必要方法;即便是使用AI合成數據,基本上也都有各種生成方式的設計和嚴格的篩選。

    “要訓練好AI不容易,但要讓它崩潰,那我有一萬種辦法。”該觀點指出。

    無獨有偶,美國斯坦福大學也有人工智能研究人員發表論文中研究了模型崩潰的問題。在這項工作的研究者看來,將合成數據添加到現實世界數據中而不是替換它,并不會引起任何重大問題。但該作者補充道:“所有關于模型崩潰的研究都得出一個結論,那就是高質量且多樣化的訓練數據至關重要。”

    相關論文信息:

    https://www.nature.com/articles/s41586-024-07566-y

     


    相關文章

    行業AI智能體開放生態聯盟在京成立

    4月15日,行業AI智能體開放生態聯盟在北京正式成立。該聯盟由中科曙光發起,聯合百度、立思辰、高教社、中科天璣、中教云等多家企業創立。聯盟旨在科研教育、生物信息、精準醫療等前沿領域,依托“超智融合”等......

    行業AI智能體開放生態聯盟在京成立

    4月15日,行業AI智能體開放生態聯盟在北京正式成立。該聯盟由中科曙光發起,聯合百度、立思辰、高教社、中科天璣、中教云等多家企業創立。聯盟旨在科研教育、生物信息、精準醫療等前沿領域,依托“超智融合”等......

    輸入幾句話,AI就能為你定制機器人

    美國杜克大學工程師開發了一個名為Text2Robot的創新性機器人設計框架,任何人都能通過簡單的文字描述,也就是敲入幾句話,來設計和構建機器人。該技術成果將在5月的IEEE機器人與自動化國際會議上展示......

    輸入幾句話,AI就能為你定制機器人

    美國杜克大學工程師開發了一個名為Text2Robot的創新性機器人設計框架,任何人都能通過簡單的文字描述,也就是敲入幾句話,來設計和構建機器人。該技術成果將在5月的IEEE機器人與自動化國際會議上展示......

    AI時代學科調整中,文科該有何種使命擔當

    隨著人工智能(AI)技術的飛速發展,全球教育體系及其學科布局正在經歷深刻變革。在本專欄2024年10月15日刊發的《哈佛大學人文學科正經歷“關停并轉”》一文中,我專門討論了為何在哈佛大學這樣的美國頂尖......

    AI時代學科調整中,文科該有何種使命擔當

    隨著人工智能(AI)技術的飛速發展,全球教育體系及其學科布局正在經歷深刻變革。在本專欄2024年10月15日刊發的《哈佛大學人文學科正經歷“關停并轉”》一文中,我專門討論了為何在哈佛大學這樣的美國頂尖......

    AI將致全球數據中心用電量增長超一倍

    據《自然》報道,近日國際能源機構(IEA)發布的一份報告顯示,到2030年,隨著人工智能(AI)發展,全球數據中心的用電量預計將增加一倍以上。該報告涵蓋了當前數據中心的能源足跡,并預測了其未來需求。這......

    AI將致全球數據中心用電量增長超一倍

    據《自然》報道,近日國際能源機構(IEA)發布的一份報告顯示,到2030年,隨著人工智能(AI)發展,全球數據中心的用電量預計將增加一倍以上。該報告涵蓋了當前數據中心的能源足跡,并預測了其未來需求。這......

    向智向綠向高端,科技創新賦能家電換新

    當燃氣熱水器不再簡單制造熱水,而是擁有了“補水”“美膚”功效;當非遺旗袍在家就能實現定制化洗滌、熨燙;當人參、蟲草、燕窩在冰箱中找到專屬環境安心存放……近段時間,更多智能化、綠色化、高端化家電新品悄然......

    向智向綠向高端,科技創新賦能家電換新

    當燃氣熱水器不再簡單制造熱水,而是擁有了“補水”“美膚”功效;當非遺旗袍在家就能實現定制化洗滌、熨燙;當人參、蟲草、燕窩在冰箱中找到專屬環境安心存放……近段時間,更多智能化、綠色化、高端化家電新品悄然......

    <li id="omoqo"></li>
  • <noscript id="omoqo"><kbd id="omoqo"></kbd></noscript>
  • <td id="omoqo"></td>
  • <option id="omoqo"><noscript id="omoqo"></noscript></option>
  • <noscript id="omoqo"><source id="omoqo"></source></noscript>
  • 1v3多肉多车高校生活的玩视频