《自然》24日正式發表的一篇研究論文指出了一個人工智能(AI)嚴重問題:用AI生成的數據集訓練未來幾代機器學習模型,可能會嚴重“污染”它們的輸出,這被稱為“模型崩潰”。研究顯示,原始內容會在9次迭代以后,變成不相關的“胡言亂語”(演示中一個建筑文本最終變成了野兔的名字),這凸顯出使用可靠數據訓練AI模型的重要性。
生成式AI工具越來越受歡迎,如大語言模型等,這類工具主要用人類生成的輸入進行訓練。不過,隨著這些AI模型在互聯網不斷壯大,計算機生成內容可能會以遞歸循環的形式被用于訓練其他AI模型或其自身。
包括英國牛津大學在內的聯合團隊一直在進行相關研究,并在去年論文預印本中提出這一概念。在正式發表的論文中,他們用數學模型演示了AI可能會出現的“模型崩潰”。他們證明了一個AI會忽略訓練數據中的某些輸出(如不太常見的文本),導致其只用一部分數據集來自我訓練。
團隊分析了AI模型會如何處理主要由AI生成的數據集。他們發現,給模型輸入AI生成的數據,會減弱今后幾代模型的學習能力,最終導致了“模型崩潰”。他們測試的幾乎所有遞歸訓練語言模型,都容易出現問題。比如,一個用中世紀建筑文本作為原始輸入的測試,到第9代的輸出已經是一串野兔的名字。
團隊指出,用前幾代生成的數據集去訓練AI,崩潰是一個不可避免的結局。他們認為,必須對數據進行嚴格過濾。與此同時,這也意味著依賴人類生成內容的AI模型,或許能訓練出更高效的AI模型。
近日,南方醫科大學基礎醫學院教授榮知立團隊通過空間結構優化和AI結構預測,顯著提升了小型CRISPR-Cas12f系統的基因編輯效率,為精準高效的基因治療提供了新的技術手段。相關成果發表于《自然-通訊......
近日,南方醫科大學基礎醫學院教授榮知立團隊通過空間結構優化和AI結構預測,顯著提升了小型CRISPR-Cas12f系統的基因編輯效率,為精準高效的基因治療提供了新的技術手段。相關成果發表于《自然-通訊......
美國東部時間2025年6月2日上午7時在ASMS2025年會上,全球生命科學分析技術創新者、丹納赫集團(紐約證券交易所代碼:DHR)旗下運營公司SCIEX正式宣布三項軟件生態系統升級。這些升級將帶來全......
美國東部時間2025年6月2日上午7時在ASMS2025年會上,全球生命科學分析技術創新者、丹納赫集團(紐約證券交易所代碼:DHR)旗下運營公司SCIEX正式宣布三項軟件生態系統升級。這些升級將帶來全......
當前,以AI為代表的信息技術正加速影響高等教育。高校如何在越來越快的技術迭代之下保持自身發展的動態平衡?我談幾點思考。過去,高等教育以知識傳授為主,學生通過教師、圖書館等資源獲取知識。AI的出現改變了......
當前,以AI為代表的信息技術正加速影響高等教育。高校如何在越來越快的技術迭代之下保持自身發展的動態平衡?我談幾點思考。過去,高等教育以知識傳授為主,學生通過教師、圖書館等資源獲取知識。AI的出現改變了......
5月29日,由復旦大學附屬中山醫院(以下簡稱中山醫院)、上海中醫藥大學附屬曙光醫院、復旦大學附屬腫瘤醫院聯合主辦的第四期“免疫檢查點抑制劑相關心血管不良反應臨床診療學習班”順利舉辦。作為腫瘤治療領域的......
5月29日,由復旦大學附屬中山醫院(以下簡稱中山醫院)、上海中醫藥大學附屬曙光醫院、復旦大學附屬腫瘤醫院聯合主辦的第四期“免疫檢查點抑制劑相關心血管不良反應臨床診療學習班”順利舉辦。作為腫瘤治療領域的......
近日,利德健康科技(廣州)有限公司(以下簡稱“利德健康”)宣布成功完成近億元天使輪融資,由嘉道資本領投,齊濟投資、中科創星、聚科新興產業創投、見識資本、九州鑫諾跟投,融資資金將用于加速技術研發、產品產......
近日,利德健康科技(廣州)有限公司(以下簡稱“利德健康”)宣布成功完成近億元天使輪融資,由嘉道資本領投,齊濟投資、中科創星、聚科新興產業創投、見識資本、九州鑫諾跟投,融資資金將用于加速技術研發、產品產......