《自然》封面:以AI生成數據訓練AI,模型變傻?
大模型有許多“崩”的時候,但有一種崩潰叫做“自毀前程”—— 近日,《自然》發表在封面的一篇論文指出,用AI生成的數據集訓練未來幾代機器學習模型,可能會“污染”它們的輸出。這項由英國牛津大學、劍橋大學、帝國理工學院、加拿大多倫多大學等多所高校聯合開展的研究顯示,原始內容會在數代內變成不相關的“胡言亂語”,彰顯出使用可靠數據訓練AI模型的重要性。 該論文被放在《自然》封面介紹,配圖為“Garbage Out”(垃圾出)。圖源:Nature 研究團隊給出一個例子。他們測試了Meta的OPT-125m模型,詢問了關于中世紀建筑的相關信息,并且每一次微調都是由上一次生成的數據來訓練。結果,前面幾輪的回答還算過關,但隨著生成內容的迭代,模型逐漸語無倫次;到第九次,模型居然開始“胡說八道”,回答從討論建筑跳躍到一串“野兔”的名字…… 該論文主要作者表示,他們曾考慮過合成數據可能對大模型造成誤差,但未曾預料到模型的惡化速度會如此迅速......閱讀全文
用AI數據訓練AI可能最終導致崩潰
《自然》7月24日發表的一篇論文指出,用人工智能(AI)生成的數據集訓練未來幾代機器學習模型可能會污染它們的輸出,這個概念稱為“模型崩潰”(model collapse)。該研究顯示,原始內容會在數代內變成不相關的胡言亂語,顯示出使用可靠數據訓練AI模型的重要性。生成式AI工具越來越受歡迎,如大語言
用AI數據訓練AI可能最終導致崩潰
《自然》7月24日發表的一篇論文指出,用人工智能(AI)生成的數據集訓練未來幾代機器學習模型可能會污染它們的輸出,這個概念稱為“模型崩潰”(model collapse)。該研究顯示,原始內容會在數代內變成不相關的胡言亂語,顯示出使用可靠數據訓練AI模型的重要性。 生成式AI工具越來越受歡迎,
用AI生成數據訓練AI或導致模型崩潰
科技日報北京7月25日電?(記者張夢然)《自然》24日正式發表的一篇研究論文指出了一個人工智能(AI)嚴重問題:用AI生成的數據集訓練未來幾代機器學習模型,可能會嚴重“污染”它們的輸出,這被稱為“模型崩潰”。研究顯示,原始內容會在9次迭代以后,變成不相關的“胡言亂語”(演示中一個建筑文本最終變成了野
用AI生成數據訓練AI或導致模型崩潰
《自然》24日正式發表的一篇研究論文指出了一個人工智能(AI)嚴重問題:用AI生成的數據集訓練未來幾代機器學習模型,可能會嚴重“污染”它們的輸出,這被稱為“模型崩潰”。研究顯示,原始內容會在9次迭代以后,變成不相關的“胡言亂語”(演示中一個建筑文本最終變成了野兔的名字),這凸顯出使用可靠數據訓練
《自然》封面:以AI生成數據訓練AI,模型變傻?
大模型有許多“崩”的時候,但有一種崩潰叫做“自毀前程”——近日,《自然》發表在封面的一篇論文指出,用AI生成的數據集訓練未來幾代機器學習模型,可能會“污染”它們的輸出。這項由英國牛津大學、劍橋大學、帝國理工學院、加拿大多倫多大學等多所高校聯合開展的研究顯示,原始內容會在數代內變成不相關的“胡言亂語”
《自然》封面:以AI生成數據訓練AI,模型變傻?
大模型有許多“崩”的時候,但有一種崩潰叫做“自毀前程”—— 近日,《自然》發表在封面的一篇論文指出,用AI生成的數據集訓練未來幾代機器學習模型,可能會“污染”它們的輸出。這項由英國牛津大學、劍橋大學、帝國理工學院、加拿大多倫多大學等多所高校聯合開展的研究顯示,原始內容會在數代內變成不相關的“胡
美AI巨頭被控秘密“侵吞”數據
人工智能(AI)迅速發展離不開對模型的訓練。然而,高質量數據短缺以及部分領域封閉式的數據生態似乎成為AI發展的掣肘。據多家外媒報道,OpenAI、谷歌和Meta等公司正尋求在線信息來訓練最新的AI系統。但他們無視既定政策,蓄意改變規則,并試圖規避版權法。收集數據“走捷徑”英國《泰晤士報》近日刊文指出
AI教育風潮席卷中國高校-學生用AI學AI
“What does this machine do(這臺機器是干什么的)?”4日下午,西南交通大學孟加拉國留學生Zahidul Alam拍下身前吊弦疲勞試驗儀器的照片。收到他的語音提問后,手機中的24小時在線“AI學伴”瞬間給出如論文般詳細的英文回答。 這是西南交大首門人工智能通識課的第一課
“AI靶場”讓數據管理更精準
數字經濟時代,數據已成為新型生產要素。通過“數據托管”等形式對數據進行集中管理,有助于保護數據主體權益,促進數據共享和運用效率,對數字經濟的發展具有重要意義。近日,在深圳數據交易所(簡稱“深數所”)的支持下,鵬城實驗室AI靶場與合合信息旗下啟信寶達成合作,雙方成功完成首批數據托管事宜的對接,為中國數
用AI識別AI:西湖大學研究可檢測AI生成文本
虛假新聞、惡意產品評論、剽竊……ChatGPT、 GPT-4等AI大語言模型的應用帶來便利,但其誤用也帶來一系列問題。西湖大學工學院張岳教授的“文本智能實驗室”日前發布的一項研究提出一種高準確率、高速、低成本、通用的新文本檢測方法——Fast-DetectGPT,無需訓練即可識別各種AI大語言模型生
ChatGPT的拷問:何為AI倫理、AI治理
前不久,AI聊天機器人程序ChatGPT席卷全球,完成了AI第一次大規模的自傳播。作為人工智能領域的現象級應用,ChatGPT可能引發的信任、責任、倫理、法律等問題也很快引發各界關注與擔憂。近年來,不少關于人工智能(AI),并和人類生產、生活關系緊密的議題被廣泛討論,諸如“如何應對AI可能對社會產生
“AI+”時代-|-AI“解碼”免疫系統
人體免疫系統包含了很多有關身體健康的信息,其中的關鍵部分就包含在血液中。醫學界提出了一個大膽設想:通過創建一個萬能的血液測試,采集免疫系統與病原體之間的反應信息,繪制“免疫圖譜”,從而解碼免疫系統中的信息,及時在疾病惡化前篩查確診。那么,什么樣的平臺能提供足夠的計算力,不斷通過機器學習和精準模型
ChatGPT的拷問:何為AI倫理、AI治理
原文地址:http://news.sciencenet.cn/htmlnews/2023/2/494707.shtm 前不久,AI聊天機器人程序ChatGPT席卷全球,完成了AI第一次大規模的自傳播。作為人工智能領域的現象級應用,ChatGPT可能引發的信任、責任、倫理、法律等問題也很快引發各
“AI+大數據”推動數據挖掘走向數智化治理
??5月20日,阿里巴巴副總裁、阿里云計算平臺負責人賈揚清在媒體溝通會上表示,經過近20年的發展,人們對大數據的利用已從早期的數據挖掘進化為集數據分析、數據管理、數據協同為一體的綜合治理,在這一進程中,大數據與人工智能(AI)技術的融合居功甚偉。 賈揚清提到,數字經濟迅猛發展,不斷豐富、增長的數
AI“參謀”來了!中關村AI新藥研發平臺落成
12月19日,由中關村生命科學園與角井(北京)生物技術有限公司共同發起建設的中關村AI新藥研發平臺在北京中關村生命科學園舉行落成典禮。該平臺于2020年12月開始籌建,旨在利用人工智能技術幫助制藥企業快速進行藥物靶點發現和篩選、藥物作用機制探索、特異性抗體優化等工作,成為生物醫藥企業新藥研發的
為什么越使用AI,越活得像個AI
生成式人工智能(AIGC)在重塑生產力的同時,也給高等教育領域帶來了顛覆性變革。然而,它所具有的“技術雙面性”很可能引發“流利但不真實”“道德偏見”“技術依賴”等問題,這將影響高等教育場景。2023年初,全球多所高校陸續出臺政策禁止學生使用生成式AI,但越來越多的大學開始意識到生成式AI勢不可擋,單
利用“數據+知識+AI”實現新靶標藥物虛擬篩選
6月6日,中國科學院上海藥物研究所鄭明月課題組在《自然-機器智能》(Nature Machine Intelligence)上發表了題為Generic protein–ligand interaction scoring by integrating physical prior knowled
生成式AI時代,大模型數據安全如何保障?
在生成式AI(人工智能)時代,數據安全的出路可能會是“用魔法打敗魔法”,知識產權保護也可能要提前到token(字符串)層面。4月26日,在2024中關村論壇上,人工智能企業與學者就AI大模型的數據安全問題進行了討論。中關村論壇數據安全治理與發展論壇現場? 澎湃新聞記者 秦盛 攝“在生成式人工智能時代
“AI成龍”遇冷,AI數字人在影視業不靈?
影視業成為“粗制濫造”的標簽?近日,影視巨星成龍主演、大量使用了人工智能(AI)數字人技術的電影《傳說》登陸大熒幕,卻遭遇了票房與口碑的雙失利。截至7月20日,豆瓣評分5.3,上映10天累計票房不到8000萬元。顯然,“AI成龍”遭到了冷遇。“AI成龍”本是《傳說》這部電影的賣點。據介紹,為了劇情需
亞馬遜云推出AI代理功能,讓AI成為助理
Amazon Bedrock的Agents(代理)功能將使公司能夠構建可以自動執行特定任務的AI應用程序,例如預訂餐廳,而不僅僅是得到去哪里吃飯的建議。 “很多人都如此聚焦于這些模型和模型的大小,但我認為真正重要的是如何利用它們構建應用,這也是今天發布代理(Agents)功能的一個重要原因。”
“氏無界·AI無疆”醫療AI成果轉化行動啟動
原文地址:http://news.sciencenet.cn/htmlnews/2024/1/516109.shtm
AI-耗電超出預期,未來-AI-進展或依賴能源突破
據 technews 報道,由于 AI 消耗電力將遠遠超出人們預期,OpenAI 執行長 Sam Altman 認為,未來 AI 發展需要尋求能源突破。Sam Altman在彭博社于達沃斯世界經濟論壇(World Economic Forum)期間舉行的座談活動中談道,對氣候友善的能源,特別是核融合
AI也分級?清華教授推動全球首個AI《分級定義》
AI對話系統發展歷程 高凱 攝 28日,由清華大學計算機教授、智能技術與系統實驗室副主任黃民烈發起,聯合了十余家科研機構、二十多位知名學者共同制定的全球首個《AI對話系統分級定義》(以下簡稱《分級定義》)正式發布,《分級定義》將推動AI對話系統在虛擬個人助理、智能家居、智能汽車(車載語音)、情
AI數據存儲設備選型的6個關鍵要素
人工智能(AI)和機器學習將成為幫助企業利用其核心數字資產創造競爭優勢的很重要工具之一。但在選購AI數據存儲設備之前,企業必須考慮機器學習平臺在獲取、處理和保留數據時的一系列需求。我們首先需要研究一下機器學習軟件使用的數據的生命周期,因為這有助于企業理解在為AI選擇存儲時應該考慮哪些因素。最
鐘南山:大數據和AI提高新冠肺炎診斷
“大數據和人工智能極大提高了我們對新冠肺炎的診斷、預測和治療水平。”于12日上午在福州舉辦的第三屆數字中國建設峰會開幕式上,“共和國勛章”獲得者、中國工程院院士鐘南山在視頻致辭中向在抗疫斗爭中作出貢獻的數字技術領域工作者表示感謝。 1936年10月出生的鐘南山是福建廈門人。他說,“歡迎嘉賓們來
AI答題勝過真人
近日一項發表于《公共科學圖書館-綜合》的研究發現94%的使用ChatGPT創建的大學考試答案,不會被檢測出是由人工智能(AI)生成的,而且這些答案的得分往往比真實學生的更高。如今,人工智能(AI)技術的興起和發展,如ChatGPT的誕生,對教育部門提出了一個根本性問題,即學校許多形式的評估,都是在沒
AI答題勝過真人
近日一項發表于《公共科學圖書館-綜合》的研究發現94%的使用ChatGPT創建的大學考試答案,不會被檢測出是由人工智能(AI)生成的,而且這些答案的得分往往比真實學生的更高。如今,人工智能(AI)技術的興起和發展,如ChatGPT的誕生,對教育部門提出了一個根本性問題,即學校許多形式的評估,都是在沒
中國AI論文數量世界居首,美國AI系統遙遙領先
原文地址:http://news.sciencenet.cn/htmlnews/2023/4/497845.shtm當地時間4月3日,由美國斯坦福大學以人為本AI研究院(HAI)發起、學術界聯合工業界組成的跨學科小組共同編制的“2023人工智能指數(AI Index)報告”(以下簡稱“斯坦福 AI
txyz.ai初探EAD奧義:-AI釋讀7600系統新進應用
SCIEX高分辨質譜 ZenoTOF??7600 系統自2021年發布以來,各種學科的科學家利用其新型的電子活化解離(Electron Activated Dissociation, EAD)技術結合Molecule Profiler和Biologics Explorer等數據處理軟件,在生物藥、脂
數據+知識+AI,科學家解鎖新靶標藥物虛擬篩選
6月6日,中國科學院上海藥物研究所研究員鄭明月課題組構建了一種通用蛋白質-配體相互作用評分方法EquiScore,在藥物虛擬篩選場景和先導化合物優化場景中,EquiScore對訓練未見的新靶標表現出了良好的泛化性能,其可解釋性分析為基于結構的藥物設計提供了有價值的線索。相關研究發表于《自然—機器智能