<li id="omoqo"></li>
  • <noscript id="omoqo"><kbd id="omoqo"></kbd></noscript>
  • <td id="omoqo"></td>
  • <option id="omoqo"><noscript id="omoqo"></noscript></option>
  • <noscript id="omoqo"><source id="omoqo"></source></noscript>
  • 發布時間:2021-06-09 14:50 原文鏈接: 人工智能助力藥物研發,DDDC團隊獲冠軍

      藥物研發需要化學、生物、藥理、毒理、臨床等多學科的協作和多領域知識的綜合運用。通常,一個藥物的研發數據多達數千至數萬頁,而且這些海量的原始數據是以各種各樣的形式散落在不同的地方,如文獻、ZL、網頁、圖片、紙質印刷物等等。如何在海量研發原始數據中快速獲取真正有參考價值的“有效數據”是藥物研發人員所面臨的巨大挑戰。

      近日,由國際制藥公司百時美施貴寶發起的“百時美施貴寶-分子翻譯”(Bristol-Myers Squibb – Molecular Translation,https://www.kaggle.com/c/bms-molecular-translation)挑戰比賽在著名數據科學競賽平臺Kaggle(見附注)落下帷幕。作為生物醫藥大數據挖掘領域里最具挑戰性的問題之一,這場比賽得到了廣泛關注,吸引了來自世界各地的上千名數據科學家,共計874支參賽隊伍。經過三個多月的激烈角逐,最終來自中國科學院上海藥物所藥物發現與設計中心的研究生鐘飛盛和熊嘉誠以及阿爾脈生物醫藥科技的劉小紅博士組成的“SIMM DDDC”隊伍,獲得了此次大賽的第一名(見圖1,獎金為5萬美金),團隊指導是來自中國科學院上海藥物研究所的鄭明月研究員和蔣華良院士。

      

      圖1. Kaggle分子翻譯挑戰賽最終排名情況

      這次分子翻譯挑戰賽的目標是從圖片中識別化學結構,并將其轉換為文本形式的國際化合物標識(International Chemical Identifier, InChI)。在期刊和ZL等出版物中,有機化合物通常以化學分子結構式的圖片形式來表示。因此,自動從此類圖像文件中識別成化學結構,可以使化學家快速地獲取有參考價值的“化學數據”。此外,分子圖像翻譯得到的InChI文字化學式可以視作包含豐富語義的文本數據,可以與同樣是文本形式描述的生物、藥理、毒理、藥代、甚至臨床試驗等其他數據和信息更方便的進行整合。比如,通過使用常規的自然語言處理技術就可以考慮ZL中某個分子結構所處的復雜語境,從而加深AI模型對該化學結構和性質的理解。

      在分子翻譯挑戰賽中,施貴寶構建了一個超過四百萬的分子結構圖像數據集,以3:2劃分訓練和測試集。按照Kaggle比賽規則,在計算得分的時候有Public Leaderboard和 Private Leaderboard之分,其中測試集中的25%的數據開放給參賽選手計算得分和排名,實時顯示在 Public Leaderboard上。這個結果主要作用是為選手提供及時的反饋和動態展示比賽的進行情況,供選手參考調整比賽策略。測試集的剩余75%數據用于計算參賽選手提供模型的最終得分和排名,此即為 Private Leaderboard,在比賽結束后揭曉。比賽從2021年3月2日開始后不久,“SIMM DDDC”團隊在Public Leaderboard一直穩定排在前三名左右,在進入5月份之后開始穩定占據榜首位置,并且在最終截止日(6月4日)以較大領先優勢同時斬獲Public 和Private Leaderboard的冠軍。值得一提的是,這次比賽吸引了眾多專家(Expert)、大師(Master)甚至宗師(Grandmaster)級別的資深Kaggle數據科學家,而最終奪冠的“SIMM DDDC”隊伍中的三名選手都是第一次參加Kaggle比賽的新手玩家(Novice)。

      “分子翻譯”本質是化學結構式圖像識別(Optical Chemical Structure Recognition,OCSR)這一經典問題,距今已經有三十多年的研究歷史。大多數 OCSR 技術遵循基于規則的方法,其中關鍵步驟是圖片矢量化之后將線條和節點解釋為鍵和原子,涉及到圖像分割、圖像細化、線條增強、光學字符識別 (OCR) ,以及最終重建的分子圖形或其他表示(見圖2)。近年來,也有一些基于深度學習的解決方案。例如采用編碼器-解碼器架構的MSE-DUDL模型,其中編碼器使用卷積神經網絡,將包含化學圖的圖像編碼到固定長度的嵌入表示,然后解碼器使用循環神經網絡將它們解碼成文本形式的分子結構。

      圖2. 基于規則的化學結構式圖像識別方法

      然而,真實世界中的化學結構圖像不僅大小不同、格式各異,而且可能存在各種噪聲。比如舊紙質文檔掃描得到的電子文檔普遍存在失真問題。如何處理諸如模糊、部分缺失、扭曲變形等問題是OCSR技術的難點。比如,圖3是化學專家一般可以正確識別的分子結構,僅憑經驗即可對缺失的化學鍵或原子進行補全。但這類問題對計算機模型通常非常具有挑戰,模型一般很難憑空構建圖片中不存在(缺失)的部分。

      

      圖3. 存在噪聲的分子結構圖片

      下圖以一張有噪聲的分子結構圖片為例,顯示了一款化學反應式圖像識別軟件和本次比賽的冠軍模型的結果對比:

      

      圖4. 化學結構圖片識別軟件與本次分子翻譯比賽的冠軍模型的結果對比。a)一張帶有噪聲的分子結構圖片;b)某款化學反應式圖像識別軟件的識別結果;c)本次比賽的冠軍模型識別并重建的分子結構;d)冠軍模型分子翻譯輸出InChI編碼

      可以看出,現有的一些化學結構圖片識別工具仍存在明顯的局限性,尚達不到解決真實世界問題的技術需求。與此相比,此次冠軍團隊開發的模型可以很好的解決化學結構圖片的噪聲問題,并且正確的重構分子的結構圖(圖4c)。此外,從分子翻譯輸出的文本編碼來看,國際化合物標識InChI具有嚴格的語法規則,任一字符出錯都會大概率導致整體編碼無效。因此,與常規化學結構式圖像識別任務不同,這次挑戰賽要求更高:參賽模型不僅要識別分子圖像,而且要輸出正確有效,符合InChI語法的分子結構(圖4d)。

      數據、算法和算力是人工智能技術發展的基礎要素。近年來,人工智能在算法和算力方面突飛猛進,數據已逐漸成為限制人工智能技術進一步發展的短板。在藥物研發和化學研究領域,數據匱乏的問題更加明顯,如何有效地提取和整合可用于AI建模的高質量數據是亟待解決的問題。上海藥物所團隊開發的分子翻譯算法能從帶有噪聲的圖像中準確地提取化合物結構信息,可以用于真實世界的化學和藥學文獻以及ZL數據的自動挖掘和分析,這將極大地促進生物醫藥和化學大數據的構建,進而為后續人工智能算法的開發奠定堅實的基礎。蔣華良院士將這種使用AI技術挖掘數據,并在此基礎上構建AI算法的思路稱為AI2。這一思路展示了AI通過自主“進化發展”實現從功能向能力轉變的特征,是通往強人工智能道路上的積極嘗試。

      附注:

      Kaggle比賽介紹:Kaggle是國際上最著名的數據科學競賽平臺之一,由于其受眾廣、影響深遠和賽制公平,被視為是機器學習算法檢驗的試金石。許多企業、科研院所或政府機構會根據自己所關注的問題在kaggle平臺組織競賽,通過懸賞高額獎金向全世界的研究者尋求解決方案。該平臺舉辦的比賽一般是為了解決某領域面臨的共性問題或探索未來的發展方向,因此比賽的意義重大。其中,一些Kaggle競賽的結果甚至為學界提供新的研究方向。以2012年Merck公司發起的“分子活性預測”挑戰賽為例,在比賽中絕大部分隊伍使用的是傳統機器學習方法如隨機森林模型,而Dahl和Hinton團隊使用了當時新發展的深度神經網絡。最終Hinton團隊的深度學習模型從兩百多只隊伍中脫穎而出,贏得了這一賽事的冠軍,這次比賽后來也成為人工智能領域的標志性事件之一。自此之后,利用深度神經網絡預測藥物分子性質受到越來越多的關注,推動了人工智能在藥物研發領域的發展。近年來,Kaggle平臺舉辦的與藥物研發相關的競賽逐漸增多,如斯坦福大學組織的“開放疫苗:COVID-19mrna疫苗降解預測”,哈佛大學組織的“藥物作用機制預測”, Human Protein Atlas 組織的“人類蛋白圖譜-單細胞分類”挑戰賽,以及最近剛落下帷幕的有百時美施貴寶組織的 “Bristol-Myers Squib-分子翻譯” 等多項競賽。這些比賽的主題一方面彰顯了機器學習社區對醫藥領域濃厚的興趣,另一方面說明通過構建AI模型能切實解決該領域面臨的實際問題。未來,隨著數據的積累和算力、算法的進一步發展,可以預見AI在藥物研發領域將起到越來越重要的作用。


    相關文章

    推動AI賦能更多生活場景

    大模型、機器人、智能制造、自動駕駛……過去一年,人工智能頻上頭條,也成為今年北京兩會上的熱詞。代表和委員們認為,北京在人工智能產業優勢明顯,AI賦能百姓生活和產業,讓千年古都變得更聰明。建立數據中心讓......

    ANNONCOL:人工智能在免疫腫瘤學中預測性生物標志物發現:系統評價

    該綜述評估了90項已確定的研究,涉及癌癥的四種主要數據模式,描述了數據集、方法、生物標記物和結果。免疫療法(IO),特別是免疫檢查點抑制劑(ICIs)的出現改變了許多癌癥患者的治療方法,包括黑色素瘤、......

    生物醫藥最有望爆發的10大領域,竟然是這些技術?

    基于全球未來生物醫藥產業布局及我國的重點研究方向,結合當前至2035年我國未來生物醫藥產業發展面臨的形勢,西湖大學未來產業研究中心探索性提出我國未來生物醫藥產業需重點關注和大力支持的十大領域(排序不分......

    兩大芯片巨頭,創歷史新高

    隨著投資者繼續熱捧人工智能芯片制造公司的股票,AMD和英偉達周四股價創下歷史新高。AMD股價在周四交易中上漲超過1%,達到歷史最高收盤價162.67美元,而Nvidia則上漲近2%至571.07美元。......

    邊緣AI新紀元正在到來

    生成式人工智能(AI)成為2023年最激動人心的科技故事。其影響力堪比互聯網和智能手機的出現。生成式AI的傳奇仍在延續,科技界也在翹首以盼下一位巨星的到來。包括美國初創企業、物聯網和邊緣平臺公司Cle......

    學者成功構建卵巢癌診斷人工智能融合模型

    近日,中山大學腫瘤防治中心婦科教授劉繼紅團隊與合作者,針對卵巢癌目前早期診斷困難、缺乏有效腫瘤標志物的困境,基于常規體檢中的實驗室檢驗構建了卵巢癌診斷人工智能融合模型,為卵巢癌提供了一種低成本、易獲取......

    兩個不同指紋是否屬于同一個人?AI有答案

    人類手指指腹上,凹凸的皮膚形成特殊紋路,這便是指紋。目前尚未發現不同的人擁有相同指紋的案例,因此指紋是每個人獨有的標記,被廣泛應用于身份識別、刑事偵查等領域。近日,一項發表于《科學進展》的研究,利用人......

    石景山通用人工智能大模型產業集聚區一期將于今年開園

    今年,石景山區將重點推動通用人工智能大模型產業集聚區建設,集聚區一期將實現開園,打造通用人工智能大模型技術研發、創新應用和產業集群。石景山區搶抓產業發展機遇,發布《通用人工智能大模型產業集聚區工作方案......

    人工智能導致人類滅絕的可能性為5%

    許多人工智能研究人員認為,未來,超級人工智能的發展有可能導致人類滅絕。不過,對于這種風險,存在廣泛的分歧和不確定性。這些發現來自對2700名人工智能研究人員的調查,他們最近在6個頂級人工智能會議上發表......

    2024年美國消費電子展開幕

    2024年美國拉斯維加斯消費電子展9日開幕,人工智能技術及相關應用是今年展會最大的熱點。據展會主辦方美國消費技術協會介紹,將有來自150多個國家和地區的4000多家企業參加為期4天的展會。其中,除佳能......

    <li id="omoqo"></li>
  • <noscript id="omoqo"><kbd id="omoqo"></kbd></noscript>
  • <td id="omoqo"></td>
  • <option id="omoqo"><noscript id="omoqo"></noscript></option>
  • <noscript id="omoqo"><source id="omoqo"></source></noscript>
  • 1v3多肉多车高校生活的玩视频