近日,中國科學院軟件研究所智能軟件研究中心研究員武延軍、吳敬征課題組在基于深度神經網絡的靜態代碼分析研究中取得進展。課題組提出了基于多類型和多粒度的語義代碼表示學習模型——MultiCode,解決了工業場景中涉及多需求的開發任務時面臨的開發開銷大、模型集成困難、可擴展性受限等問題,實現了在多需求工業場景下的高效開發和準確預測,在漏洞檢測、代碼克隆檢測等任務中得到了具體實踐,并獲得實際應用。
基于深度神經網絡的靜態代碼分析方法通常在不同代碼分析任務中引入針對性設計,導致模型呈現高度多樣化的態勢。在工業領域,該現象會使開發者在開發涉及多需求的代碼分析平臺時,面臨開發開銷大、模型集成困難、可擴展性受限等問題。
針對上述問題,MultiCode模型能夠學習代碼中多種類型和粒度的語義信息,進而支撐多種代碼分析任務。課題組提出使用抽象語法樹、控制流圖、程序依賴圖等結構,對代碼中不同類型和粒度的語義信息進行建模,并利用樹神經網絡和圖神經網絡分別對不同的語義信息進行處理。在該過程中,MultiCode模型自底向上地先學習語句級別的表示,再基于該表示學習代碼段級別的表示。將該模型作為編碼器進行神經網絡構建,能夠有效適配于不同的代碼分析任務。在漏洞檢測和代碼克隆檢測任務上的評估結果表明,其能夠在不需要重新構建編碼器的情況下,在不同任務中有效地識別并區分不同類別代碼的語義,進而支撐多種任務上的預測。
相關研究成果以MultiCode: A Unified Code Analysis Framework based on Multi-type and Multi-granularity Semantic Learning為題,發表在軟件可靠性工程國際會議(ISSRE 2021)的Industry Track上,并被評為最佳實踐論文。研究工作得到國家重點研發計劃、國家自然科學基金的支持。
MultiCode基于多類型和多粒度的語義代碼表示學習模型框架
ISSRE 2021最佳實踐論文獎
卡塔爾威爾康奈爾醫學院科學家通過分析391名志愿者的血液、尿液和唾液樣本中的數千種分子,繪制出人體及其復雜生理過程的分子圖。這些數據被整合成一個強大的交互式可視化網絡工具,名為“連接組學”。這一工具有......
今天(8月1日)起,《網絡暴力信息治理規定》開始施行,《規定》明確,網絡信息服務提供者應當在國家網信部門和國務院有關部門指導下細化網絡暴力信息分類標準規則,建立健全網絡暴力信息特征庫和典型案例樣本庫等......
圖“神經卷軸”探針在國家自然科學基金項目(批準號:T2188101、21972005)等資助下,北京大學段小潔研究員團隊發揮腦科學、生物醫學工程以及物質科學交叉背景的優勢,在高通道植入式神經電極研制方......
大模型持續迭代,AI基礎設施成為云廠商的核心競爭力之一。7月1日,騰訊宣布其自研星脈高性能計算網絡全面升級,升級后的星脈網絡2.0搭載自研的網絡設備與AI算力網卡,支持超10萬卡大規模組網,網絡通信效......
近日,華南師范大學腦科學與康復醫學研究院副研究員王本馳應邀在《認知科學趨勢》(TrendsinCognitiveSciences)發表Spotlight短文,介紹了基于顯著干擾的外源性注意的神經加工機......
脊髓損傷可導致嚴重的殘疾。現在,英國劍橋大學研究團隊用包裹脊髓的微型柔性電子設備,成功記錄了大腦和脊髓間的神經信號。這一設備首次實現360度安全記錄信號,提供脊髓活動的完整圖像。研究結果發表在新一期《......
記者5月14日從阿里云獲悉,阿里云AI高性能網絡架構HPN 7.0成果論文已被SIGCOMM2024收錄,成為SIGCOMM歷史上首篇關于AI智算集群網絡架構的論文。SIGCOMM全稱為Sp......
為預防和制止網絡不正當競爭,維護公平競爭的市場秩序,鼓勵創新,保護經營者和消費者的合法權益,促進數字經濟規范健康持續發展,市場監管總局近日發布《網絡反不正當競爭暫行規定》,自2024年9月1日起施行。......
百年神經外科發展史可以劃分為三個時期,即經典神經外科時期、顯微神經外科時期和微創神經外科時期。2012年,中國科學院啟動了戰略性先導科技專項“腦功能聯結圖譜計劃”,目標是對特定腦功能的神經聯結通路和網......
神經退行性疾病,如帕金森病或阿爾茨海默病,與大腦中蛋白質聚集的沉積有關。當細胞廢物清除系統存在缺陷或超負荷時,這些聚集物會積累。一種主要與免疫系統信號傳導過程相關的蛋白質NEMO可以防止帕金森病中發生......