<li id="omoqo"></li>
  • <noscript id="omoqo"><kbd id="omoqo"></kbd></noscript>
  • <td id="omoqo"></td>
  • <option id="omoqo"><noscript id="omoqo"></noscript></option>
  • <noscript id="omoqo"><source id="omoqo"></source></noscript>
  • 發布時間:2018-06-04 09:41 原文鏈接: 哈工大劉挺:哈工大SCIR實驗室的NLP研究|CCFGAIR

    雷鋒網 AI 科技評論按:近期由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦的全球人工智能與機器人峰會(CCF-GAIR)將于 6 月底在深圳舉辦,其中 哈爾濱工業大學劉挺教授將擔任自然語言處理專場主席。

    雷鋒網了解到,劉挺教授作為國內 NLP 方向的領軍人物,其 Google Scholar 總引用率高達 8412 次,頂會論文總量世界排名第八。其所帶領的哈工大社會計算與信息檢索研究中心(HIT-SCIR)已然成為國內頂尖 NLP 研究機構之一,在 NLP 領域具有極高的影響力,推出了語言技術平臺、大詞林等一大批核心技術。此外,該中心先后培養出 200 多名學生,廣泛分布于百度、騰訊、阿里、微軟、訊飛等企業,為國內 NLP 的研究和落地貢獻了有生力量。

    近期,哈工大 SCIR 也動作頻繁。進入 2018 年后,哈工大 SCIR 先后有近 20 篇論文被各大頂會錄用;今年 2 月初,劉挺教授出任云孚科技首席科學家;5 月初,哈工大成立人工智能研究院,劉挺教授擔任研究院副院長。

    由此自然的問題是,作為全國頂尖的NLP研究重鎮,SCIR 在做什么?他們有什么樣的研究思路和規劃?作為該中心的帶頭人,劉挺教授對 NLP 的研究前景有什么思考?對實驗室的未來有何布局?在他看來,NLP 又該如何做研究?

    雷鋒網藉此 CCF-GAIR 大會的機會有幸針對這些疑問對劉挺教授進行了專訪,深入探究了哈工大 SCIR 發展的基本理念以及劉挺教授對相關問題的思考。其大的思想格局無論是對 NLP 研究的資深學者還是對初步入這一領域的學生都有極大的參考價值。

    下面為雷鋒網根據采訪內容整理而成,在不改變原意的情況下略有改動,以饗讀者。

    劉挺,哈爾濱工業大學教授,哈爾濱工業大學人工智能學院副院長,計算機學院社會計算與信息檢索研究中心主任,云孚科技首席科學家。哈工大人工智能與中文信息處理方向帶頭人,主要研究方向為自然語言處理和社會計算;國家“萬人計劃”科技創新領軍人才;中國計算機學會理事、中國中文信息學會常務理事,多次擔任國家863重點項目總體組專家、基金委會評專家;主持研制“語言技術平臺LTP”、“大詞林”等,被業界廣泛使用;曾獲國家科技進步二等獎、省科技進步一等獎、錢偉長中文信息處理科學技術一等獎等;2012-2017年NLP頂級會議論文數,世界排名第8(據劍橋大學統計)。

    一、哈工大 SCIR 在做什么?

    雷鋒網:劉老師,您好。據之前報道,您從2017年10月起加盟云孚科技;那么在 2017 年、2018 年,您的重心是否更側重于工業界呢?

    劉挺:作為大學里的實驗室,我們始終把人才培養和學術研究放在最重要的位置上,過去如此,未來也將如此。2018 年,到目前為止,我實驗室已經有 12 篇論文被頂級國際會議(CCF A 類)錄取,包括 5 篇 IJCAI,4 篇 AAAI 和 3 篇 ACL,另有 8 篇論文被重要國際會議錄取,包括 6 篇 Coling 和 2 篇 NAACL。

    哈工大被譽為培養「工程師的搖籃」,我們實驗室一貫重視學術界與工業界的無縫對接,致力于做出「頂天立地」的科研成果。為了更好地推進成果轉化,實現「以中文技術,助民族復興」的理想,2018 年 2 月,我們正式與云孚科技(北京)有限公司開啟全面深入的合作,我本人兼任了該公司的首席科學家,不過,我的工作重心仍然在學校,在學術界。

    雷鋒網:能否介紹一下您們實驗室最近一年多的工作內容?

    劉挺:最近一年多,在原有工作基礎上,我們在科研和系統開發方面又有了很多進展。我介紹兩個最有代表性的工作吧,一個是事理圖譜,一個是對話技術平臺(DTP)。

    我們原創性地提出了事理圖譜的概念。事理圖譜是一個事理邏輯知識庫,描述事件之間的演化規律和模式。舉例說明:一個人買房子,買完房子下一步就是裝修,裝修完了就會買家具,這是順承關系鏈。再舉一例:汽油價格上漲會導致航空公司成本提高,利潤下降,以至于股票價格下跌,這是因果關系鏈。知識圖譜的研究對象為名詞性實體及其關系,而事理圖譜的研究對象是謂詞性事件及其關系。知識圖譜主要知識形式是實體屬性和關系,事理圖譜則是事理邏輯關系以及概率轉移信息。實體之間的關系基本是穩定的,而事件間的演化關系多數是不確定的。事理圖譜概念是對知識圖譜概念自然地補充和拓展,是知識描述的一個更高級的階段,符合產業界的客觀需求。所以,事理圖譜的概念一經提出,就得到了業界的認可。我們在事理圖譜方面的研究工作發表在頂級國際會議 WSDM2017 和 IJCAI2018 上面,同時,我們還在開發出金融領域事理圖譜,該事理圖譜包含了 1,542,516 個事件節點以及 1,873,140 條因果邊。未來我們一方面還會在事理圖譜的研究方向上深耕細作,同時,也會不斷擴展事理圖譜的應用場景,例如在醫療、司法等領域構建事理圖譜。

    DTP(Dialog Technology Platform,對話技術平臺)是搭載了我中心多年積累的自然語言處理(NLP)和人工智能(AI)技術,專為開發者打造的中文對話機器人搭建平臺。開發者可以通過 DTP 輕松賦予自身產品智能對話交互的能力,這大大降低了開發對話機器人的技術門檻,并提高了開發效率。DTP 給開發者提供了語義理解模塊和對話管理模塊的算法黑箱,開發者不需要了解構建對話系統的復雜模型,只要上傳一定量的語料和定義系統所需要的各種特定參數和規則,就可以創建出一個用來完成特定意圖功能的任務型對話系統。通過借助 DTP 提供的云服務,開發者無需親自掌握 NLP、AI 等技術,只要基于 DTP 的會話 API 即可在多種終端(網站、移動 APP、智能硬件)中構建自己的智能會話機器人界面。DTP 測試版地址是:http://dtp-cloud.cn,歡迎學界和工業界的同仁試用。

    二、SCIR 在研究中遵循什么原則?

    雷鋒網:您以及您帶領的 SCIR 實驗室多年來取得了許多成就。能否介紹一下,您們是基于什么樣的思路來開展研究的?

    劉挺:哈工大是一個典型的工科大學,哈工大 SCIR 的研究工作既不是純理論的,也不是工程性的,而是應用基礎研究,這是我們對自己研究工作的一個基本定位。我們一方面密切關注機器學習、腦認知等更基礎的研究領域的前沿進展,另一方面通過與企業界的合作深入了解企業的真實需求,尤其是具有前瞻性的技術需求,然后綜合這兩方面的因素,確定我們的科研選題。按照這個定位,我們是不去碰與語言無關的純機器學習問題的,同時也避免承擔企業馬上就要求解決而且的確通過工程手段有可能解決的問題。

    我們在研究中有幾個自己的特點:

    1. 化繁為簡

    我們比較注重問題描述和解決方案的簡單性。2000 年我們實驗室剛成立不久,就開展了句法分析的研究工作,當時國內外多數人都在做短語結構文法,少數人做依存文法,依存文法直接反映出句子中詞間關系,不需要一套再另外搞一套非終結符號,因此從簡單性原則出發我們選擇了依存文法。多年過后,依存文法成為學術界的主流。在語言知識庫方面,我們選擇了《同義詞詞林》體系,并擴展為《大詞林》,詞林與其他一些中文語言知識庫相比,具有簡單性的特點,便于理解、擴展和應用推廣。

    2. 尊重實際

    我們只尊重實際,不迷信外國的東西,尤其是我們搞的是中文處理,尤其需要尊重中文的實際情況。我們認為英文重形合,中文重意合,因此中文分析不要在句法層面一直糾纏,而是可以跳過句法層面直接做語義,為此我們一直在推動中文語義依存技術的發展,并深信在語義分析階段,中文的技術指標將趕上英文。

    3. 強調動手

    我們實驗室每個研究生畢業時,都不只是有論文,而且要有演示系統。我們非常鼓勵學生們自己動手把想法實現出來,既便于激發自己的探索興趣,又可以發現真實問題,還能夠方便地對外展示,獲得外界的反饋意見,一舉多得。最典型的是我們研制的語言技術平臺 LTP,從學生們自己做的演示系統,發展為中文處理領域一個重要的開源開放基礎平臺。

    4. 拓展式創新

    從句法依存分析到語義依存分析,是從句法形式場面深入到語義內容層面;從知識圖譜到事理圖譜,是從以名詞概念為核心進入到以抽象事件為核心;從《同義詞詞林(擴展版)》到《大詞林》,是從人工構建語言知識庫到自動構建語言知識庫。我們遵循技術發展內在的邏輯脈絡進行創新,這樣的創新更有根基,更易持續。

    三、如何規劃實驗室研究方向?

    雷鋒網:在 SCIR 未來研究方向的規劃上,您的見解是什么?

    劉挺:我中心研究方向總體規劃為句子級 NLP、人機對話、篇章級 NLP以及社會計算四大研究方向。這四大研究方向又可以細分成七個研究小組。分別是

    語言分析組,主要研究句法分析、語義分析、任務型對話、文本順滑。

    問答系統組,主要研究深度問答和客服機器人。

    對話機器人組,主要研究對話機器人和營銷機器人。

    閱讀理解組,主要研究閱讀理解、篇章語義、信息抽取、大詞林。

    文本生成組,主要研究作文生成、新聞寫作、公文寫作。

    情感分析組,主要研究傾向性分析、觀點分析、情緒分析、情感對話。

    社會預測組,主要研究消費意圖挖掘、事理圖譜和股市預測。

    這幾大研究方向的選擇也對應著我中心對 NLP 未來發展趨勢的布局。從 NLP 的底層基礎研究到上層應用,我們都有對應的老師及學生從事相關科研工作。目前,我實驗室在校師生已近超過百人,而且仍然是一個緊密合作的整體,而不是松散的組合,所以,我們能夠有效地把師生組織到不同的方向上去,并讓做不同方向的研究組可以相互配合。

    四、NLP 發展趨勢及布局

    雷鋒網:我們注意到您在去年曾提到「NLP 發展的十個趨勢」。從今年 NLP 研究的發展情況來看,這些趨勢是否得到了印證?

    劉挺:首先我們來回顧一下,去年我提出的十個 NLP 發展趨勢分別是:

    趨勢 1:語義表示——從符號表示到分布表示;

    趨勢 2:學習模式——從淺層學習到深度學習;

    趨勢 3:NLP 平臺化——從封閉走向開放;

    趨勢 4:語言知識——從人工構建到自動構建;

    趨勢 5:對話機器人——從通用到場景化;

    趨勢 6:文本理解與推理——從淺層分析向深度理解邁進;

    趨勢 7:文本情感分析——從事實性文本到情感文本;

    趨勢 8:社會媒體處理——從傳統媒體到社交媒體;

    趨勢 9:文本生成——從規范文本到自由文本;

    趨勢 10:NLP+行業——與領域深度結合,為行業創造價值。

    從今年的發展來看,NLP 的十個發展趨勢都一一印證,并且還將在一段時間內持續。

    雷鋒網:SCIR 在這方面有什么樣的工作和布局呢?

    劉挺:我中心在這十個方向上都有所布局。首先 語義的分布式表示以及 深度學習方法 已經成為 NLP 領域的主流研究方法。今年我們又推出了 對話技術平臺(DTP)來幫助開發者快速地構建自己的智能會話機器人。在大詞林的基礎上,我們提出了事理圖譜的概念并自動化構建了金融和出行兩個領域的事理圖譜。我們的對話機器人「笨笨」也在多個不同的場景下得到了應用,例如在用戶購物前的導購環節,通過對用戶消費意圖的準確判斷,進而推薦更合乎用戶需求的產品。我們與訊飛的聯合實驗室在機器閱讀理解領域權威評測大賽 SQuAD連續三次奪得第一名。

    情感分析一直是我中心的重點研究方向之一,去年我們又獲得了一項國家自然科學基金重點項目「社交媒體中的文本情感語義計算理論與方法」。文本生成目前我們重點在作文生成以及根據結構化的數據生成描述性的文本。最后,我們在 NLP+司法NLP+教育兩個領域都在與科大訊飛公司緊密合作,在 NLP+金融方向也積累了多年的經驗,已經研制出智能投顧演示系統,最近我們啟動了 NLP+醫療的相關研究工作。

    五、如何看待 NLP 落地?

    雷鋒網:有人認為,在技術產業化的過程中,CV 之后將是 NLP,您是否認同?為什么?如果是,這個道路是否還很遙遠?

    劉挺:我認同這種觀點。微軟全球執行副總裁沈向洋也在公開演講時說:「懂語言者得天下……下一個十年,人工智能的突破在自然語言的理解……人工智能對人類影響最為深刻的就是自然語言方面」。深度網絡之父 Geoffrey Hinton 說:「深度學習的下一個大的進展應該是讓神經網絡真正理解文檔的內容」。

    但是,我們也要清醒的看到,自然語言處理技術產業化還有很長的路要走。自然語言處理的技術難度大,應用場景復雜。計算機視覺的物體識別準確度可以達到 90% 以上,甚至接近百分之百,這對于安防及身份認證等領域來講足以將其落地成實際應用的產品。然而要真正理解一篇文本的內容非常難,科幻影片中那種通用的人機對話機器人短期內還無法研制出來,機器翻譯對于結構或背景復雜的句子仍然翻譯不準,這也是目前自然語言處理產業化的最大阻礙。前段時間就有文章討論過為什么自然語言處理領域很難出現「獨角獸」,主要原因可以歸納為兩點:一是自然語言處理技術沒有達到計算機視覺技術那么高的準確率,二是沒有找到合適的商業模式將自然語言處理技術落地,人們習慣了免費的自然語言處理技術,對付付費模式就很難接受,例如付費的機器翻譯軟件就很少會有人用,但是付費的安防系統,我們幾乎每天都在使用。

    不過,我們也要看到自然語言處理技術與很多行業的結合可能會是自然語言處理產業化的一條新途徑。2018 年 4 月 12 日,李克強總理主持召開國務院常務會議,確定發展「互聯網+醫療健康」措施,提高醫療服務效率,讓患者少跑腿、更便利,是更多群眾能分享優質醫療資源。醫療領域有大量的病歷、醫學文獻等文本數據,自然語言處理技術可以在此基礎上構建大規模醫學知識圖譜,并用于健康咨詢和初步診斷。

    六、人機對話 | GAIR

    雷鋒網:您在去年舉辦的 CCF-GAIR 大會上分享了《人機對話技術的進展》的報告。經過一年的發展,現在人機對話有哪些技術的突破嗎?

    劉挺:人機對話主要分成任務型對話和聊天。任務型對話方面:傳統的任務型對話系統一般包含三個模塊,語言理解、對話管理和語言生成。每個模塊往往獨立實現,并需要針對不同的領域進行設計和標注大量的數據,不利于系統的遷移。為解決此問題,最近出現的一些端到端的任務型對話系統是一個有益的嘗試,端到端的系統一般使用一個 seq2seq 模型,根據用戶的輸入,直接生成相應的回復,具有結構簡單,便于移植的優點。當然,由于任務型對話的特殊性,使用簡單的 seq2seq 模型無法生成時效性、地點相關等回復,所以還需要輔以相應的知識庫。因此,一些最新的研究集中于如何基于知識庫,進行 seq2seq 的回復生成。這也是符號計算與神經計算相結合的一個典型案例。

    機器人聊天或閑聊的功能,通常的作用是為了增加人機對話系統的用戶粘性,增進人和機器之間的情感溝通,在一定的場景中,聊天機器人可以扮演傾訴對象和情感撫慰者的角色,聊天功能的完善,能夠極大增加機器人的擬人屬性的強度,因而聊天功能盡管「無用」,但卻是人機對話系統的核心功能。

    在過去的幾年,聊天技術取得了較大的進展,從檢索式到生成式再到兩者的結合,從單輪到多輪的建模發展,從內容高度依賴模型主導的生成到內容可控的生成,從自由文本的學習到從結構化文本的學習,從深度學習到強化學習的對話建模,這些技術都在不斷的發展。

    2017 到 2018 這兩年聊天技術的發展,還是有一些代表性的工作值得我們關注的,比如在聊天建模中考慮人的主觀情緒,立場等反饋信號;以特定領域和話題為背景的受限主題的聊天;面向情感撫慰的包含特定情感的聊天等等。

    我們一直認為評測是推動技術進步的重要途徑,我們也一直堅持中文技術評測應該由中國人來推動,我們與科大訊飛、華為公司聯手在 2017 年的全國社會媒體處理大會(SMP)上組織了首屆中文人機對話技術評測,吸引了來自高校,大型互聯網企業和創業公司的眾多隊伍報名參賽,評測非常成功,有力地促進了中文人機對話技術的交流,今年我們也將繼續組織第二屆SMP中文人機對話評測,同時,國際上對于人機對話的評測也開展的如火如荼,如 2017 年 NIPS 上的人機對話評測,亞馬遜的 Alexa Prize 以及舉辦了很多屆 DSTC 等,相信在技術評測的推動下,人機對話技術會持續的進步。

    雷鋒網:今年您也將作為 CCF-GAIR 2018 的 NLP 專場主席,在設計論壇議程上有哪些考量的要點?

    劉挺:在設計論壇議程上,首先我們要選擇 NLP 最近的熱點研究方向及話題來和大家分享,例如知識圖譜、人機對話、情感分析等研究方向以及 NLP 如何產業化等熱點話題。其次,由于 CCF-GAIR 是一次大同行的聚會,因此,我們不會在論壇中涉及到過多的 NLP 技術細節,這與頂級國際會議學術報告不同,本次論壇主要還是對 NLP 的發展歷史做一個梳理同時探討 NLP 的未來發展方向。最后,我們期望能夠在論壇上探討一些 NLP 與其他學科交叉的問題,例如,NLP 與醫學、金融等領域的學科交叉是很有意義的研究方向。

    七、如何開展 NLP 研究?

    雷鋒網:作為最后,在 NLP 的研究方向上,您能否為該領域的師生提一些建議呢?

    劉挺:近年來 NLP 成為人工智能領域的一大熱點,很多畢業生的工資也都隨著水漲船高,但是我們也應該冷靜的看到 NLP 技術還有很多瓶頸有待突破。我主要就如何選題談幾點我的見解。

    1、 要有實際需求

    一個課題必須有實際需求,可能是現實的需求,也可能是潛在的需求;可能是直接的需求,也可能是間接的需求,總之是的的確確被人們所需要的。舉個反例,比如自動文摘,自動文摘是我的博士論文課題,但是實際應用需求始終不清楚,自動文摘的結果用于編輯出版,質量肯定無法保證,用于幫助人們快速瀏覽資料吧,搜索引擎提供的包含查詢詞的網頁中的片段(Snippet)就起到了這個作用。因此,時至今日,站在作者角度給出的能夠概括全文主旨的自動文摘技術到底用到哪里,仍然不清楚。

    2、 有較大的未知空間

    有些技術已經成熟,相關產品在市場上已經大面積應用了,在研究上就不宜再展開。

    3、 與自己以往的工作有關聯

    如果你覺得自己的研究領域太窄,或者競爭對手太多,或者自己缺乏興趣,則可以適當擴展研究方向,但最好是相關性地擴展,比如從自然語言處理(NLP)擴展到社會媒體計算,這種擴展是從底層技術到應用系統的擴展,很自然。如果跳躍性太大,和文本處理完全脫節,這種做法一方面無法發揮既有的技術積累,另一方面也讓同行感覺你不夠專注,不容易得到認可。

    4、 有可能得到國家的支持

    對于資深學者,他選定一個課題后,可以寫出立項建議,去說服政府或軍方支持他的工作,從而填補國家空白,成為國內這個方向的先驅。對于剛出道的年輕人,無力直接影響政府,那只有自己預先判定一個幾年后可能成為熱點的方向,先走一步,做出一些成績來,等到大氣候適宜的時候,由于他已經取得了一定的成果,也有可能被認可為這個領域的先行者,得到國家的支持。


    相關文章

    首顆中俄高校學生聯合研制微衛星在俄羅斯發射

    哈爾濱工業大學11月5日發布消息,當地時間5日8時18分,首顆由中俄高校聯合研制的標準12U立方體衛星“阿斯圖友誼號”微衛星,在俄羅斯布拉戈維申斯克東方航天發射場發射。哈爾濱工業大學是“阿斯圖友誼號”......

    哈工大一宿舍走出三院士!學霸是如何“寵”出來的?

    又是一年開學季,一群充滿青春活力的新面孔帶著對未來的無限憧憬和對知識的渴望,即將踏入大學校園。大學生活是什么樣的?該怎樣度過大學時光才不會后悔?畢業后又會成為怎樣的人?哈爾濱工業大學校長、中國科學院院......

    哈工大材料科學學科進入ESI全球前萬分之一

    近日,ESI公布最新學科統計數據,哈爾濱工業大學材料科學學科首次進入ESI全球前萬分之一,成為該校繼工程學后,第二個進入ESI全球前萬分之一的學科。同時哈爾濱工業大學ESI國際排名由166位上升至14......

    哈工大牽頭,一項國家重點研發計劃項目啟動

    4月10日,由哈工大牽頭、儀器學院王偉波教授擔任項目負責人的國家重點研發計劃“基礎科研條件與重大科學儀器設備研發”重點專項2023年度項目“超分辨掃描顯微檢測儀”項目啟動暨實施方案論證會在哈爾濱召開。......

    哈工大成立研究生導師發展中心

    為全面落實立德樹人根本任務,著力培養面向科技前沿和關鍵領域的拔尖創新人才、面向國家發展急需和行業產業需求的卓越工程師,提升校內外研究生導師隊伍的整體水平,日前,經校黨委常委會會議研究決定,成立研究生導......

    哈工大成立研究生導師發展中心

    哈工大全媒體(商艷凱苗茹花/文)為全面落實立德樹人根本任務,著力培養面向科技前沿和關鍵領域的拔尖創新人才、面向國家發展急需和行業產業需求的卓越工程師,提升校內外研究生導師隊伍的整體水平,日前,經校黨委......

    哈爾濱工業大學領導班子調整

    日前,上級有關部門決定,孫雪同志任哈爾濱工業大學常務副校長(正局級,試用期一年)。孫雪,女,漢族,1972年3月生,中共黨員,工學博士,研究員,哈爾濱工業大學化學工程與技術專業博士研究生畢業。曾任哈爾......

    高效光熱協同催化劑被開發,實現空氣中二氧化碳的捕獲和轉化

    近日,哈爾濱工業大學化工與化學學院李英宣課題組開發出高效光-熱協同催化劑,實現空氣中二氧化碳的捕獲和轉化,研究成果以《在鉑負載鎳基金屬有機框架上運用雙活性位點協同作用實現熱輔助紅外光催化轉化大氣中的二......

    哈工大科研團隊提出光催化與過氧化單硫酸鹽耦合活化新方法

    近日,哈爾濱工業大學城市水資源與水環境國家重點實驗室成員、環境學院劉冬梅和王威教授團隊提出光催化與過氧化單硫酸鹽耦合活化新方法,該研究擴展了光催化技術與過氧化單硫酸鹽活化在降解新興有機污染物方面的應用......

    哈工程牽頭千萬級國家重大科研儀器研制項目

    據哈爾濱工程大學官網消息,近日,自然科學基金委工程與材料科學部在哈爾濱工程大學組織召開國家重大科研儀器研制項目“海洋非線性聲散射聲場動態觀測與調控系統”現場考察會。自然科學基金委黨組成員、副主任陸建華......

    <li id="omoqo"></li>
  • <noscript id="omoqo"><kbd id="omoqo"></kbd></noscript>
  • <td id="omoqo"></td>
  • <option id="omoqo"><noscript id="omoqo"></noscript></option>
  • <noscript id="omoqo"><source id="omoqo"></source></noscript>
  • 1v3多肉多车高校生活的玩视频