“吟過詩詞文賦,熬過高數線代,品過經史子集,研過算法結構,啃過句法文法,train過神經網絡。”
這是林子對自己本科生涯的速寫。她的專業過于迷你,是北大中文系4個專業中最沒有存在感的應用語言學(中文信息處理)。存在感有多低呢?每年畢業生不過4、5個,一些同學因為無法堅持轉了出去,也有同學對中文專業情有獨鐘而轉了進來,而林子是2015級學生中唯一從頭到尾讀下來的那個。
在這個文理交叉專業,她既要學習古代漢語、理論語言學和現代漢語語法研究,又要學習高等數學、程序設計和數據結構與算法。割裂,成了她的大學關鍵詞。
林子。圖源:受訪者供圖
林子闖出了一條自己的路徑。
大二開始,她在信息科學技術學院(下稱信科)實驗室實習,大三發了兩篇AI頂會一作論文;畢業后去了硅谷的谷歌總部,在自然語言處理(NLP)研究部門從事了兩年的全職工作,其工作還被收錄進谷歌研究科學家Kevin Murphy的機器學習教科書;2021年,她回到了學術界,在美國加州大學圣地亞哥分校開始攻讀計算機科學博士,3年來的論文被引用次數超過2000次。
這是一個怎樣神奇的專業呢?
發蒙的開端
雖然高中是理科生,但林子很喜歡文學,她還拿過新概念作文比賽的一等獎,由此得到了北大中文系自主招生的名額,并通過筆試和面試,最終獲得降分錄取。
父母其實希望她讀經濟專業,以后從事金融,至少就業比較好。但林子覺得還是要從心所欲,于是堅定地扎進了中文系。只是沒想到因為自己理科生的身份,被自動分到了應用語言學這個文理交叉專業,一個由中文系和信科共建的專業。
剛聽聞自己的專業是應用語言學那會兒,林子有點蒙,畢竟之前連語言學都沒聽說過,更不必提應用語言學和中文信息處理這幾個詞匯了。
后來大家才認識到,正如畢業證書上英文“ Computational and Applied Linguistics”(計算與應用語言學)所明示的:計算才是更本質的,這是一個計算機科學和語言學交叉的專業。
第一年的課業對大家就有巨大的殺傷力。大一并沒有專業課,而是基礎課。
林子發現,在上語言學課程的時候,有的同學就對需要背誦且閉卷考試的課程不適應,尤其是寫滿繁體字的古代漢語課,不僅需要去理解還要溯源那些字;計算語言學模塊的課程需要他們學編程語言和算法;至于數學,更是需要學習微積分、線性代數和概率統計。
有的同學無法接受這份割裂,就申請轉到自己的初衷文學專業或者純語言學專業,而有的同學發現自己更熱愛數學專業和計算機科學專業,于是也轉走了。
在文理交叉中碰撞一段時間后,他們依然在這個專業帶來的割裂感中云里霧里。再打聽,師兄師姐的畢業去向五花八門,有人去了大廠,有人做了教授,也有人去做中小學數學教育,似乎沒有一個明確的指路明燈。就這樣,林子像盲人開夜車一樣摸索了一年。
只依靠上課,她實在沒辦法將語言學和計算融合起來。好在,林子從大二開始找到了科研的樂趣,這在很大程度上幫助她體會到了這個專業的魅力所在。
她終于看到,這個專業可以接觸文學又能訓練邏輯思維,原來魚和熊掌真能兼得。
“學著學著都偏計算了”
據這個迷你專業的負責人、中文系教授兼計算語言研究所副所長詹衛東介紹,以2005年為界,之前應用語言學的專業課程體系是“ 以文為主,以理為輔”,之后則過渡到“ 文理并重,融會貫通”的軌道上。不過,這些學生大部分“學著學著都偏計算了”。
詹衛東是這個專業從無到有的見證者和建設者。他講授“自然語言處理導論”(現在改為“自然語言處理”)和“語言工程與中文信息處理”兩門課。其中后者是應用語言學專業的必修課,但因為學生太少,兩年才開一次。
林子發現,這個專業適合對語言文字有很大興趣且打算繼續理科課程訓練的理科生,或者對計算語言學和自然語言處理感興趣并想培養理科思維的文科生。
林子就是學著學著偏向了計算。
她從大二就參與到計算語言所的一些科研工作中,其中有兩項工作分別發表在自然語言處理領域很有影響力的兩個國際會議上:一項工作是探索了漢語中介語語料庫的語義角色自動標注;另一項工作是提出一種新的方法,將人工構建的關于漢語語素的語言學知識庫跟深度神經網絡中的詞向量表示結合起來,改進了詞向量表示在詞義相似度計算任務上的效果。
走到今天,林子覺得雖然對這個專業有了一定理解,但還不夠。
她說,交叉學科的魅力就在于它是一個并集,而不是一個交集,它需要同時掌握兩方面的知識,但就像做菜一樣,哪個調料多放一點,其實是你可以自己決定的。
“想得更清楚了”
說起做菜,2009級的北京女孩艾琦才是專業人士,她在應用語言學專業畢業后學習了西方餐飲,如今在芝加哥從事餐飲工作。
而2007級顧森,就是那個在本科畢業后從事中小學數學教育的。他給詹衛東的印象是,知識儲備、思維方式“遠遠超出平均水平”。詹衛東曾建議他出國深造,在人工智能領域發展,但他同時看到,顧森確實擅長教師的角色,他曾在課堂上作過一次演講,能將某個問題剝洋蔥般講解得酣暢淋漓,那是“一種與生俱來的思維習慣”。
孫薇薇是應用語言學專業的2002級暨第一屆畢業生,也是林子的另一位大學老師,講授形式語法導論。她在2020年去了英國劍橋大學任教。
2006年6月,北京大學中文系應用語言學本科專業第一屆學生畢業。左四為詹衛東,右一為孫薇薇。圖源:北大中文系
除了孫薇薇,2005級本科生彭楠赟在北大計算語言所碩士畢業后去了美國約翰斯·霍普金斯大學計算機系攻讀博士,現在加州大學洛杉磯分校計算機科學系任職。
林子也找到了自己的路徑。
當被問及假如當初直接進入計算機系是否會做得更好,她的思考是:因為沒有人告訴自己應該怎么前行,所以她一直在不斷優化自己的選擇,如果學了其他專業反而“可能就沒有那么有趣了”,畢竟其他專業學子的成長路徑相對成熟。
林子說,因為應用語言學的規模過于小,大家的成長沒有一個固定的可以借鑒的范式,這樣你反而“更能夠理解自己,探索自己的需求是什么,也能想明白自己為什么最終會選擇繼續讀博士”。
林子還參加了北大信科本科生的科研評比,她和另外兩個信科的同學拿到了一等獎。“我記得當時老師還挺驚訝的”,她說。這時候信科的同學才知道一個來自中文系的林子的存在。
如今林子正在做的課題與自然語言大模型相關,涉及大模型安全性和可解釋性的深度測評。但她更感興趣的是,大模型跟人類語言學習的機制之間有沒有相似度?這是一個深刻的科學問題:小孩子每天聽父母很少量的語言熏陶就能學會說話,這跟大語言模型的訓練過程是非常不一樣的。
大模型來襲
跟林子相比,詹衛東已然將自己視作“前浪”。當大模型時代來臨,詹衛東對這個專業也有了新的認識。
詹衛東自1993年9月進入北大攻讀碩士和博士。至今,他已經在語言與計算的交叉中碰撞了超過30年時間。
為了開發機器翻譯系統,詹衛東曾自學C++語言,程序中的很多問題都由他親自解決。他的博士論文《面向中文信息處理的現代漢語短語結構規則研究》正是出自他在機器翻譯中的工作總結與提煉,并獲得了2001年全國百篇優秀博士論文獎。
入門計算語言學30年來,詹衛東一直在試圖拆解語言,提煉語言規律,然后再組裝回去應用。就像一直以來的還原論,這個過程是透明清晰的。
然而,橫空出世的大模型動搖了計算語言學家們的信念,語言知識的提煉在大模型這里毫無用武之地——只需要投喂足夠的數據,輔以強大算力,就能得到鮮活的語言輸出。
詹衛東說,最近領域內專家經常討論這一情況,但并無明確應對之道。同行們對大模型還是了解得太少了,“去年一年大家都處在一種懵的狀態,我們內部其實還缺乏更加深入的、更多的交流”。
詹衛東的導師、語言學家陸儉明并沒有那么悲觀。他在去年的一篇文章中談到,人工智能是靠數據、算力、算法這“三駕馬車”驅動,如果“語言知識”能加入到數據中,將肯定會大大推進人工智能事業。陸儉明也是應用語言學專業創建的主要倡議者。
詹衛東說,當語言學家把這些知識歸納之后,或許就可以變成計算機可以用的更有效的知識。
不過,讓詹衛東尤為憂慮的是,一批老學者正在紛紛退休,留下的職位空缺卻遲遲找不到新人填充。
一方面,好的自然語言模型人才已經被工業界壟斷,那里有更高的薪水和更好的資源(算力和數據);另一方面,既熟悉語言學,又懂大模型技術的人才少之又少。
就在2023年年末,受詹衛東邀請,林子回到母校給學弟學妹們作了專業學習的經驗分享。他們這些“后浪”也被詹衛東寄予了厚望:萬一哪天回來報效母校呢?
圖為2023年12月27日,林子回北大講座后合影。前排中間是林子,后排左二為詹衛東。受訪者供圖。
文|《中國科學報》記者李晨陽一轉眼,已經10年了。看著發表在《自然-合成》上的研究工作,雷曉光心中的自豪油然而生:那個天然產物合成領域的“巔峰難題”“終極挑戰”,終于被他們攻克了。10年前,35歲的雷......
跑好中國式現代化的接力棒——在北京大學2024年開學典禮上的講話北京大學校長龔旗煌院士親愛的同學們、老師們、來賓們:大家上午好!今天,我們隆重舉行北京大學2024年開學典禮,熱烈歡迎4408名本科新生......
9月6日上午,北京大學舉行2024級新生開學典禮。典禮上,北京大學化學與分子工程學院教授裴堅作為教師代表發言。他在發言中囑托學生,千萬不要做一個只卷績點的“好學生”。“成績是重要的,它在某種程度反映了......
“今天的北大醫學,學科覆蓋廣泛,師資力量雄厚,科研實力卓越,醫療資源豐富,國際交流頻繁……你們將在這里開啟人生新篇章,接受最優質的醫學教育,與最優秀的師生同行,共同探索醫學的奧秘,為人類健康事業貢獻自......
2024 年4月15日,HORIBA“服務萬里行”圓滿完成了在北京大學分析測試中心(以下簡稱:中心)的巡檢工作。本次活動不僅解決了中心因教學科研需求增長、業務拓展以及人才隊伍建設而面臨的各類......
,7月28日下午,ArturAvila(阿圖爾·阿維拉)教授助力北京大學數學高層次人才培養簽約儀式在北京大學智華樓四元廳舉行。菲爾茲獎得主、著名數學家ArturAvila正式簽約北京大學,受聘成為北京......
走進李彥老師的書房,映入眼簾的便是通天的書架。書籍林立其上,從基礎的化學原理到前沿的科研成果,從經典的化學實驗到創新的科學發現,原子與分子共舞,老教授們的奠基之作與跨學科的“閑書”構筑起這片奇妙樂園。......
2024年7月22日,由國際理論物理中心(ICTP)和國際數學聯盟(IMU)共同頒發的2024年度拉馬努金獎(TheRamanujanPrize)揭曉,評選委員會將獎項授予了北京大學劉若川教授,以表彰......
近段時間,隨著北大考古專業女孩鐘芳蓉畢業相關信息受到關注,考古學專業再次進入大眾的視野。北大考古學專業的招生、就業情況如何?普通高校的考古學專業能不能報、是否面臨就業難?哪些學生適合報考古?如何看鐘芳......
引前方 又是一年畢業季,2020年以湖南高考文科第四名的成績選擇北京大學考古專業而受到關注的女孩鐘芳蓉,迎來本科畢業。7月3日,北京大學考古文博學院官方微信公眾號發布了鐘芳蓉作為本科畢業生代......