作者 | 秦海龍
6 月 14 – 15 日 ArchSummit 全球架構師峰會·深圳,深度探索大模型時代軟件架構最佳設計。
寫在最前
李生,中國最早從事機器翻譯研究的自然語言處理科學家之一。哈爾濱工業(yè)大學教授,博士生導師,中文信息學會會士,中國中文信息學會名譽理事長。曾任哈爾濱工業(yè)大學黨委書記、中國中文信息學會第七屆理事會理事長。多年來在自然語言處理領域培養(yǎng)了四十余名博士研究生,百余名碩士研究生。
李生教授是國際計算語言學會終身成就獎五十余年來的首位華人獲得者,中國計算機學會自然語言處理專業(yè)委員會“杰出成就學者”獎獲得者,中國中文信息學會終身成就獎獲得者。他還是黨的十六大代表、全國五一勞動獎章獲得者。
上世紀六十年代,李生教授畢業(yè)于哈爾濱工業(yè)大學,師從中國計算機科學與工程奠基人之一陳光熙教授,他是中國人工智能領域的第一位博士候選人。
我母校哈爾濱工業(yè)大學的自然語言處理研究團隊曾被譽為“世界上規(guī)模最大、人數(shù)最多的自然語言處理實驗室”。同時哈工大也是中國最早從事人工智能、自然語言處理方向研究的高校之一。從上世紀五十年代最開始涉足機器翻譯研究開始,學校一直在從事自然語言處理和語音處理中各個方向的研究。為中國人工智能中的自然語言處理領域培養(yǎng)了大量科學家和工程師。
李生教授是哈工大近 70 年來人工智能和自然語言處理發(fā)展的見證者。倍感榮幸的是,李生教授也是當年我博士論文答辯委員會的主席。雖然當初在學校的很多會議和活動上都接受過李老師的言傳身教,但是這么多年都沒有跟他單獨交流的機會。
2024 年 4 月,我在北京拜訪了李生教授,他向我講述了學校以及他自己在人工智能研究領域的很多經歷。他的講述仿佛把我身臨其境地帶入了母校老一輩計算機科學家早年的科研場景。
就讀大學
心懷報國志向的數(shù)學學霸
1943 年,李生出生在黑龍江省蘭西縣一個農村家庭。1949 年新中國成立,也是這一年,李生就讀初小,開始了他的學生生涯。1954 年,李生考入蘭西縣初級中學就讀初中。三年后,他考入肇東市第一中學開始就讀高中。
上世紀五十年代,國家大力推動“兩彈一星”的研發(fā)。1960 年,李生參加高考,懷著報效國家的夢想,李生報考了哈爾濱工業(yè)大學核物理專業(yè),并以優(yōu)異的成績順利考取。其實他當時他也不太明白核物理究竟要學些什么,只是知道這是當時國家建設最需要的專業(yè)。
由于李生高考時數(shù)學成績特別好,入學報到的時候,學校決定根據(jù)實際需要把他調劑到計算機專業(yè)。
李生老師回憶說,當時他根本不了解什么是計算機,作為農村出來的孩子,他用過算盤,見過計算器,可是計算機真的連見都沒有見過。不過對于那個年代的年輕人,學習工作的志向就是到國家最需要的地方去。所以他接受了調劑,成為了計算機專業(yè)的本科生。
當時的哈工大跟清華大學、北京大學一樣,本科都是五年學制。經過五年的學習,1965 年李生本科畢業(yè),并留校任教。
早期科研
參與大型電子計算機的研制
剛留校的時候,李生承擔了系里的大量教學任務,其中包括講課、批改作業(yè)、給學生答疑等。他講授過包括計算機原理、Basic 語言、Fortran 語言在內的很多專業(yè)基礎課和專業(yè)課。
從上世紀五十年代開始,中國的很多科研機構和工廠都在大批量研發(fā)和生產大型數(shù)字電子計算機。
1968 年,李生帶領計算機專業(yè) 64 級學生參與 441C 計算機的調試工作,這是當時哈爾濱軍事工程學院研制的晶體管計算機。
1970 年 -1974 年國家三線建設期間,李生隨學校南遷到重慶市。在重慶,他曾在學校為部隊辦的計算機學習班授課,也曾與重慶鐘表廠合作研制線切割機床(一種電加工機床,主要用于通過電火花放電來切割金屬)。
1974 年,李生隨學校重返哈爾濱,在學校搬遷辦公室參與哈爾濱工業(yè)大學的重建。
1976 年,李生參與 DJS—11 型計算機的研制工作,由北京大學提供計算機研發(fā)的圖紙和技術資料,哈爾濱電子儀器廠為主機總裝廠,產品的交付標準參照北京大學電子儀器廠生產的 150 機。
1978 年,李生開始進行“區(qū)域性西文期刊機讀聯(lián)合目錄”項目的研制。機讀目錄是一種可以利用計算機讀取和處理的書目信息,這些信息可以被計算機自動識別并編輯,機讀目錄很大程度上方便了書目信息的查詢和共享。
這個項目于 1986 年通過黑龍江省科技成果鑒定,這是李生第一個通過成果鑒定的科研項目,項目也獲得了航天部科技進步三等獎。
1979 年,李生被評為黑龍江省優(yōu)秀教師。
1983 年,李生開始跟隨陳光熙教授攻讀博士學位,他也成了中國和哈爾濱工業(yè)大學人工智能領域的第一個博士候選人。之后因為一些原因終止了博士學位的攻讀。
李生教授與陳光熙教授
陳光熙教授是中國計算機工程學科奠基人,也是哈工大計算機學科的創(chuàng)始人。當時他們的研究方向是信息檢索,那時候的信息檢索也稱為情報檢索,就是在國外早期的數(shù)據(jù)存儲磁帶中查詢數(shù)據(jù),獲取國外最新的科研工作進展,以確定專業(yè)接下來的研究方向。
其間,李生參與了陳光熙教授主持的“TDM 數(shù)據(jù)庫機”的項目研制,數(shù)據(jù)庫計算機是一種實現(xiàn)數(shù)據(jù)庫存儲、管理和控制的專用計算機。這個項目獲得了航天部科技進步二等獎。
文獻標引
機器翻譯的研究契機
哈爾濱工業(yè)大學和中國人民大學是蘇聯(lián)援建中國的兩所高校。上世紀五十年代,有一批蘇聯(lián)專家到哈工大從事教學工作,帶來了很多俄文資料。把俄文資料翻譯成中文成了急需完成的工作。當時俄語系的王畛老師和計算機系的王開鑄老師就開始了俄漢機器翻譯的研究,這是哈工大最早期的機器翻譯工作。
改革開放初期,中國的科學研究全面復蘇,由于之前中國的大多技術和經驗都是向蘇聯(lián)學習。這時全國很多高校都派出老師去歐美高校訪問學習,哈工大計算機專業(yè)當時也派出了老師到美國學習,以便開展新的科研方向。
比如,王開鑄老師去美國訪問回來后開始從事俄漢題錄翻譯、自動文摘等方向的研究。題錄是一種描述文獻外部特征的條目,主要包括文獻的題名、著者、出處等信息。俄漢題錄翻譯就是通過計算機自動把這些條目從俄文自動翻譯成中文。自動文摘是通過計算機在一篇文章中自動提取出文章的摘要。這兩個方向都是自然語言處理中的重要研究方向。
再比如,舒文豪老師在美國訪問時師從國際模式識別創(chuàng)始人傅京孫教授,回國后開始了手寫漢字識別的研究。
在同一時期,李生教授開始從事漢英機器翻譯研究,正式開啟了自然語言處理的學術生涯。
1984 年,李生晉升為副教授。
1985 年,李生教授的碩士研究生周明入學。李生教授為周明最初確定的研究方向為中文文獻的主題詞自動標引。自動標引,就是利用計算機從情報和文獻中自動抽取檢索標志。主題詞自動標引,就是自動抽取可以代表情報和文獻內容的關鍵詞。這一年,李生 42 歲。
在北京,周明認識了中國科學院科學考察委員會的吳蔚天研究員(后來吳老師加入了中國軟件技術公司語言工程部)。吳蔚天老師是理工科背景出身,特別喜歡自然語言處理。那時候吳老師也在做中文文獻自動標引的工作。
吳蔚天老師提議周明考慮漢英機器翻譯方向,他覺得英文的相關數(shù)據(jù)和工具都比中文多,要是有辦法把中文翻譯成英文,則英文中的自動標引、自動文摘等技術都可以直接應用,于是他提出了跟李生教授團隊一起合作,通過漢英機器翻譯進行自動標引的研究。
結果初步協(xié)商后,李生教授和周明再次來到北京,與吳蔚天老師簽訂了科研合作協(xié)議。雙方也討論了自動標引研究的初步研究思路:先將中文語句分詞,然后依次判斷每個詞是否跟文獻的主題有關聯(lián),有關聯(lián)就保留下來,沒有關聯(lián)就棄用。這種思路被稱為“有聯(lián)系則取,無聯(lián)系則斷?!?/span>
相比中文,除了數(shù)據(jù)和工具比較多,英文自動標引工作還有其他優(yōu)勢。因為中文語句的詞語之間沒有明確的間隔符,而英文語句的詞語之間是通過空格分隔的,分詞容易很多。
李生、吳蔚天和周明進一步討論決定,先把中文句子翻譯成英文,然后選取英文句子中的主題詞,再把主題詞翻譯回英文。
這樣項目就確定了漢英翻譯,接著確定主題詞,最后再做英漢翻譯的流程。
哈工大人的科研精神態(tài)度是務實和謹慎。李生教授意識到這個項目的工作量非常大,別說一個碩士生,就是一個博士生也很難完成,想要完成這個工作,需要一個科研團隊。
為了逐步完成這個項目,周明的課題確定為漢英翻譯,也就是整個中文文獻標引的第一個環(huán)節(jié)。
1987 年起,李生任哈工大計算機系系主任。
1988 年,CEMT-I 漢英翻譯系統(tǒng)開發(fā)完成,CEMT-I 系統(tǒng)利用了詞法、語法、語義等語言學特征實現(xiàn)漢英翻譯需求,實現(xiàn)了 300 多個漢語句子和題錄的機器翻譯。
同年,周明碩士畢業(yè),開始攻讀博士學位,由于李生教授當時還不是博士生導師,周明的博士導師為陳光熙教授,李生教授是他的實際指導教師,博士期間,周明繼續(xù)漢英機器翻譯的研究。
1989 年,CEMT-I 成為中國第一個通過技術鑒定的漢英機器翻譯系統(tǒng)。
CEMT-I 漢英翻譯系統(tǒng)鑒定會
繼 CEMT-I 的成功開發(fā)之后,CEMT-II 和 CEMT-III 系統(tǒng)也陸續(xù)誕生。CEMT-II 解決了航天部 103 所軍貿產品技術說明書的英漢翻譯需求。CEMT-III 則實現(xiàn)了科技文章的英漢翻譯,這個系統(tǒng)由李生教授團隊與中國運載火箭技術研究院計算機應用研究所共同研制。1993 年,這個系統(tǒng)通過了國家鑒定,鑒定委員會主任為時任中國中文信息學會理事長陳力為院士。
1990 年,李生被評為計算機專業(yè)教授。
1991 年,周明博士畢業(yè)。在周明的博士論文答辯會上,李生教授邀請了清華大學的張鈸教授和黃昌寧教授,以及國防科技大學的胡守仁教授。
現(xiàn)在來看,這場博士論文答辯會的專家陣容可謂相當豪華。張鈸教授于 1995 年被評為中國科學院院士,黃昌寧教授也是中國最早從事自然語言處理的科學家之一,胡守仁教授曾經領導了中國第一臺軍用專用電子管計算機 901(331) 機的研制。
周明博士是李生教授指導的第一位博士,也是李生教授培養(yǎng)的第一位中國自然語言處理科學家。周明博士畢業(yè)后到清華大學從事博士后研究工作,后任清華大學副研究員。1999 年,他加入微軟亞洲(中國)研究院,負責自然語言處理研究組,他在微軟工作二十多年,直至微軟亞洲研究院副院長。大模型時代,周明博士離開微軟,創(chuàng)立了知名人工智能公司瀾舟科技。
1992 年,李生教授被評為計算機專業(yè)博士研究生導師。
1993 年,李生教授獲“國務院政府特殊津貼”。
同年,李生教授團隊與清華大學、原航天工業(yè)總公司共同開發(fā)達雅翻譯工作站。當時周明博士已經加入清華大學,并代表清華大學一方負責這個項目的工作。
達雅翻譯工作站可以用于漢英和英漢的輔助機器翻譯和輔助寫作。這個項目成功的實現(xiàn)了翻譯軟件的商品化。項目連續(xù)三年在北京計算機產品交易會上展出。1997 年,該項目獲得部級二等獎。
1994 年起,在國家 863 高技術研究發(fā)展計劃的支持下,李生教授的團隊開展了漢英 – 英漢雙向機器翻譯研究。先后開發(fā)了 BT863-I 和 BT863-II 雙向機器翻譯系統(tǒng),實現(xiàn)了基于規(guī)則和基于統(tǒng)計的翻譯方法混合的機器翻譯策略。
基于規(guī)則的翻譯方法,核心思想是根據(jù)語言的句法、語義等特征,寫出翻譯過程中的相關規(guī)則?;诮y(tǒng)計的翻譯方法,核心思想是利用統(tǒng)計和數(shù)學方法,計算出翻譯過程中的相關策略和選擇。
與微軟合作
中國互聯(lián)網”黃埔軍校“的緣起
1996 年,李生教授省獲“黑龍江優(yōu)秀中青年專家”稱號。
1998 年,李生任哈爾濱工業(yè)大學黨委書記。
這一年年末,微軟在北京成立微軟中國研究院。這是微軟公司在美國境外開設的第二家基礎科研機構,也是微軟在美國境外規(guī)模最大的研究機構。
研究院剛成立的時候,在國內還沒有那么高的認可度。雖然北京的高校很多,但是研究院并沒有開展很多校企合作。
這個時候,周明博士已經在微軟中國研究院工作。研究院希望在哈工大成立學生俱樂部,負責高校合作的馬歆找到周明,希望他跟李生教授溝通,討論研究院跟哈工大的合作事宜。
周明隨即聯(lián)系了導師李生教授,時任學校黨委書記的李生同意與微軟中國研究院開展合作。李生教授協(xié)調了學校的團委、學生會等相關部門進行對接。1999 年,微軟中國研究院到哈工大舉辦宣講活動,微軟 – 哈工大學生俱樂部成立。與此同時,微軟中國研究院與中國高校的合作也拉開帷幕。
2000 年,微軟 – 哈工大機器翻譯聯(lián)合實驗室成立,李生教授任實驗室主任。研究院也先后委派黃昌寧教授、周明博士和馬維英博士擔任實驗室微軟方面的聯(lián)合主任。
2001 年,微軟中國研究院更名為微軟亞洲研究院。
之后,微軟亞洲研究院與中國很多其他頂尖高校也展開了學生培養(yǎng)和科學研究方面的合作,為中國互聯(lián)網和人工智能行業(yè)培養(yǎng)了大量的優(yōu)秀人才,被譽為中國互聯(lián)網的“黃埔軍?!?。這些都開始于李生教授當初對待校企合作開放、包容的態(tài)度。
回到一線科研崗位
獲得計算語言學領域國際最高榮譽
2002 年,李生教授榮獲“全國五一勞動獎章”。
2004 年,李生教授卸任學校黨委書記,回到計算機學院繼續(xù)從事教學科研工作。
同年開始,連續(xù)兩屆擔任國家自然科學基金信息科學部專家評審組成員。
也是在這一年,微軟 – 哈工大機器翻譯聯(lián)合實驗室升級為“哈工大語言語音教育部 – 微軟重點實驗室”,李生教授繼續(xù)擔任重點實驗室主任。
2008 年,李生主持國家自然科學基金重點項目“下一代信息檢索”。
2011 年,李生擔任中國文信息學會理事長。
2012 年,李生教授參加了由百度公司牽頭的國家 863 重大項目“互聯(lián)網語言翻譯系統(tǒng)研制”。這個項目在 2015 年獲得國家科技進步二等獎。
2015 年,李生教授獲國際計算語言學學會(Association for Computational Linguistics,ACL)終身成就獎。這個獎項是國際計算語言學領域的最高榮譽。他也是這個獎項開設以來的首位華人獲得者。曾經的獲獎者包括 IDF(逆文檔頻率) 的提出者 Karen Sp?rck Jones 等學界泰斗。
Manning 教授為李生教授頒發(fā)國際計算語言學會終身成就獎
同一年,李生教授獲中國中文信息學會終身成就獎。
2016 年起,李生教授擔任中國中文信息學會名譽理事長。
2023 年,李生教授獲中國計算機學會自然語言處理專業(yè)委員會"杰出成就學者"獎。
桃李天下
為業(yè)界培養(yǎng)多位科學家的科學家
2015 年年末,哈爾濱工業(yè)大學機器智能與翻譯研究室和社會計算與信息檢索研究中心共同為李生教授舉辦執(zhí)教 50 周年紀念活動。活動發(fā)布了一本紀念冊,名為《春華秋實,桃李天下》。
五十多年來,李生教授培養(yǎng)了近 50 名博士生,百余名碩士生。
光是早年開發(fā) CEMT 三個機器翻譯系統(tǒng)的過程中就培養(yǎng)了中國自然語言處理領域的數(shù)位科學家。
其中包括瀾舟科技的周明博士、哈爾濱工業(yè)大學的趙鐵軍教授和張民教授、百度 CTO 王海峰博士等。哈爾濱工業(yè)大學的劉挺教授也自從博士畢業(yè)后就開始加入李生教授團隊從事研究工作。
其中周明和王海峰曾擔任國際計算語言學會主席,他們二位也都曾當選國際計算語言學會會士(ACL Fellow)。
在學術界,李生教授還培養(yǎng)了北京語言大學的荀恩東教授、哈爾濱工業(yè)大學的楊沐昀教授、秦兵教授和車萬翔教授等多位知名學者。
在工業(yè)界,他的弟子包括聯(lián)想控股副總裁于浩博士、百度公司副總裁趙世奇博士等。
后記
在北京見到李生教授時,他對我說:“中國的人工智能是從機器翻譯開始的,雖然早期的時候機器翻譯還沒有提升到人工智能的高度,不過這也是自然語言處理學者的一個驕傲?!?/span>
從學生的培養(yǎng),到微軟亞洲研究院在國內的首次合作,聽李老師講述幾十年來的往事。其中的很多細節(jié)和李老師務實的精神讓我特別感動。
一個多小時的交談過程中,我能感受到李生老師早年科研過程中條件的艱苦,以及面對方向選擇時的謹慎。五十多年來,從零開始到若干機器翻譯系統(tǒng)的研制成功,李老師與他的學生們?yōu)橹袊臋C器翻譯研究做出了開拓性的貢獻。
ACL 終身成就獎的獲得,不僅是國際學術界對李生教授長期貢獻的認可,也是對中國自然語言處理學術研究的認可。
個人電腦時代、互聯(lián)網時代、大模型時代……時間滾滾向前,新的時代接踵而至,人工智能在人們生活中的比重越來越大,自然語言處理方向的研究價值也越來越高。
中國的自然語言處理研究正是源于幾十年前李生教授這一批腳踏實地的學者。他們的工作為中國的自然語言處理事業(yè)打下堅實的基礎。他們培養(yǎng)的學生是中國這一領域雄厚的人才資本。這些夯實的積累和持續(xù)傳承的精神足以讓我們對未來中國相關領域的發(fā)展充滿信心。
作者簡介:
秦海龍,香港科技大學社會科學部博士后研究員,中國中文信息學會社會媒體處理專業(yè)委會委員。主要研究方向為中國人工智能發(fā)展史、中國人工智能科學家口述史、計算社會學。博士畢業(yè)于哈爾濱工業(yè)大學社會計算與信息檢索研究中心,前自然語言處理研發(fā)工程師,曾就職于小米科技和三角獸科技。
原文鏈接:走近李生教授:培養(yǎng)出周明、王海峰等數(shù)位AI科學家,NLP國際最高獎項得主的科研之路_AI&大模型_秦海龍_InfoQ精選文章
版權聲明:本文內容由互聯(lián)網用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權/違法違規(guī)的內容, 請發(fā)送郵件至 舉報,一經查實,本站將立刻刪除。