計算語言學(xué)文科能學(xué)嗎_大數(shù)據(jù)環(huán)境下計算語言學(xué)的超學(xué)科研究
本文關(guān)鍵詞:計算語言學(xué)的超學(xué)科研究,由筆耕文化傳播整理發(fā)布。
您現(xiàn)在的位置 :首頁 > 特色專欄 > 馮志偉
大數(shù)據(jù)環(huán)境下計算語言學(xué)的超學(xué)科研究
日期:2016-01-26 作者:馮志偉 來源:愛思英語
本文由馮志偉授權(quán)愛思英語發(fā)布,轉(zhuǎn)載請注明出處和作者
馮志偉攝于大連海事大學(xué)
大數(shù)據(jù)環(huán)境下計算語言學(xué)的超學(xué)科研究
-計算語言學(xué)超學(xué)科研究之七
馮志偉
我們欣喜地看到,在新的21世紀,上世紀90年代開始的這種大數(shù)據(jù)環(huán)境下的、基于統(tǒng)計的超學(xué)科研究進一步以驚人的步伐加快了它的發(fā)展速度。這樣的加速發(fā)展在很大的程度上受到下面三種彼此協(xié)同的趨勢的推動(馮志偉 2013)。
首先是建立帶標記語料庫的趨勢。在語言數(shù)據(jù)聯(lián)盟和其他相關(guān)機構(gòu)的幫助下,計算語言學(xué)研究者可以獲得口語和書面語的大規(guī)模的海量語料。在這些海量語料中還包括一些帶有句法、語義和語用等不同層次的標記的語料,其中蘊藏著豐富的語言知識。這些帶標記的語言資源大大地推動了人們使用有監(jiān)督的機器學(xué)習(xí)方法(supervised machine learning)來處理那些在傳統(tǒng)上非常復(fù)雜的自動句法分析和自動語義分析等問題,并且也推動了有競爭性的評測機制的建立。
第二是統(tǒng)計機器學(xué)習(xí)的趨勢。在大數(shù)據(jù)的環(huán)境下,對于機器學(xué)習(xí)的日益增長的重視,導(dǎo)致了計算語言學(xué)研究者與統(tǒng)計機器學(xué)習(xí)的研究者更加頻繁地交互,彼此之間互相切磋,互相影響。統(tǒng)計機器學(xué)習(xí)成為了計算語言學(xué)超學(xué)科研究的重要內(nèi)容。
第三是高性能計算機系統(tǒng)發(fā)展的趨勢。在大數(shù)據(jù)環(huán)境下,高性能計算機系統(tǒng)的廣泛應(yīng)用,為機器學(xué)習(xí)系統(tǒng)的大規(guī)模訓(xùn)練和效能發(fā)揮提供了有利的條件,而這些在上一個世紀是難以想象的。
最近,大規(guī)模的無監(jiān)督的機器學(xué)習(xí)方法(unsupervised machine learning)得到了重新關(guān)注。在機器翻譯和文本主題模擬等領(lǐng)域中統(tǒng)計方法的進步,說明了除了使用帶標注的語料庫之外,也可以訓(xùn)練完全沒有標注過的語料庫來構(gòu)建機器學(xué)習(xí)系統(tǒng),這樣的系統(tǒng)也可以得到有效的應(yīng)用。
在大數(shù)據(jù)環(huán)境下的計算語言學(xué)研究中,圍繞著超學(xué)科的問題,學(xué)者們的看法不盡相同:有的學(xué)者極力排斥語言學(xué),而有的學(xué)者則強調(diào)語言學(xué)的重要性。這些不同學(xué)術(shù)思想撞擊出燦爛的火花,照亮了我們的雙眼,使我們對于超學(xué)科的重要性看得更加清楚了。我們認為,計算語言學(xué)的超學(xué)科研究對于計算語言學(xué)的發(fā)展具有導(dǎo)向性的作用,一旦脫離了超學(xué)科研究的軌道,將會使計算語言學(xué)的研究走向歧途。
面對基于統(tǒng)計的超學(xué)科研究方法取得的輝煌的成績,有的學(xué)者在成績面前飄飄然起來,他們過分地夸大統(tǒng)計方法的作用,看不起基于規(guī)則的方法。在一次自然語言處理評測討論會上,,美國IBM公司語音研究組的Jelinek竟然大言不慚地對與會者說:“每當(dāng)一個語言學(xué)家離開我們的研究組的時候,語音識別率就會提高一步。”(Jurafsky & Martin 2005馮志偉 孫樂譯)。Jelinek把從事超學(xué)科研究的語言學(xué)家,貶低到了一錢不值的程度,采取了嗤之以鼻的態(tài)度,他得意忘形,試圖改變計算語言學(xué)的超學(xué)科性質(zhì),使計算語言學(xué)研究脫離超學(xué)科的軌道。我們認為,這是一種錯誤的傾向,將會使計算語言學(xué)走向歧途(馮志偉 2012)。
與Jelinek不同,美國計算語言學(xué)家Kenneth Church卻主張在采用大數(shù)據(jù)和統(tǒng)計方法的同時,還應(yīng)當(dāng)加強語言學(xué)的學(xué)習(xí)。他在2007年發(fā)表了一篇文章叫做《鐘擺擺得太遠了》(Church 2007),敘述了他的認識發(fā)展過程。在這篇文章中, Church回顧了上世紀90年代他和一些志同道合的青年學(xué)者在國際計算語言學(xué)學(xué)會中創(chuàng)建一個“數(shù)據(jù)研究興趣組”的情形。他說,“當(dāng)時我們出于實用主義的考慮,背叛了自己老師的理性主義方法的立場,專門建立一個興趣小組來研究數(shù)據(jù)。我們認為,既然現(xiàn)在語言數(shù)據(jù)可以輕而易舉地得到,為什么不可以拿過來利用一下呢?與其高不成低不就,不如順水推舟,做一些簡單易行的事情,率先摘取那些大樹上低枝頭的唾手可得的果實。”他們采取的技術(shù)路線是以語言數(shù)據(jù)為基礎(chǔ)的經(jīng)驗主義方法,也就是本文中描述的基于統(tǒng)計的超學(xué)科方法。
當(dāng)時他們只是想在國際計算語言學(xué)學(xué)會眾多的興趣組中取得一席之地,并沒有更大的野心。可是,過了幾年之后,就進入了大數(shù)據(jù)的時代,他們倡導(dǎo)的這種基于統(tǒng)計的超學(xué)科方法不僅復(fù)蘇了,而且取得了很大的成功,以至于成為了計算語言學(xué)的標準方法和主流方法。他們使用這樣的超學(xué)科方法,率先摘取那些大樹低枝頭上的唾手可得的果實,取得了輝煌的成就,確實具有先見之明。
如果當(dāng)時Church等人緊隨在他們的老師之后,亦步亦趨地不敢越雷池一步,把自己局限在基于規(guī)則方法的狹小天地之中,沒有毅然決然的勇氣采用大數(shù)據(jù)和基于統(tǒng)計方法來補充基于規(guī)則方法的不足,估計就不會有今天這樣輝煌的成就。
然而,在這樣的成就面前,他們并沒有像Jelinek那樣躊躇滿志,Church清醒地認識到,當(dāng)前這個基于統(tǒng)計方法的“鐘擺”已經(jīng)“擺得太遠了”。他問道:“如果那些低枝頭上的果實都被摘完之后,誰去摘那些處于大樹的高枝頭上的果實呢?究竟怎樣去摘呢?”他認為,應(yīng)當(dāng)依靠深層的語言學(xué)知識去摘取。Church要他的學(xué)生們認真地學(xué)習(xí)語言學(xué)的知識,深入研究語言學(xué)中的規(guī)律和各種規(guī)則,把語言學(xué)規(guī)則融合到統(tǒng)計方法中去,進行名副其實的超學(xué)科研究,才有可能進一步摘取高枝頭上的果實。
Church與Jelinek都在計算語言學(xué)研究中采用了統(tǒng)計方法,并且取得了卓越的成就,可是他們對于超學(xué)科研究的主張卻是截然不同的。這些不同主張引導(dǎo)學(xué)者們對于計算語言學(xué)超學(xué)科研究的問題進行更加深入、更加富于理論意義的思考。
與Church的主張相呼應(yīng),計算語言學(xué)家Lori Levin在2009年的歐洲計算語言學(xué)會(EACL2009)的專題討論上也提出了一個發(fā)人深省的建議。他建議計算語言學(xué)要關(guān)注語言學(xué)的基礎(chǔ)研究,在國際計算語言學(xué)學(xué)會里設(shè)置一個語言學(xué)專委會。Levin指出,從本質(zhì)說來,在當(dāng)前的自然語言處理工程里,已經(jīng)把語言學(xué)置于非常次要的地位了,大家整天考慮的幾乎都是程序技術(shù)或者算法問題,很少關(guān)注自然語言處理工程背景后面隱藏著的語言學(xué)問題,計算語言學(xué)事實上已經(jīng)成為了沒有語言學(xué)支持的語言學(xué)科,在計算語言學(xué)研究中,語言學(xué)在整體上是缺位的!在當(dāng)前的計算語言學(xué)超學(xué)科研究中,語言學(xué)已經(jīng)失去了它應(yīng)有的位置。
Levin的這個建議一石激起千層浪,在計算語言學(xué)界引起了熱烈的討論。其中特別值得我們注意的是Shuly Wintner的意見。她發(fā)表了一篇題為《什么是自然語言工程的科學(xué)支撐?》的文章(Wintner 2009),強烈地呼吁“語言學(xué)重新返回到計算語言學(xué)中”。
國際計算語言學(xué)界的這些討論涉及到深刻的方法論問題,值得我們高度關(guān)注。我們不同意Jelinek的錯誤主張。我們認為,在計算語言學(xué)研究中,應(yīng)當(dāng)把基于規(guī)則的方法和基于統(tǒng)計的方法結(jié)合起來,把語言學(xué)、數(shù)學(xué)和計算機科學(xué)緊密地結(jié)合在一起,取長補短,相得益彰,這樣的研究才算得上是真正的超學(xué)科研究。
我們高興地看到,在超學(xué)科思想的指導(dǎo)下,在基于統(tǒng)計的方法中更加自覺地引入了語言學(xué)信息,我們將其歸納為如下兩個方面。
首先,在統(tǒng)計機器翻譯中提出了基于短語的統(tǒng)計機器翻譯模型,這種模型把語言學(xué)中的短語作為翻譯的原子單元。在短語翻譯表中,短語之間是一一映射的,也可能存在調(diào)序。短語翻譯表可以從詞對齊中通過機器學(xué)習(xí)而自動地得到,與詞對齊一致的所有短語偶對都被添加到短語翻譯表中。在擴展原始的翻譯模型時,還引入了額外的模型組件,這些組件包括:雙向翻譯概率、詞匯化加權(quán)、詞懲罰和短語懲罰(馮志偉 2013)。
其次,為了在基于統(tǒng)計的方法中引入語言學(xué)信息,在統(tǒng)計機器翻譯中,還提出了整合語言學(xué)知識的問題,其中包括利用句法標注的語言學(xué)信息來提高統(tǒng)計機器翻譯的質(zhì)量,在基于短語的統(tǒng)計機器翻譯中,融入字母翻譯、詞匯翻譯和句子結(jié)構(gòu)等語言學(xué)知識。如果源語言和目標語言在詞序方面差別明顯,還可以使用基于句法的方法來調(diào)序。當(dāng)處理句法樹的重構(gòu)時,可以使用子結(jié)點調(diào)序限制來降低計算的復(fù)雜性,也可以使用重排序 (re-ranking) 方法,在挑選最佳翻譯時利用語言的句法特征,檢查輸入和輸出的一致性,等等(馮志偉 2013)。
由此可見,在基于統(tǒng)計的方法中引入語言學(xué)信息,可以彌補統(tǒng)計方法的不足,使基于統(tǒng)計的方法如虎添翼。因此,在大數(shù)據(jù)環(huán)境下,把基于統(tǒng)計的方法與基于規(guī)則的方法緊密地結(jié)合起來,是計算語言學(xué)超學(xué)科研究的關(guān)鍵。計算語言學(xué)的超學(xué)科研究有著令人鼓舞的光輝前景。
語言學(xué)在現(xiàn)代認知科學(xué)、自然語言處理中有著重要的地位。由于語言現(xiàn)象的復(fù)雜性,研究領(lǐng)域?qū)⒄Z言學(xué)分為不同的學(xué)科,而現(xiàn)代科學(xué)技術(shù)的發(fā)展使語言學(xué)中跨越學(xué)科界限的研究成為必然,研究方法也從單一層面、單一維度發(fā)展到多層次、多維度。語言學(xué)的超學(xué)科命題并不摒棄語言學(xué)的各學(xué)科,而是以一門學(xué)科的深入知識作為基本結(jié)構(gòu)基礎(chǔ),每個相關(guān)學(xué)科都會貢獻自己的基礎(chǔ)知識,進而創(chuàng)造出新的行為模式,推進語言學(xué)的發(fā)展。
本文關(guān)鍵詞:計算語言學(xué)的超學(xué)科研究,由筆耕文化傳播整理發(fā)布。
本文編號:139995
本文鏈接:http://sikaile.net/jiaoyulunwen/xuekejiaoyulunwen/139995.html