俄語現(xiàn)代標(biāo)注語料庫的理論與實踐
本文關(guān)鍵詞:俄語現(xiàn)代標(biāo)注語料庫的理論與實踐,,由筆耕文化傳播整理發(fā)布。
【摘要】: 現(xiàn)代科學(xué)的重要特征之一就是學(xué)科的交叉和融合,而語言學(xué)也積極與其它學(xué)科交叉,涉及心理學(xué)、計算機、哲學(xué)、腦科學(xué)、生物學(xué)等多門學(xué)科。語料庫語言學(xué)即為一門集語言學(xué)理論、數(shù)學(xué)思維模式和計算機技術(shù)為一體重要交叉學(xué)科。 語料庫語言學(xué)不是研究語言自身某個方面,而是一種以語料庫為基礎(chǔ)的語言研究方法。它實際上包括兩個方面:一是對自然語料進(jìn)行標(biāo)注,二是對已經(jīng)標(biāo)注的語料進(jìn)行研究和利用的方法。從方法論的角度而言,語料庫方法不僅可以用于研究語言系統(tǒng)的各個層面,描寫語言的語法結(jié)構(gòu)、詞匯、語義和語用等多層次的信息,并依據(jù)從語料庫中所提取的語言事實驗證現(xiàn)行的語言學(xué)理論模型,形成新的學(xué)術(shù)觀點;而且可以應(yīng)用于語言學(xué)的其他領(lǐng)域,如機器翻譯、信息檢索、語音輸入等。 20世紀(jì)80年代,語料庫語言學(xué)的研究進(jìn)入一個迅速發(fā)展的新時期,由于計算機硬件的發(fā)展與普及和軟件的開發(fā)與運用,以計算機檢索為手段、以電子文本為主要內(nèi)容的計算機語料庫紛紛建立。世界范圍內(nèi)語料庫的建設(shè)和研究人員大多集中在以英語為母語的國家,從英語語料庫建設(shè)和語料庫語言學(xué)研究的情況來看,主要有以下幾個特點:1)基于不同的研究目的,語料庫的類型豐富多樣;2)由于英語語料的采集最方便,因而語言語料庫的語料收集范圍廣,內(nèi)容充實;3)英語語料庫語言學(xué)研究的領(lǐng)域?qū)挿骸⑷?涵蓋了從自然語言處理、詞典編纂到基于語料庫的語音分析、語音識別和合成、詞語研究、詞語搭配分析、詞法分析、句法分析、語篇分析、語用及話語分析、學(xué)習(xí)者語言分析、語言教學(xué)、文化及翻譯研究以及語言對比研究等眾多領(lǐng)域。 上述這些特點包含著傳統(tǒng)語言學(xué)成果的運用、現(xiàn)代語言學(xué)理論和研究方法的支持以及信息技術(shù)的高速發(fā)展,英語語料庫成為世界語料庫語言學(xué)學(xué)科形成的基礎(chǔ),這也是歷史發(fā)展的必然。 俄羅斯的語料庫研究雖然落后于西方,但是在新千年前后得到了長足的發(fā)展,建立了一些大型的采集各種各樣語料、具有不同處理層次、包含各種標(biāo)注信息、以不同方式進(jìn)行標(biāo)注的語料庫,例如二十世紀(jì)俄文報刊語料庫(КомпьютерныйкорпустекстоврусскихгазетконцаXXвека),而規(guī)模最大的當(dāng)推俄語國家語料庫(Национальныйкорпусрусскогоязыка),現(xiàn)已采集3500萬詞次的語料,其最終目標(biāo)是達(dá)到2億詞次。 雖然現(xiàn)代俄語語料庫語言學(xué)對建庫方式和原則沒有統(tǒng)一的規(guī)范,但是對俄語語料庫基礎(chǔ)理論和實際應(yīng)用的研究,可以為國內(nèi)俄語學(xué)者利用語料庫進(jìn)行各種語言學(xué)課題研究提供極具參考價值的重要資源,對俄語學(xué)習(xí)和教學(xué)也大有裨益。 因此,本文的研究目標(biāo)為勾勒俄羅斯語料庫語言學(xué)的總體概貌,重點研究俄語國家語料庫的建庫技術(shù)以及俄語語料庫在語言學(xué)研究中的實際應(yīng)用。也就是說,本文從理論研究和實例分析兩個方面對不同類型的語料庫進(jìn)行系統(tǒng)、詳細(xì)的研究。此項較大規(guī)模專題研究在國內(nèi)俄語界中尚屬首次,在一定程度上具有理論和實踐價值,這正是本文的新意所在。本文的研究任務(wù)是:1)力求宏觀審視俄語語料庫語言學(xué)的發(fā)展歷史;2)深入研究俄語標(biāo)注語料庫、尤其是俄語國家語料庫的建庫原則和技術(shù),探討利用俄語標(biāo)注語料庫進(jìn)行語言學(xué)研究的方法;3)嘗試編制程序服務(wù)于已標(biāo)注俄語語料庫的手工消歧工作。全文由6部分組成,包括緒論、四章和結(jié)束語。 在緒論部分,我們簡要敘述語料庫和語料庫語言學(xué)的基本常識,厘清語料庫語言學(xué)的學(xué)科定義,同時涉及世界語料庫的發(fā)展歷史和當(dāng)今語料庫的地位;闡述本文研究的現(xiàn)實意義、研究目的、研究任務(wù)、研究方法、論文新意、理論意義與實踐價值等。由于國內(nèi)俄語學(xué)界對語料庫的研究范圍相對狹窄,相關(guān)研究成果比較缺乏,因此我們確定本文的研究目標(biāo)是:從俄語語料庫語言學(xué)理論出發(fā),結(jié)合各個相關(guān)學(xué)科(如詞法學(xué)、語義學(xué))的理論和觀點,對俄語語料庫的理論研究和建庫技術(shù)進(jìn)行深入剖析。 第一章《俄語語料庫研究概述》首先簡要介紹俄語語料庫的發(fā)展歷史,我們認(rèn)為現(xiàn)代俄語語料庫建設(shè)的指導(dǎo)思想主要是實用主義,其目的為了滿足俄羅斯語言學(xué)各種研究的實際需求;然后我們對有代表性的網(wǎng)絡(luò)上可訪問的ХАНКО、ТК、КГТ、НКРЯ等4個大型標(biāo)注語料庫的發(fā)展歷程和建庫規(guī)模加以介紹,并從詞法、句法、語義標(biāo)注三個方面進(jìn)行詳細(xì)的對比;最后我們以實例分析為主,力圖揭示ХАНКО、ТК、КГТ、НКРЯ的搜索功能在詞法上的差別,而這正是俄語語料庫用戶在實際利用過程中必須注意的問題。 第二章《俄語國家語料庫的詞法標(biāo)注》我們從俄語語言單位的兩種標(biāo)注方法——“外部形態(tài)分析法”和“深度語義分析法”的區(qū)別入手,分析俄語國家語料庫采用的詞法標(biāo)注方式、詞法標(biāo)注的類別和結(jié)構(gòu)、詞法標(biāo)注的步驟和原則。根據(jù)НКРЯ的語法范疇選擇圖中的特殊標(biāo)注,我們將注意力放在這些標(biāo)注與《俄語語法詞典》中的詞法標(biāo)注模型相偏離而難以自動標(biāo)注的例外詞形和非標(biāo)準(zhǔn)的語言現(xiàn)象上,認(rèn)為只有對這些偏離的語言現(xiàn)象進(jìn)行廣泛深入的研究,才能不斷發(fā)展詞法標(biāo)注系統(tǒng)并完善機用語法詞典。 第三章《俄語國家語料庫的詞匯語義標(biāo)注》主要是從語義層次來研究НКРЯ的詞匯語義標(biāo)注體系,首先介紹НКРЯ詞匯語義標(biāo)注的模型基礎(chǔ)和語義標(biāo)注類別;然后從計算機處理的實際出發(fā),研究語義歧義的分類,指出同形異義詞和詞語的不同義項在НКРЯ中是處于同一個語義平面上的,因而不可避免地造成語義歧義。為了解決語義消歧的問題,我們重點探討利用過濾器進(jìn)行語義消歧的方法。在本章最后,我們還利用語義標(biāo)注進(jìn)行語言實例研究,展現(xiàn)通過語義標(biāo)注所能發(fā)掘的語言知識的深度。 第四章《標(biāo)注語料庫的手工消歧工具設(shè)計》作為本文研究的實驗?zāi)M,本章首先對語料庫的XML標(biāo)注語言和標(biāo)注賦碼進(jìn)行充分研究;然后利用Microsoft Visual Basic 6.0程序語言設(shè)計開發(fā)手工消歧工具,旨在服務(wù)于標(biāo)注語料庫的后處理工作。這種工具對于面向計算機的語言信息處理和面向人的語言教學(xué),均具有重要的實踐價值。 在結(jié)束語部分,扼要歸納全文研究的主要內(nèi)容,并針對俄語語料庫研究與應(yīng)用的基本問題提出建設(shè)性意見,認(rèn)為該學(xué)科還有待于進(jìn)一步拓展的廣闊學(xué)術(shù)空間;同時期望俄語語料庫的研究成果能夠為國內(nèi)俄語學(xué)者所積極享用,為新信息技術(shù)條件下我國的俄語語言文學(xué)研究和教學(xué)注入新的活力。
【關(guān)鍵詞】:俄語 語料庫 標(biāo)注 語義消歧
【學(xué)位授予單位】:中國人民解放軍外國語學(xué)院
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2007
【分類號】:H35
【目錄】:
- 中文摘要4-7
- Автореферат7-12
- 緒論12-17
- 1 語料庫和語料庫語言學(xué)的定義12-13
- 2 語料庫語言學(xué)的發(fā)展歷史13-14
- 3 語料庫語言學(xué)興起的原因14-15
- 4 本文的研究對象、任務(wù)、意義與方法15-17
- 第一章 俄語語料庫研究概述17-34
- 1.1 俄語語料庫發(fā)展概覽17-18
- 1.2 ХАНКО?ТК?КГТ?НКРЯ及其網(wǎng)站18-23
- 1.3 ХАНКО、ТК、КГТ、НКРЯ在不同層次上的標(biāo)注方法對比23-27
- 1.4 ХАНКО?ТК?КГТ?НКРЯ在搜索方面的對比27-33
- 1.5 小結(jié)33-34
- 第二章 俄語國家語料庫的詞法標(biāo)注34-49
- 2.1 俄語語言單位的標(biāo)注方法34-35
- 2.2 НКРЯ的詞法標(biāo)注集35-36
- 2.3 詞法標(biāo)注的步驟及原則36-41
- 2.4 偏離詞法標(biāo)注模型的特例分析41-47
- 2.5 小結(jié)47-49
- 第三章 俄語國家語料庫的詞匯語義標(biāo)注49-60
- 3.1 語義標(biāo)注和《詞匯信息庫》49-50
- 3.2 語義標(biāo)注的類別50-53
- 3.3 НКРЯ中的語義消歧問題53-59
- 3.4 小結(jié)59-60
- 第四章 標(biāo)注語料庫的手工消歧工具設(shè)計60-64
- 4.1 軟件說明60
- 4.2 技術(shù)基礎(chǔ)及算法描述60-62
- 4.3 操作指南62-64
- 結(jié)束語64-66
- 參考文獻(xiàn)66-71
- 后記71
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 顧曰國;語料庫與語言研究——兼編者的話[J];當(dāng)代語言學(xué);1998年01期
2 丁信善;語料庫語言學(xué)的發(fā)展及研究現(xiàn)狀[J];當(dāng)代語言學(xué);1998年01期
3 王伯浩;幾個大的語料庫評介[J];當(dāng)代語言學(xué);1998年01期
4 孫霞;俄語日?谡Z體的詞法特點[J];呼倫貝爾學(xué)院學(xué)報;2000年04期
5 陳瀟;;語料庫、語料庫語言學(xué)及其應(yīng)用[J];佛山科學(xué)技術(shù)學(xué)院學(xué)報(社會科學(xué)版);2006年04期
6 賈雯;;國內(nèi)語料庫語言學(xué)研究述評[J];阜陽師范學(xué)院學(xué)報(社會科學(xué)版);2006年05期
7 傅興尚,許漢成;俄語句法信息的自動化處理——基本構(gòu)句塊及其識別算法[J];解放軍外國語學(xué)院學(xué)報;2004年01期
8 張繼東,劉萍;基于語料庫同義詞辨析的一般方法[J];解放軍外國語學(xué)院學(xué)報;2005年06期
9 馮志偉;;當(dāng)前自然語言處理發(fā)展的幾個特點[J];暨南大學(xué)華文學(xué)院學(xué)報;2006年01期
10 張璞,莊成三;XML查詢語言技術(shù)與實例分析[J];計算機應(yīng)用研究;2000年05期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 何婷婷;語料庫研究[D];華中師范大學(xué);2003年
本文關(guān)鍵詞:俄語現(xiàn)代標(biāo)注語料庫的理論與實踐,由筆耕文化傳播整理發(fā)布。
本文編號:371753
本文鏈接:http://sikaile.net/waiyulunwen/eyulunwen/371753.html