面向漢語辭書編纂的大型通用語料庫構建研究
發(fā)布時間:2017-11-24 22:02
本文關鍵詞:面向漢語辭書編纂的大型通用語料庫構建研究
【摘要】:本文通過對國外面向辭書編纂的語料庫成功經驗的學習,結合我國語言研究和辭書編纂的實際,選取適合我國語料庫建設的方法和途徑,制定出一個大型通用的語料庫建設方案。論文共分六章,各章節(jié)的內容安排如下: 第一章緒論。主要介紹了國內外語料庫建設的研究現(xiàn)狀,并明確了我們建設語料庫的意義和價值,以及研究方法和研究思路。國外對于語料庫建設早有研究,且已有較為豐富的理論成果和完整科學的系統(tǒng)結構;而我國對于語料庫建設的研究起步較晚,同時基本上還局限于專用型語料庫,適用范圍較小,只為特定詞典編纂服務。因而在我國詞典學領域急需一個面向漢語辭書編纂的大型通用語料庫。它有助于填補了漢語辭書理論的空白,推進中文信息處理的發(fā)展,提高辭書編纂的客觀性、準確性和科學性。 第二章面向漢語辭書編纂的大型通用語料庫的設計理念。在Chomsky的理性主義占主導地位的二十世紀中后期,語料庫研究方法深得人心。隨著WordNet、知網、FrameNet的成功建立,關于大型通用型語料庫的設計理念也浮出水面。我們要建立的面向漢語辭書編纂的大型通用語料庫的設計理念是大規(guī)模和多語體、深度加工和監(jiān)控語料庫。 第三章面向漢語辭書編纂的大型通用語料庫的語料采集。語料的采集是建設語料庫的一個重要環(huán)節(jié),我們先回顧了COBUILD語料庫、朗文語料庫網絡、英國國家語料庫、劍橋國際語料庫、Sinica語料庫五個語料庫在語料采集時的成功經驗,結合我國實際,明確了面向漢語辭書編纂的大型通用語料庫的語料采集分五種語體:口語、小說、新聞、雜志和學術期刊,每種體裁所占比例均為20%。各收7千萬字左右,計劃建成一個3.5億字左右的大型通用語料庫。 第四章面向漢語辭書編纂的大型通用語料庫的語料加工處理。我們采用XML格式將文本收錄進語料庫,對每篇文章的類別、來源、作者、出版時間、標題和正文內容這些信息加以標注。分詞系統(tǒng)選擇,,采用北京大學計算語言學研究所研制的漢語語料庫多機加工系統(tǒng);詞語切分與詞性標注,采用北京大學2003版詞語切分和詞性標注規(guī)范(俞士汶等,2003)的標準;詞法標注,采用最大匹配法;句法標注,采用邱立坤(2012)提出的依存句法的標注體系規(guī)范;語義標注,采用Mel’ uk等人創(chuàng)立的語義-篇章理論。 第五章面向漢語辭書編纂的大型通用語料庫的功能。管理功能、檢索功能、統(tǒng)計功能、詞義更新功能、輔助釋義功能。第六章結論。對本文的研究工作進行了總結,指出了進一步研究的方向。
【學位授予單位】:魯東大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:H16
【參考文獻】
中國期刊全文數據庫 前9條
1 陸汝占;漢語詞典編纂一體化環(huán)境(上)[J];辭書研究;2000年02期
2 王躍龍;姬東鴻;;漢語樹庫綜述[J];當代語言學;2009年01期
3 丁信善;語料庫語言學的發(fā)展及研究現(xiàn)狀[J];當代語言學;1998年01期
4 楊翼;李紹林;郭穎雯;田清源;;建立漢語學習者口語語料庫的基本設想[J];漢語學習;2006年03期
5 李斌;;中介語語料庫建設中的語言錯誤標注方法[J];暨南大學華文學院學報;2007年03期
6 俞士汶,段慧明,朱學鋒,孫斌;北京大學現(xiàn)代漢語語料庫基本加工規(guī)范[J];中文信息學報;2002年05期
7 蔡蓮紅;崔丹丹;蔡銳;;漢語普通話語音合成語料庫TH-CoSS的建設和分析[J];中文信息學報;2007年02期
8 劉耀;段慧明;王惠臨;周揚;王振國;李宏展;;中醫(yī)藥古文獻語料庫設計與開發(fā)研究[J];中文信息學報;2008年04期
9 趙守輝;劉永兵;;新加坡華族學前兒童口語語料庫的生成[J];世界漢語教學;2007年02期
本文編號:1223719
本文鏈接:http://sikaile.net/wenyilunwen/yuyanxuelw/1223719.html