基于蒙古語影視劇語料庫的話語標(biāo)記研究
本文關(guān)鍵詞: 蒙古語話語標(biāo)記 蒙古語影視劇語料庫 語用功能 自動(dòng)標(biāo)注 出處:《內(nèi)蒙古大學(xué)》2012年博士論文 論文類型:學(xué)位論文
【摘要】:蒙古語話語標(biāo)記是處于句子之外表達(dá)程序意義,能對話語的理解起到引導(dǎo)作用的詞、短語和習(xí)慣表達(dá)式。它們形式多樣,功能復(fù)雜,從而影響句法分析的效果。因此,對蒙古語話語標(biāo)記進(jìn)行研究有著重要的理論意義和實(shí)踐價(jià)值。本文主要研究的內(nèi)容有: 1)蒙古語話語標(biāo)記的界定和分類 蒙古語話語標(biāo)記是一個(gè)復(fù)雜的語言現(xiàn)象,對它的界定和分類問題需要多層次、多角度的研究和分析。本文根據(jù)句法的可分離性、語義的程序性、功能的元語用性,總結(jié)出蒙古語話語標(biāo)記的特征,把蒙古語話語標(biāo)記分為14類,并對每一類話語標(biāo)記的語用功能進(jìn)行了說明。 2)蒙古語影視劇語料庫的構(gòu)建 如何構(gòu)建蒙古語影視劇語料庫直接影響到話語標(biāo)記的研究價(jià)值,它反映了在其基礎(chǔ)上開展的研究是否具有合理性和可靠性。在這方面,本文圍繞與語料庫構(gòu)建密切相關(guān)的語料庫設(shè)計(jì)、語料收集、語料的組織結(jié)構(gòu)等問題進(jìn)行了研究。蒙古語影視劇語料庫的設(shè)計(jì)方面介紹了建庫的目的和思路;語料的收集方面,圍繞語料的代表性和平衡性問題,對語料的分類和比例、分布和樣本的選取、語料的流通度等進(jìn)行了探討;語料組織方面,對語料的存儲(chǔ)格式、數(shù)據(jù)信息和軟件工具進(jìn)行了介紹。 3)蒙古語話語標(biāo)記的自動(dòng)標(biāo)注和實(shí)驗(yàn)分析 本研究旨在提高句法分析的準(zhǔn)確率以及為篇章分析提供連貫性顯化信息,對蒙古語影視劇語料庫中出現(xiàn)的話語標(biāo)記進(jìn)行語用功能的自動(dòng)標(biāo)注。本文在蒙古語話語標(biāo)記語用功能分類基礎(chǔ)上,制定了蒙古語話語標(biāo)記自動(dòng)識(shí)別規(guī)則,開發(fā)了蒙古語話語標(biāo)記標(biāo)注系統(tǒng)。第一,根據(jù)話語標(biāo)記的形式特征,經(jīng)過運(yùn)算和推導(dǎo)獲得話語標(biāo)記的詞法結(jié)構(gòu)信息。第二,從語料庫中人工篩選出話語標(biāo)記,將它們存入基本詞表,對其語用功能給出相應(yīng)的代碼,建立符合每一類話語標(biāo)記特征的標(biāo)注規(guī)則。第三,根據(jù)規(guī)則開發(fā)話語標(biāo)記自動(dòng)標(biāo)注系統(tǒng),對影視劇語料庫中的話語標(biāo)記進(jìn)行自動(dòng)標(biāo)注。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)對30萬詞級(jí)影視劇語料庫進(jìn)行標(biāo)注后,召回率為54.26%,準(zhǔn)確率為85.58%。 4)存在的問題和解決方案 就測試結(jié)果來看,召回率和準(zhǔn)確率都不是很高,究其原因,主要有以下幾方面。第一,規(guī)則對兼類話語標(biāo)記的識(shí)別率不高。第二,由于受語料內(nèi)容、題材、規(guī)模等方面的限制,話語標(biāo)記的出現(xiàn)頻率影響了話語標(biāo)記的召回率。第三,不符合語言事實(shí)的垃圾字串,影響話語標(biāo)記的召回率。第四,蒙古語影視劇語料庫的加工程度嚴(yán)重制約了蒙古語話語標(biāo)記自動(dòng)標(biāo)注的準(zhǔn)確率。 針對上述問題,我們在后續(xù)工作中,準(zhǔn)備從以下幾方面對系統(tǒng)進(jìn)行改進(jìn)和完善。首先,擴(kuò)充訓(xùn)練集的語料規(guī)模,使語料庫更為貼近語言事實(shí)。其次,完善機(jī)器詞典,增加信息含量。最后,在基于規(guī)則的算法上加入統(tǒng)計(jì)模型。 綜上所述,本文在話語標(biāo)記相關(guān)理論和實(shí)踐方面的研究成果上,以蒙古語影視劇語料庫中的話語標(biāo)記為研究對象,對蒙古語話語標(biāo)記的界定和分類、蒙古語話語標(biāo)記的自動(dòng)標(biāo)注和實(shí)驗(yàn)分析以及存在的問題和解決方案等問題進(jìn)行了研究。 全文共分為五章。第一章介紹了國內(nèi)外話語標(biāo)記的相關(guān)理論和實(shí)踐方面的研究成果,以及本研究的方法、意義以及創(chuàng)新點(diǎn)。第二章主要對蒙古語話語標(biāo)記的涵義、存在動(dòng)因和形成條件、蒙古語話語標(biāo)記的語用功能分類體系等相關(guān)問題進(jìn)行了探討。第三章針對蒙古語影視劇語料庫的設(shè)計(jì)、代表性和平衡性、語料庫的組織結(jié)構(gòu)等問題進(jìn)行了研究。第四章在蒙古語話語標(biāo)記語用功能分類基礎(chǔ)上,開發(fā)了蒙古語話語標(biāo)記標(biāo)注系統(tǒng)并提取了實(shí)驗(yàn)數(shù)據(jù)。第五章對全文進(jìn)行了概括總結(jié)后指出了本研究的不足,同時(shí)對今后的工作指明了方向。
[Abstract]:Mongolian discourse markers are words , phrases and customary expressions which are in the meaning of sentence outside the sentence and can guide the comprehension of discourse . They are varied in shape and function , thus affecting the effect of syntactic analysis . Therefore , the study of Mongolian discourse markers has important theoretical significance and practical value . The main research contents are as follows : 1 ) Definition and classification of Mongolian discourse markers Mongolian discourse markers are a complex language phenomenon , which requires multi - level and multi - angle research and analysis of its definition and classification problems . This paper summarizes the features of Mongolian discourse markers , classifies the Mongolian discourse markers into 14 classes , and explains the pragmatic functions of each type of discourse marker . 2 ) Construction of Mongolian Film and TV Play Corpus In this paper , the author introduces the design of corpus , the collection of corpus and the organization structure of corpus . In this regard , the author introduces the design of corpus , the collection of corpus and the organization structure of corpus . 3 ) Automatic labeling and experimental analysis of Mongolian discourse markers The purpose of this study is to improve the accuracy of syntactic analysis and to provide coherent visualization information for discourse analysis . 4 ) Existing problems and solutions On the basis of the test results , the recall rate and accuracy rate are not very high , the reasons are mainly the following aspects . First , the rules are not high in recognition rate of word marks . Second , due to the limitation of the content , subject , scale and so on , the appearance frequency of the discourse marker affects the recall rate of the discourse marker . Third , the garbage string which does not meet the language facts affects the recall rate of the discourse marker . Fourth , the processing degree of the Mongolian video and television drama corpus seriously restricts the accuracy rate of the automatic labeling of the Mongolian discourse markers . In order to solve the above problems , we are ready to improve and perfect the system from the following aspects . First , expand the corpus of training set , make corpus more close to the language facts . Secondly , perfect the machine dictionary and increase the information content . Finally , add the statistical model to the rule - based algorithm . In conclusion , this paper studies the definition and classification of Mongolian discourse markers , the automatic labeling and experimental analysis of Mongolian discourse markers and the problems and solutions of Mongolian discourse markers in the research of discourse markers related theories and practices . Chapter One introduces the research results of the relevant theories and practices of the discourse markers at home and abroad , and the methods , significance and innovation points of this research . Chapter Three focuses on the design , representation and formation conditions of Mongolian discourse markers , the organization structure of Mongolian discourse markers and so on .
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2012
【分類號(hào)】:H212
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 黃大網(wǎng);《語用學(xué)》雜志話語標(biāo)記專輯(1998)介紹[J];當(dāng)代語言學(xué);2001年02期
2 王躍龍;姬東鴻;;漢語樹庫綜述[J];當(dāng)代語言學(xué);2009年01期
3 黃大網(wǎng);話語標(biāo)記研究綜述[J];福建外語;2001年01期
4 何自然,莫愛屏;話語標(biāo)記語與語用照應(yīng)[J];廣東外語外貿(mào)大學(xué)學(xué)報(bào);2002年01期
5 李勇忠,李春華;話語標(biāo)記與語用推理[J];國外外語教學(xué);2004年04期
6 于國棟,吳亞欣;話語標(biāo)記語的順應(yīng)性解釋[J];解放軍外國語學(xué)院學(xué)報(bào);2003年01期
7 馮志偉;自然語言處理的學(xué)科定位[J];解放軍外國語學(xué)院學(xué)報(bào);2005年03期
8 安娜,劉海濤,侯敏;語料庫中熟語的標(biāo)記問題[J];中文信息學(xué)報(bào);2004年01期
9 周強(qiáng);漢語句法樹庫標(biāo)注體系[J];中文信息學(xué)報(bào);2004年04期
10 雪艷;;關(guān)于用XML語言組織蒙古語語料庫的設(shè)想[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版);2006年01期
相關(guān)博士學(xué)位論文 前4條
1 斯·勞格勞;現(xiàn)代蒙古語依存句法自動(dòng)分析研究[D];內(nèi)蒙古大學(xué);2011年
2 何婷婷;語料庫研究[D];華中師范大學(xué);2003年
3 劉麗艷;口語交際中的話語標(biāo)記[D];浙江大學(xué);2005年
4 林八鴿;《蒙古語連接形式知識(shí)庫》的建設(shè)[D];內(nèi)蒙古大學(xué);2009年
,本文編號(hào):1514834
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/1514834.html