輔助古詩詞研究的唐詩語料庫的構(gòu)建
發(fā)布時(shí)間:2017-03-24 19:10
本文關(guān)鍵詞:輔助古詩詞研究的唐詩語料庫的構(gòu)建,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著自然語言處理技術(shù)的研究不斷深入,利用計(jì)算機(jī)來處理中國古代文學(xué)經(jīng)典在國內(nèi)受到了越來越多的關(guān)注。這些方面的研究都依賴于以機(jī)器學(xué)習(xí)為基礎(chǔ)的語料庫數(shù)據(jù)驅(qū)動。由于實(shí)際情況的需要,大多語料庫都是基于現(xiàn)代漢語語言的,對于古代文學(xué)方面帶有標(biāo)注的語料庫資源匱乏,所以建立專有的輔助古代文學(xué)研究的語料庫尤為重要。本文以《全唐詩》作為標(biāo)注對象,通過使用自然語言處理技術(shù),結(jié)合唐詩句法、格律等特點(diǎn),構(gòu)建了一個(gè)全唐詩分詞及詞性標(biāo)注語料庫系統(tǒng),并實(shí)現(xiàn)了人工校對的功能。文章首先分析了唐詩的特有性質(zhì),建立了相關(guān)知識庫,并且利用詞頻、互信息和共現(xiàn)度等參數(shù)來建立全唐詩二字詞表。然后結(jié)合句法和格律特點(diǎn)對唐詩進(jìn)行切分。最后使用了隱馬爾可夫鏈進(jìn)行了詞性標(biāo)注。在此基礎(chǔ)上,詳細(xì)闡述了建立輔助古詩詞研究的唐詩語料庫系統(tǒng)的構(gòu)建過程,并通過構(gòu)建全唐詩系統(tǒng)進(jìn)行語料庫輔助實(shí)驗(yàn)。最后對語料庫切分和標(biāo)注的結(jié)果進(jìn)行了分析和總結(jié)。
【關(guān)鍵詞】:唐詩語料庫 統(tǒng)計(jì)抽詞 人工校對 全唐詩標(biāo)注
【學(xué)位授予單位】:河北大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:I207.22;TP391.1
【目錄】:
- 摘要5-6
- Abstract6-9
- 第1章 引言9-15
- 1.1 研究背景及意義9
- 1.2 國內(nèi)外研究現(xiàn)狀9-13
- 1.3 主要研究內(nèi)容及工作13
- 1.4 論文組織結(jié)構(gòu)13-15
- 第2章 全唐詩二字詞表和相關(guān)知識庫的構(gòu)建15-25
- 2.1 全唐詩二字詞表的構(gòu)建15-22
- 2.1.1 全唐詩語料庫抽詞中 詞‖的界定15
- 2.1.2 典型詞的提取方法15-16
- 2.1.3 基于互信息模型的抽詞方法16-19
- 2.1.4 二字詞表的構(gòu)建19-22
- 2.2 全唐詩相關(guān)知識庫的構(gòu)建22-25
- 第3章 全唐詩語料庫的構(gòu)建25-38
- 3.1 全唐詩詞的特點(diǎn)25-29
- 3.1.1 全唐詩副詞構(gòu)詞特點(diǎn)25-27
- 3.1.2 全唐詩詞語形態(tài)特征27-28
- 3.1.3 全唐詩中詞性的轉(zhuǎn)化類型28-29
- 3.2 特殊復(fù)合詞判別標(biāo)注規(guī)則29-30
- 3.3 詞性標(biāo)注方法30-31
- 3.4 全唐詩切分標(biāo)注語料庫的構(gòu)建31-38
- 3.4.1 熟語料庫切分標(biāo)注規(guī)則設(shè)計(jì)32-35
- 3.4.2 詩體的判別35
- 3.4.3 音韻標(biāo)注35-38
- 第4章 實(shí)驗(yàn)結(jié)果與分析38-47
- 4.1 系統(tǒng)設(shè)計(jì)38-44
- 4.1.1 系統(tǒng)的開發(fā)環(huán)境與語料規(guī)模38-39
- 4.1.2 系統(tǒng)功能39-44
- 4.2 實(shí)驗(yàn)結(jié)果44-47
- 4.2.1 切分結(jié)果與分析45-46
- 4.2.2 標(biāo)注結(jié)果分析46-47
- 第5章 總結(jié)與展望47-49
- 5.1 工作總結(jié)47
- 5.2 后續(xù)工作展望47-49
- 參考文獻(xiàn)49-52
- 致謝52
本文關(guān)鍵詞:輔助古詩詞研究的唐詩語料庫的構(gòu)建,,由筆耕文化傳播整理發(fā)布。
本文編號:266040
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/266040.html
最近更新
教材專著