基于統(tǒng)計的漢語縮略語還原方法研究與實現(xiàn)
本文關(guān)鍵詞:基于統(tǒng)計的漢語縮略語還原方法研究與實現(xiàn)
更多相關(guān)文章: 漢語縮略語還原 語言模型 機(jī)器翻譯模型 語義相似度 詞向量
【摘要】:伴隨著生活步伐的加快,出于簡潔方便的經(jīng)濟(jì)原則,人們在表達(dá)時越來越多地使用縮略語。然而,縮略語的使用在給人們帶來便利的同時也給許多領(lǐng)域帶來了不便。比如在進(jìn)行信息抽取時,縮略語作為噪聲會降低抽取結(jié)果;在進(jìn)行機(jī)器翻譯時,縮略語的存在會對翻譯結(jié)果的準(zhǔn)確性造成不良的影響,等等。因此,如何準(zhǔn)確地還原漢語縮略語已成為自然語言處理相關(guān)研究面臨的重要挑戰(zhàn)。本文在以新聞?wù)Z料為基礎(chǔ)深入分析漢語縮略語特點基礎(chǔ)上,分別采用N元語法模型、統(tǒng)計機(jī)器翻譯模型和語義相似度方法探索漢語縮略語的還原問題。具體地,本文從以下兩個方面展開研究:(1)基于N-gram、基于機(jī)器翻譯模型的漢語縮略語還原。基于N-gram的縮略語還原通過構(gòu)建縮略語還原知識庫構(gòu)造縮略語還原候選集,在N元語法模型的框架下,對縮略語還原候選集進(jìn)行語言解碼,獲得還原結(jié)果;基于機(jī)器翻譯模型的漢語縮略語還原,通過構(gòu)建基于詞對齊、基于短語對齊的機(jī)器翻譯模型,利用Moses獲得含有縮略語完整形式的目標(biāo)語言。實驗結(jié)果表明,基于短語對齊的機(jī)器翻譯模型具有更好的還原性能。(2)基于語義相似度的漢語縮略語還原:本文提出從語義角度出發(fā),使用語義特征完成漢語縮略語的還原工作。首先,利用詞嵌入模型從大量未標(biāo)注的新聞文本中無監(jiān)督地學(xué)習(xí)出詞向量。然后,獲取還原候選及其上下文的詞向量。最后,通過計算語義相似度選取最佳還原候選,實現(xiàn)漢語縮略語的還原工作。同時,我們還利用語言模型和語義相似度結(jié)合的方法對縮略語進(jìn)行還原。實驗結(jié)果表明,基于N-gram結(jié)合詞向量的語義相似度方法可以有效解決漢語縮略語還原問題。
【關(guān)鍵詞】:漢語縮略語還原 語言模型 機(jī)器翻譯模型 語義相似度 詞向量
【學(xué)位授予單位】:黑龍江大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 中文摘要4-5
- Abstract5-10
- 第1章 緒論10-20
- 1.1 研究目的和意義10-11
- 1.2 英文縮略語研究現(xiàn)狀11-13
- 1.3 漢語縮略語研究現(xiàn)狀13-17
- 1.3.1 漢語縮略語知識庫構(gòu)建研究現(xiàn)狀13-14
- 1.3.2 漢語縮略語識別研究現(xiàn)狀14-15
- 1.3.3 漢語縮略語還原研究現(xiàn)狀15-17
- 1.3.4 漢語縮略語還原研究存在的主要問題17
- 1.4 本文主要研究內(nèi)容17-18
- 1.5 本文的組織安排18-20
- 第2章 漢語縮略語語料庫及知識庫構(gòu)建20-26
- 2.1 引言20
- 2.2 新聞媒體文本特點20-21
- 2.3 漢語縮略語分類21-22
- 2.4 縮略語擴(kuò)展語料庫22-24
- 2.5 縮略語知識庫構(gòu)建24-25
- 2.6 本章小結(jié)25-26
- 第3章 基于N-gram和機(jī)器翻譯的漢語縮略語還原26-42
- 3.1 引言26
- 3.2 基于N-gram的漢語縮略語還原26-36
- 3.2.1 縮略語還原候選構(gòu)造27-31
- 3.2.2 縮略語還原語言解碼31-36
- 3.3 基于機(jī)器翻譯的漢語縮略語還原36-38
- 3.3.1 基于詞的對齊語料構(gòu)建37
- 3.3.2 基于短語的對齊語料構(gòu)建37-38
- 3.4 實驗結(jié)果與分析38-40
- 3.4.1 實驗數(shù)據(jù)和評價指標(biāo)38
- 3.4.2 模型訓(xùn)練工具38-39
- 3.4.3 縮略語還原候選構(gòu)造對還原性能的影響39-40
- 3.4.4 漢語縮略語還原實驗結(jié)果40
- 3.5 本章小結(jié)40-42
- 第4章 基于語義相似度的漢語縮略語還原42-56
- 4.1 引言42-43
- 4.2 基于語義相似度的漢語縮略語還原任務(wù)描述43-44
- 4.3 還原候選的詞向量模型44-45
- 4.3.1 詞向量模型44
- 4.3.2 還原候選及縮略語上下文的詞向量表示44-45
- 4.4 縮略語還原語義相似度計算45-46
- 4.5 語義相似度和N-gram相結(jié)合的漢語縮略語還原46-48
- 4.5.1 基于N-gram結(jié)合語義相似度的漢語縮略語還原46-47
- 4.5.2 基于語義相似度結(jié)合N-gram的漢語縮略語還原47-48
- 4.6 實驗結(jié)果與分析48-55
- 4.6.1 實驗設(shè)置48-49
- 4.6.2 系統(tǒng)參數(shù)49
- 4.6.3 基于語義相似度的實驗結(jié)果與分析49-52
- 4.6.4 N-gram結(jié)合語義相似度的實驗結(jié)果與分析52-54
- 4.6.5 語義相似度結(jié)合N-gram的漢語縮略語還原54-55
- 4.6.6 基于N-gram和語義相似度的漢語縮略語還原性能對比55
- 4.7 本章小結(jié)55-56
- 結(jié)論56-58
- 參考文獻(xiàn)58-62
- 致謝62-63
- 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文及參加的科研項目63
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 胡艷波;崔新春;路青;;2002~2011年國內(nèi)語義相似度研究計量分析[J];情報科學(xué);2013年07期
2 王家琴;李仁發(fā);李仲生;唐劍波;;一種基于本體的概念語義相似度方法的研究[J];計算機(jī)工程;2007年11期
3 劉俊;;基于語義相似度的關(guān)鍵詞生成在企業(yè)搜索引擎營銷中應(yīng)用[J];電腦知識與技術(shù);2008年14期
4 宗裕朋;吳剛;;一種基于上下文的語義相似度算法[J];微計算機(jī)信息;2008年30期
5 劉春辰;劉大有;王生生;趙靜濱;王兆丹;;改進(jìn)的語義相似度計算模型及應(yīng)用[J];吉林大學(xué)學(xué)報(工學(xué)版);2009年01期
6 徐猛;劉宗田;周文;;一種基于知網(wǎng)語義相似度計算的應(yīng)用研究[J];微計算機(jī)信息;2010年03期
7 孫海霞;錢慶;成穎;;基于本體的語義相似度計算方法研究綜述[J];現(xiàn)代圖書情報技術(shù);2010年01期
8 魏椺;向陽;陳千;;計算術(shù)語間語義相似度的混合方法[J];計算機(jī)應(yīng)用;2010年06期
9 馬續(xù)補(bǔ);郭菊娥;;基于《知網(wǎng)》語義相似度的企業(yè)事實主題診斷研究[J];情報雜志;2010年05期
10 魏凱斌;冉延平;余牛;;語義相似度的計算方法研究與分析[J];計算機(jī)技術(shù)與發(fā)展;2010年07期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 關(guān)毅;王曉龍;;基于統(tǒng)計的漢語詞匯間語義相似度計算[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
2 李月雷;師瑞峰;林麗冰;周一民;;漢語語句語義相似度的計算方法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
3 馮新元;魏建國;路文煥;黨建武;;引入領(lǐng)域知識的基于《知網(wǎng)》詞語語義相似度計算[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年
4 章成志;;詞語的語義相似度計算及其應(yīng)用研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
5 劉寒磊;關(guān)毅;徐永東;;多文檔文摘中基于語義相似度的最大邊緣相關(guān)技術(shù)研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
6 石靜;邱立坤;王菲;吳云芳;;相似詞獲取的集成方法[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
7 陳明;鹿e,
本文編號:657569
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/657569.html