基于深度學(xué)習(xí)的漢語詞義消歧方法研究
本文關(guān)鍵詞:基于深度學(xué)習(xí)的漢語詞義消歧方法研究
更多相關(guān)文章: 詞義消歧 未登錄詞詞義預(yù)測 深度學(xué)習(xí) 序列標(biāo)注 詞向量
【摘要】:自然語言中一詞多義現(xiàn)象是普遍存在的。詞義消歧(word sense disambiguation,WSD)任務(wù)是依據(jù)上下文語境確定詞的詞義,詞義消歧任務(wù)可以直接影響機(jī)器翻譯(Machine Translation,MT)、信息檢索(Information Retrieval,IR)等任務(wù)的性能。本文在機(jī)器學(xué)習(xí)框架下研究漢語詞義消歧和未登錄詞詞義預(yù)測問題。具體而言,本文將從以下三個(gè)方面展開研究:(1)基于序列標(biāo)注的漢語詞義消歧。本文將詞義消歧任務(wù)形式化為序列標(biāo)注問題,研究不同序列標(biāo)注模型和不同特征的消歧性能。實(shí)驗(yàn)結(jié)果表明:融入五級(jí)標(biāo)注詞義特征的條件隨機(jī)場模型消歧效果較好。(2)基于詞向量的漢語詞義消歧。為了進(jìn)一步提高詞義消歧性能,本文嘗試將包含語義信息的詞向量融入詞義消歧中。一方面,利用上下文共現(xiàn)詞頻與句法依存信息縮減歧義詞詞義的候選數(shù)量,而后在神經(jīng)網(wǎng)絡(luò)模型下,通過計(jì)算學(xué)習(xí)獲得的詞義標(biāo)記向量與歧義詞向量的語義相似度確定詞義;另一方面,我們對(duì)最大熵模型進(jìn)行優(yōu)化,并通過確定性區(qū)別詞和語義相似度對(duì)語料進(jìn)行擴(kuò)展,以提高詞義消歧的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,利用擴(kuò)展語料在神經(jīng)網(wǎng)絡(luò)最大熵模型的消歧效果最佳。(3)基于詞向量的漢語未登錄詞的詞義預(yù)測。在詞義消歧的基礎(chǔ)之上,本文探索未登錄詞的詞義預(yù)測問題,分為兩個(gè)子問題:詞義候選構(gòu)造與詞義預(yù)測。在構(gòu)造詞義候選階段,本文分別采用基于詞性、內(nèi)部語素、語義相似度的方法以及多方法融合進(jìn)行構(gòu)造;在詞義預(yù)測階段,本文利用不同粒度的詞向量語義相似度對(duì)候選的詞義進(jìn)行預(yù)測。實(shí)驗(yàn)結(jié)果顯示:基于多方法融合的方法構(gòu)造未登錄詞的預(yù)測詞義效果最佳。
【關(guān)鍵詞】:詞義消歧 未登錄詞詞義預(yù)測 深度學(xué)習(xí) 序列標(biāo)注 詞向量
【學(xué)位授予單位】:黑龍江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1;TP181
【目錄】:
- 中文摘要4-5
- Abstract5-10
- 第1章 緒論10-20
- 1.1 研究背景和意義10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-16
- 1.2.1 詞義消歧研究現(xiàn)狀11-14
- 1.2.2 漢語詞義消歧研究現(xiàn)狀14-15
- 1.2.3 未登錄詞詞義預(yù)測研究現(xiàn)狀15-16
- 1.3 相關(guān)研究存在的主要問題16
- 1.4 本文主要研究內(nèi)容16-18
- 1.5 本文的組織安排18-20
- 第2章 基于序列標(biāo)注的漢語詞義消歧20-33
- 2.1 引言20
- 2.2 基于序列標(biāo)注的漢語詞義消歧任務(wù)描述20-21
- 2.3 詞義消歧的序列標(biāo)注模型21-23
- 2.3.1 基于最大熵模型的詞義消歧21-22
- 2.3.2 基于條件隨機(jī)場模型的詞義消歧22-23
- 2.4 詞義消歧特征23-28
- 2.4.1 詞形特征24
- 2.4.2 詞性特征24-25
- 2.4.3 詞義特征25-27
- 2.4.4 特征模板27-28
- 2.5 實(shí)驗(yàn)結(jié)果與分析28-32
- 2.5.1 語料庫來源及評(píng)價(jià)指標(biāo)28-29
- 2.5.2 基于最大熵模型的詞義消歧實(shí)驗(yàn)結(jié)果29-30
- 2.5.3 基于CRF模型的詞義消歧實(shí)驗(yàn)結(jié)果30
- 2.5.4 兩種模型的詞義消歧結(jié)果對(duì)比與分析30-32
- 2.6 本章小結(jié)32-33
- 第3章 基于詞向量的漢語詞義消歧33-52
- 3.1 引言33-34
- 3.2 基于語義相似度的詞義消歧34-39
- 3.2.1 基于語義相似度的詞義消歧框架34
- 3.2.2 歧義詞詞義候選的縮減34-37
- 3.2.3 詞向量的學(xué)習(xí)37-38
- 3.2.4 基于語義相似度的消歧38-39
- 3.3 基于神經(jīng)網(wǎng)絡(luò)最大熵模型的詞義消歧39-40
- 3.3.1 基于神經(jīng)網(wǎng)絡(luò)最大熵模型的消歧框架39
- 3.3.2 神經(jīng)網(wǎng)絡(luò)最大熵模型39-40
- 3.3.3 詞義消歧的特征40
- 3.4 詞義消歧語料的擴(kuò)展40-43
- 3.4.1 語料擴(kuò)展消歧框架40-41
- 3.4.2 語料擴(kuò)展原則41-43
- 3.5 實(shí)驗(yàn)結(jié)果與分析43-51
- 3.5.1 語料庫來源及評(píng)價(jià)指標(biāo)43
- 3.5.2 基線系統(tǒng)43-45
- 3.5.3 基于相似度的詞義消歧實(shí)驗(yàn)結(jié)果及分析45-47
- 3.5.4 基于神經(jīng)網(wǎng)絡(luò)最大熵模型的實(shí)驗(yàn)結(jié)果及分析47-51
- 3.6 本章小結(jié)51-52
- 第4章 基于詞向量的漢語未登錄詞詞義預(yù)測52-67
- 4.1 引言52-53
- 4.2 漢語未登錄詞的特點(diǎn)53-54
- 4.3 漢語未登錄詞詞義預(yù)測問題描述54-55
- 4.4 漢語未登錄詞詞義候選構(gòu)造55-59
- 4.4.1 基于詞性的詞義候選構(gòu)造55-56
- 4.4.2 基于語素的詞義候選構(gòu)造56-58
- 4.4.3 基于聚類的詞義候選構(gòu)造58-59
- 4.4.4 多方法融合的詞義候選構(gòu)造59
- 4.5 漢語未登錄詞詞義預(yù)測59-62
- 4.5.1 詞向量的學(xué)習(xí)60-62
- 4.5.2 基于語義相似度的詞義預(yù)測62
- 4.6 實(shí)驗(yàn)結(jié)果與分析62-66
- 4.6.1 實(shí)驗(yàn)數(shù)據(jù)與測評(píng)指標(biāo)62-63
- 4.6.2 詞義候選構(gòu)造實(shí)驗(yàn)結(jié)果63-64
- 4.6.3 詞義預(yù)測實(shí)驗(yàn)結(jié)果64-66
- 4.7 本章小結(jié)66-67
- 結(jié)論67-69
- 參考文獻(xiàn)69-74
- 致謝74-76
- 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文及參加的科研項(xiàng)目76
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 吳云芳;;詞義消歧相關(guān)術(shù)語簡介[J];術(shù)語標(biāo)準(zhǔn)化與信息技術(shù);2010年03期
2 金澎;;詞義消歧和詞義消歧評(píng)測簡介[J];術(shù)語標(biāo)準(zhǔn)化與信息技術(shù);2010年03期
3 于林林;魏琦;宋麗芳;;基于多種方法相融合的詞義消歧的研究[J];電腦知識(shí)與技術(shù);2010年33期
4 李生;張晶;趙鐵軍;姚建民;;詞義消歧研究的現(xiàn)狀與發(fā)展方向[J];計(jì)算機(jī)科學(xué);2001年09期
5 郭池 ,陳家駿 ,王啟祥;一種基于語料庫的詞義消歧策略[J];計(jì)算機(jī)工程與應(yīng)用;2003年35期
6 全昌勤,何婷婷,姬東鴻,劉輝;基于指示詞的詞義消歧方法[J];計(jì)算機(jī)工程;2005年16期
7 全昌勤,何婷婷,姬東鴻,劉輝;從搭配知識(shí)獲取最優(yōu)種子的詞義消歧方法[J];中文信息學(xué)報(bào);2005年01期
8 全昌勤,何婷婷,姬東鴻,劉輝;基于義類的無導(dǎo)詞義消歧方法的研究[J];計(jì)算機(jī)應(yīng)用研究;2005年04期
9 胡蓉;詞義消歧方法初探[J];洛陽工業(yè)高等?茖W(xué)校學(xué)報(bào);2005年01期
10 盧志茂;劉挺;李生;;統(tǒng)計(jì)詞義消歧的研究進(jìn)展[J];電子學(xué)報(bào);2006年02期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 曲維光;董宇;陳鐘;陳小荷;;基于語境計(jì)算模型的詞義消歧[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
2 郭宇航;車萬翔;劉挺;;基于語言模型驗(yàn)證的詞義消歧語料獲取[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C];2008年
3 秦穎;王小捷;;組合中文詞義消歧[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
4 王菁華;劉建毅;王樅;;語義網(wǎng)絡(luò)結(jié)構(gòu)下的詞義消歧[A];2006年首屆ICT大會(huì)信息、知識(shí)、智能及其轉(zhuǎn)換理論第一次高峰論壇會(huì)議論文集[C];2006年
5 張仰森;黃改娟;蘇文杰;;基于隱最大熵原理的漢語詞義消歧方法[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
6 于麗麗;丁德鑫;曲維光;陳小荷;石民;;基于多分類器集成的古代漢語詞義消歧[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
7 張?jiān)茲?龔玲;王永成;;基于語料庫的樸素貝葉斯方法的詞義消歧[A];2005年中國智能自動(dòng)化會(huì)議論文集[C];2005年
8 丁江偉;劉挺;盧志茂;李生;;隱馬爾可夫模型和貝葉斯模型詞義消歧對(duì)比研究[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
9 赫蘭光;王軒;李露;范士喜;;基于最大熵分類器的謂詞識(shí)別與詞義消歧[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
10 吳崇斌;張全;;上下文邊界可變的貝葉斯分類器詞義消歧方法[A];第五屆全國青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前9條
1 周云;基于統(tǒng)計(jì)學(xué)習(xí)的詞義消歧關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2014年
2 車超;知識(shí)自動(dòng)獲取的詞義消歧方法[D];大連理工大學(xué);2010年
3 陳俊鵬;詞義消歧中若干關(guān)鍵技術(shù)研究[D];武漢大學(xué);2012年
4 鹿文鵬;基于依存和領(lǐng)域知識(shí)的詞義消歧方法研究[D];北京理工大學(xué);2014年
5 王瑞琴;基于語義處理技術(shù)的信息檢索模型研究[D];浙江大學(xué);2009年
6 王菁華;文本中知識(shí)的獲取[D];北京郵電大學(xué);2008年
7 段建勇;多詞表達(dá)抽取及其應(yīng)用[D];上海交通大學(xué);2007年
8 李輝;移動(dòng)商務(wù)導(dǎo)購系統(tǒng)的研究[D];大連理工大學(xué);2008年
9 涂錕;基于自然語言與記憶再重構(gòu)的常識(shí)推理模型[D];華南理工大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 卞月峰;面向全文標(biāo)注的中文詞義消歧研究與實(shí)現(xiàn)[D];南京師范大學(xué);2015年
2 張振景;基于SVM的離合詞詞義消歧[D];河北大學(xué);2016年
3 張晶瑩;基于深度學(xué)習(xí)的漢語詞義消歧方法研究[D];黑龍江大學(xué);2016年
4 孫繼明;基于知網(wǎng)的漢語詞義消歧研究[D];國防科學(xué)技術(shù)大學(xué);2007年
5 但漢輝;一種漢語詞義消歧方法的研究[D];重慶大學(xué);2009年
6 孫廣慶;基于語義范疇擴(kuò)展的詞義消歧的研究[D];哈爾濱工程大學(xué);2008年
7 潘兆志;有監(jiān)督方法在詞義消歧中的應(yīng)用[D];蘇州大學(xué);2009年
8 于林林;基于知網(wǎng)的漢語詞義消歧方法的研究[D];沈陽航空工業(yè)學(xué)院;2008年
9 陳浩;基于二階上下文的無導(dǎo)詞義消歧研究[D];華中師范大學(xué);2005年
10 全昌勤;基于語料庫的漢語詞義消歧方法研究[D];華中師范大學(xué);2005年
,本文編號(hào):579147
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/579147.html