基于深度學(xué)習(xí)的漢語詞義消歧方法研究

發(fā)布時(shí)間：2017-07-27 01:08

本文關(guān)鍵詞：基于深度學(xué)習(xí)的漢語詞義消歧方法研究

【摘要】：自然語言中一詞多義現(xiàn)象是普遍存在的。詞義消歧(word sense disambiguation,WSD)任務(wù)是依據(jù)上下文語境確定詞的詞義,詞義消歧任務(wù)可以直接影響機(jī)器翻譯(Machine Translation,MT)、信息檢索(Information Retrieval,IR)等任務(wù)的性能。本文在機(jī)器學(xué)習(xí)框架下研究漢語詞義消歧和未登錄詞詞義預(yù)測問題。具體而言,本文將從以下三個(gè)方面展開研究:(1)基于序列標(biāo)注的漢語詞義消歧。本文將詞義消歧任務(wù)形式化為序列標(biāo)注問題,研究不同序列標(biāo)注模型和不同特征的消歧性能。實(shí)驗(yàn)結(jié)果表明:融入五級(jí)標(biāo)注詞義特征的條件隨機(jī)場模型消歧效果較好。(2)基于詞向量的漢語詞義消歧。為了進(jìn)一步提高詞義消歧性能,本文嘗試將包含語義信息的詞向量融入詞義消歧中。一方面,利用上下文共現(xiàn)詞頻與句法依存信息縮減歧義詞詞義的候選數(shù)量,而后在神經(jīng)網(wǎng)絡(luò)模型下,通過計(jì)算學(xué)習(xí)獲得的詞義標(biāo)記向量與歧義詞向量的語義相似度確定詞義;另一方面,我們對(duì)最大熵模型進(jìn)行優(yōu)化,并通過確定性區(qū)別詞和語義相似度對(duì)語料進(jìn)行擴(kuò)展,以提高詞義消歧的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,利用擴(kuò)展語料在神經(jīng)網(wǎng)絡(luò)最大熵模型的消歧效果最佳。(3)基于詞向量的漢語未登錄詞的詞義預(yù)測。在詞義消歧的基礎(chǔ)之上,本文探索未登錄詞的詞義預(yù)測問題,分為兩個(gè)子問題:詞義候選構(gòu)造與詞義預(yù)測。在構(gòu)造詞義候選階段,本文分別采用基于詞性、內(nèi)部語素、語義相似度的方法以及多方法融合進(jìn)行構(gòu)造;在詞義預(yù)測階段,本文利用不同粒度的詞向量語義相似度對(duì)候選的詞義進(jìn)行預(yù)測。實(shí)驗(yàn)結(jié)果顯示:基于多方法融合的方法構(gòu)造未登錄詞的預(yù)測詞義效果最佳。
【關(guān)鍵詞】：詞義消歧 未登錄詞詞義預(yù)測 深度學(xué)習(xí) 序列標(biāo)注 詞向量
【學(xué)位授予單位】：黑龍江大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2016
【分類號(hào)】：TP391.1;TP181
【目錄】：

中文摘要4-5
Abstract5-10
第1章緒論10-20
1.1 研究背景和意義10-11
1.2 國內(nèi)外研究現(xiàn)狀11-16
1.2.1 詞義消歧研究現(xiàn)狀11-14
1.2.2 漢語詞義消歧研究現(xiàn)狀14-15
1.2.3 未登錄詞詞義預(yù)測研究現(xiàn)狀15-16
1.3 相關(guān)研究存在的主要問題16
1.4 本文主要研究內(nèi)容16-18
1.5 本文的組織安排18-20
第2章基于序列標(biāo)注的漢語詞義消歧20-33
2.1 引言20
2.2 基于序列標(biāo)注的漢語詞義消歧任務(wù)描述20-21
2.3 詞義消歧的序列標(biāo)注模型21-23
2.3.1 基于最大熵模型的詞義消歧21-22
2.3.2 基于條件隨機(jī)場模型的詞義消歧22-23
2.4 詞義消歧特征23-28
2.4.1 詞形特征24
2.4.2 詞性特征24-25
2.4.3 詞義特征25-27
2.4.4 特征模板27-28
2.5 實(shí)驗(yàn)結(jié)果與分析28-32
2.5.1 語料庫來源及評(píng)價(jià)指標(biāo)28-29
2.5.2 基于最大熵模型的詞義消歧實(shí)驗(yàn)結(jié)果29-30
2.5.3 基于CRF模型的詞義消歧實(shí)驗(yàn)結(jié)果30
2.5.4 兩種模型的詞義消歧結(jié)果對(duì)比與分析30-32
2.6 本章小結(jié)32-33
第3章基于詞向量的漢語詞義消歧33-52
3.1 引言33-34
3.2 基于語義相似度的詞義消歧34-39
3.2.1 基于語義相似度的詞義消歧框架34
3.2.2 歧義詞詞義候選的縮減34-37
3.2.3 詞向量的學(xué)習(xí)37-38
3.2.4 基于語義相似度的消歧38-39
3.3 基于神經(jīng)網(wǎng)絡(luò)最大熵模型的詞義消歧39-40
3.3.1 基于神經(jīng)網(wǎng)絡(luò)最大熵模型的消歧框架39
3.3.2 神經(jīng)網(wǎng)絡(luò)最大熵模型39-40
3.3.3 詞義消歧的特征40
3.4 詞義消歧語料的擴(kuò)展40-43
3.4.1 語料擴(kuò)展消歧框架40-41
3.4.2 語料擴(kuò)展原則41-43
3.5 實(shí)驗(yàn)結(jié)果與分析43-51
3.5.1 語料庫來源及評(píng)價(jià)指標(biāo)43
3.5.2 基線系統(tǒng)43-45
3.5.3 基于相似度的詞義消歧實(shí)驗(yàn)結(jié)果及分析45-47
3.5.4 基于神經(jīng)網(wǎng)絡(luò)最大熵模型的實(shí)驗(yàn)結(jié)果及分析47-51
3.6 本章小結(jié)51-52
第4章基于詞向量的漢語未登錄詞詞義預(yù)測52-67
4.1 引言52-53
4.2 漢語未登錄詞的特點(diǎn)53-54
4.3 漢語未登錄詞詞義預(yù)測問題描述54-55
4.4 漢語未登錄詞詞義候選構(gòu)造55-59
4.4.1 基于詞性的詞義候選構(gòu)造55-56
4.4.2 基于語素的詞義候選構(gòu)造56-58
4.4.3 基于聚類的詞義候選構(gòu)造58-59
4.4.4 多方法融合的詞義候選構(gòu)造59
4.5 漢語未登錄詞詞義預(yù)測59-62
4.5.1 詞向量的學(xué)習(xí)60-62
4.5.2 基于語義相似度的詞義預(yù)測62
4.6 實(shí)驗(yàn)結(jié)果與分析62-66
4.6.1 實(shí)驗(yàn)數(shù)據(jù)與測評(píng)指標(biāo)62-63
4.6.2 詞義候選構(gòu)造實(shí)驗(yàn)結(jié)果63-64
4.6.3 詞義預(yù)測實(shí)驗(yàn)結(jié)果64-66
4.7 本章小結(jié)66-67
結(jié)論67-69
參考文獻(xiàn)69-74
致謝74-76
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文及參加的科研項(xiàng)目76

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 吳云芳;;詞義消歧相關(guān)術(shù)語簡介[J];術(shù)語標(biāo)準(zhǔn)化與信息技術(shù);2010年03期

2 金澎;;詞義消歧和詞義消歧評(píng)測簡介[J];術(shù)語標(biāo)準(zhǔn)化與信息技術(shù);2010年03期

3 于林林;魏琦;宋麗芳;;基于多種方法相融合的詞義消歧的研究[J];電腦知識(shí)與技術(shù);2010年33期

4 李生;張晶;趙鐵軍;姚建民;;詞義消歧研究的現(xiàn)狀與發(fā)展方向[J];計(jì)算機(jī)科學(xué);2001年09期

5 郭池 ,陳家駿 ,王啟祥;一種基于語料庫的詞義消歧策略[J];計(jì)算機(jī)工程與應(yīng)用;2003年35期

6 全昌勤,何婷婷,姬東鴻,劉輝;基于指示詞的詞義消歧方法[J];計(jì)算機(jī)工程;2005年16期

7 全昌勤,何婷婷,姬東鴻,劉輝;從搭配知識(shí)獲取最優(yōu)種子的詞義消歧方法[J];中文信息學(xué)報(bào);2005年01期

8 全昌勤,何婷婷,姬東鴻,劉輝;基于義類的無導(dǎo)詞義消歧方法的研究[J];計(jì)算機(jī)應(yīng)用研究;2005年04期

9 胡蓉;詞義消歧方法初探[J];洛陽工業(yè)高等�？茖W(xué)校學(xué)報(bào);2005年01期

10 盧志茂;劉挺;李生;;統(tǒng)計(jì)詞義消歧的研究進(jìn)展[J];電子學(xué)報(bào);2006年02期

中國重要會(huì)議論文全文數(shù)據(jù)庫前10條

1 曲維光;董宇;陳鐘;陳小荷;;基于語境計(jì)算模型的詞義消歧[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議（JSCL-2005）論文集[C];2005年

2 郭宇航;車萬翔;劉挺;;基于語言模型驗(yàn)證的詞義消歧語料獲取[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C];2008年

3 秦穎;王小捷;;組合中文詞義消歧[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議（JSCL-2005）論文集[C];2005年

4 王菁華;劉建毅;王樅;;語義網(wǎng)絡(luò)結(jié)構(gòu)下的詞義消歧[A];2006年首屆ICT大會(huì)信息、知識(shí)、智能及其轉(zhuǎn)換理論第一次高峰論壇會(huì)議論文集[C];2006年

5 張仰森;黃改娟;蘇文杰;;基于隱最大熵原理的漢語詞義消歧方法[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展（2009-2011）[C];2011年

6 于麗麗;丁德鑫;曲維光;陳小荷;石民;;基于多分類器集成的古代漢語詞義消歧[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展（2007-2009）[C];2009年

7 張?jiān)茲?龔玲;王永成;;基于語料庫的樸素貝葉斯方法的詞義消歧[A];2005年中國智能自動(dòng)化會(huì)議論文集[C];2005年

8 丁江偉;劉挺;盧志茂;李生;;隱馬爾可夫模型和貝葉斯模型詞義消歧對(duì)比研究[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

9 赫蘭光;王軒;李露;范士喜;;基于最大熵分類器的謂詞識(shí)別與詞義消歧[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集（上）[C];2008年

10 吳崇斌;張全;;上下文邊界可變的貝葉斯分類器詞義消歧方法[A];第五屆全國青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年

中國博士學(xué)位論文全文數(shù)據(jù)庫前9條

1 周云;基于統(tǒng)計(jì)學(xué)習(xí)的詞義消歧關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2014年

2 車超;知識(shí)自動(dòng)獲取的詞義消歧方法[D];大連理工大學(xué);2010年

3 陳俊鵬;詞義消歧中若干關(guān)鍵技術(shù)研究[D];武漢大學(xué);2012年

4 鹿文鵬;基于依存和領(lǐng)域知識(shí)的詞義消歧方法研究[D];北京理工大學(xué);2014年

5 王瑞琴;基于語義處理技術(shù)的信息檢索模型研究[D];浙江大學(xué);2009年

6 王菁華;文本中知識(shí)的獲取[D];北京郵電大學(xué);2008年

7 段建勇;多詞表達(dá)抽取及其應(yīng)用[D];上海交通大學(xué);2007年

8 李輝;移動(dòng)商務(wù)導(dǎo)購系統(tǒng)的研究[D];大連理工大學(xué);2008年

9 涂錕;基于自然語言與記憶再重構(gòu)的常識(shí)推理模型[D];華南理工大學(xué);2010年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 卞月峰;面向全文標(biāo)注的中文詞義消歧研究與實(shí)現(xiàn)[D];南京師范大學(xué);2015年

2 張振景;基于SVM的離合詞詞義消歧[D];河北大學(xué);2016年

3 張晶瑩;基于深度學(xué)習(xí)的漢語詞義消歧方法研究[D];黑龍江大學(xué);2016年

4 孫繼明;基于知網(wǎng)的漢語詞義消歧研究[D];國防科學(xué)技術(shù)大學(xué);2007年

5 但漢輝;一種漢語詞義消歧方法的研究[D];重慶大學(xué);2009年

6 孫廣慶;基于語義范疇擴(kuò)展的詞義消歧的研究[D];哈爾濱工程大學(xué);2008年

7 潘兆志;有監(jiān)督方法在詞義消歧中的應(yīng)用[D];蘇州大學(xué);2009年

8 于林林;基于知網(wǎng)的漢語詞義消歧方法的研究[D];沈陽航空工業(yè)學(xué)院;2008年

9 陳浩;基于二階上下文的無導(dǎo)詞義消歧研究[D];華中師范大學(xué);2005年

10 全昌勤;基于語料庫的漢語詞義消歧方法研究[D];華中師范大學(xué);2005年

，

本文編號(hào)：579147

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/579147.html

上一篇：基于CANopen的機(jī)械臂控制系統(tǒng)研究
下一篇：基于PLC的泥沙輸送實(shí)驗(yàn)平臺(tái)冗余控制系統(tǒng)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的漢語詞義消歧方法研究