基于深度學(xué)習(xí)的半監(jiān)督式命名實(shí)體識(shí)別
發(fā)布時(shí)間:2021-01-10 18:08
命名實(shí)體識(shí)別是自然語(yǔ)言處理的一項(xiàng)基礎(chǔ)任務(wù),也是機(jī)器翻譯、智能問(wèn)答、知識(shí)圖譜等相關(guān)領(lǐng)域的底層技術(shù)。深度學(xué)習(xí)技術(shù)因其自動(dòng)高效的特征表達(dá)與分類(lèi)能力在命名實(shí)體識(shí)別任務(wù)中已取得巨大的進(jìn)展,F(xiàn)有的深度學(xué)習(xí)命名實(shí)體識(shí)別方法大多為有監(jiān)督的訓(xùn)練方法,沒(méi)有利用無(wú)標(biāo)注數(shù)據(jù)來(lái)增強(qiáng)模型的泛化能力。因此,本文針對(duì)半監(jiān)督的命名實(shí)體識(shí)別方法進(jìn)行了研究。論文主要工作內(nèi)容如下:本文首先對(duì)中文和外文命名實(shí)體識(shí)別方法的研究現(xiàn)狀進(jìn)行了調(diào)研,分析和總結(jié)了基于統(tǒng)計(jì)和基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法原理,在總結(jié)了各方法優(yōu)缺點(diǎn)的基礎(chǔ)上,提出了一種半監(jiān)督的命名實(shí)體識(shí)別方法。利用大量的無(wú)標(biāo)注數(shù)據(jù)創(chuàng)建與有標(biāo)注數(shù)據(jù)的相似句來(lái)約束訓(xùn)練語(yǔ)料的標(biāo)注序列,減少了模型對(duì)有標(biāo)注數(shù)據(jù)的依賴(lài)。實(shí)驗(yàn)表明,創(chuàng)建的相似句可以有效的糾正訓(xùn)練語(yǔ)料的標(biāo)注序列。該模型在SIGHAN Bakeoff MSRA中文命名實(shí)體識(shí)別數(shù)據(jù)集中F1值取得了92.13%,與基線模型相比提高了0.41%。其次,為了使長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)更精確的提取句子較遠(yuǎn)的特征信息,提出了一種融合順序遺忘編碼結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別算法。將順序遺忘編碼的靜態(tài)編碼方式與循環(huán)神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)遺忘方式相結(jié)合,增強(qiáng)了...
【文章來(lái)源】:沈陽(yáng)工業(yè)大學(xué)遼寧省
【文章頁(yè)數(shù)】:40 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 外文命名實(shí)體識(shí)別研究現(xiàn)狀
1.2.2 中文命名實(shí)體識(shí)別研究現(xiàn)狀
1.2.3 半監(jiān)督命名實(shí)體識(shí)別研究現(xiàn)狀
1.3 研究?jī)?nèi)容及論文結(jié)構(gòu)
第2章 命名實(shí)體識(shí)別方法
2.1 命名實(shí)體識(shí)別標(biāo)注策略
2.2 基于統(tǒng)計(jì)的方法
2.2.1 隱馬爾可夫模型
2.2.2 條件隨機(jī)場(chǎng)
2.3 Bi-LSTM-CRF模型
2.3.1 詞向量
2.3.2 LSTM
2.3.3 Bi-LSTM+CRF框架
第3章 半監(jiān)督命名實(shí)體識(shí)別方法
3.1 原理介紹
3.2 相似句構(gòu)造
3.3 目標(biāo)函數(shù)
3.4 SEMI+Bi-LSTM+CRF模型
3.5 實(shí)驗(yàn)
3.5.1 數(shù)據(jù)介紹
3.5.2 實(shí)驗(yàn)結(jié)果及分析
第4章 基于順序遺忘編碼的命名實(shí)體識(shí)別方法
4.1 順序遺忘編碼
4.2 注意力機(jī)制
4.3 FOFE+Bi-LSTM+CRF框架
4.4 實(shí)驗(yàn)
第5章 結(jié)論與展望
參考文獻(xiàn)
在學(xué)研究成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]融入自注意力機(jī)制的社交媒體命名實(shí)體識(shí)別[J]. 李明揚(yáng),孔芳. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(06)
[2]基于深層條件隨機(jī)場(chǎng)的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 孫曉,孫重遠(yuǎn),任福繼. 模式識(shí)別與人工智能. 2016(11)
[3]基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J]. 俞鴻魁,張華平,劉群,呂學(xué)強(qiáng),施水才. 通信學(xué)報(bào). 2006(02)
[4]中文姓名的自動(dòng)辨識(shí)[J]. 孫茂松,黃昌寧,高海燕,方捷. 中文信息學(xué)報(bào). 1995(02)
本文編號(hào):2969169
【文章來(lái)源】:沈陽(yáng)工業(yè)大學(xué)遼寧省
【文章頁(yè)數(shù)】:40 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 外文命名實(shí)體識(shí)別研究現(xiàn)狀
1.2.2 中文命名實(shí)體識(shí)別研究現(xiàn)狀
1.2.3 半監(jiān)督命名實(shí)體識(shí)別研究現(xiàn)狀
1.3 研究?jī)?nèi)容及論文結(jié)構(gòu)
第2章 命名實(shí)體識(shí)別方法
2.1 命名實(shí)體識(shí)別標(biāo)注策略
2.2 基于統(tǒng)計(jì)的方法
2.2.1 隱馬爾可夫模型
2.2.2 條件隨機(jī)場(chǎng)
2.3 Bi-LSTM-CRF模型
2.3.1 詞向量
2.3.2 LSTM
2.3.3 Bi-LSTM+CRF框架
第3章 半監(jiān)督命名實(shí)體識(shí)別方法
3.1 原理介紹
3.2 相似句構(gòu)造
3.3 目標(biāo)函數(shù)
3.4 SEMI+Bi-LSTM+CRF模型
3.5 實(shí)驗(yàn)
3.5.1 數(shù)據(jù)介紹
3.5.2 實(shí)驗(yàn)結(jié)果及分析
第4章 基于順序遺忘編碼的命名實(shí)體識(shí)別方法
4.1 順序遺忘編碼
4.2 注意力機(jī)制
4.3 FOFE+Bi-LSTM+CRF框架
4.4 實(shí)驗(yàn)
第5章 結(jié)論與展望
參考文獻(xiàn)
在學(xué)研究成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]融入自注意力機(jī)制的社交媒體命名實(shí)體識(shí)別[J]. 李明揚(yáng),孔芳. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(06)
[2]基于深層條件隨機(jī)場(chǎng)的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 孫曉,孫重遠(yuǎn),任福繼. 模式識(shí)別與人工智能. 2016(11)
[3]基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J]. 俞鴻魁,張華平,劉群,呂學(xué)強(qiáng),施水才. 通信學(xué)報(bào). 2006(02)
[4]中文姓名的自動(dòng)辨識(shí)[J]. 孫茂松,黃昌寧,高海燕,方捷. 中文信息學(xué)報(bào). 1995(02)
本文編號(hào):2969169
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2969169.html
最近更新
教材專(zhuān)著