基于深度學習的半監(jiān)督式命名實體識別
發(fā)布時間:2021-01-10 18:08
命名實體識別是自然語言處理的一項基礎任務,也是機器翻譯、智能問答、知識圖譜等相關領域的底層技術。深度學習技術因其自動高效的特征表達與分類能力在命名實體識別任務中已取得巨大的進展。現(xiàn)有的深度學習命名實體識別方法大多為有監(jiān)督的訓練方法,沒有利用無標注數(shù)據(jù)來增強模型的泛化能力。因此,本文針對半監(jiān)督的命名實體識別方法進行了研究。論文主要工作內(nèi)容如下:本文首先對中文和外文命名實體識別方法的研究現(xiàn)狀進行了調(diào)研,分析和總結(jié)了基于統(tǒng)計和基于深度學習的命名實體識別方法原理,在總結(jié)了各方法優(yōu)缺點的基礎上,提出了一種半監(jiān)督的命名實體識別方法。利用大量的無標注數(shù)據(jù)創(chuàng)建與有標注數(shù)據(jù)的相似句來約束訓練語料的標注序列,減少了模型對有標注數(shù)據(jù)的依賴。實驗表明,創(chuàng)建的相似句可以有效的糾正訓練語料的標注序列。該模型在SIGHAN Bakeoff MSRA中文命名實體識別數(shù)據(jù)集中F1值取得了92.13%,與基線模型相比提高了0.41%。其次,為了使長短時記憶網(wǎng)絡更精確的提取句子較遠的特征信息,提出了一種融合順序遺忘編碼結(jié)合循環(huán)神經(jīng)網(wǎng)絡的命名實體識別算法。將順序遺忘編碼的靜態(tài)編碼方式與循環(huán)神經(jīng)網(wǎng)絡的動態(tài)遺忘方式相結(jié)合,增強了...
【文章來源】:沈陽工業(yè)大學遼寧省
【文章頁數(shù)】:40 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 外文命名實體識別研究現(xiàn)狀
1.2.2 中文命名實體識別研究現(xiàn)狀
1.2.3 半監(jiān)督命名實體識別研究現(xiàn)狀
1.3 研究內(nèi)容及論文結(jié)構
第2章 命名實體識別方法
2.1 命名實體識別標注策略
2.2 基于統(tǒng)計的方法
2.2.1 隱馬爾可夫模型
2.2.2 條件隨機場
2.3 Bi-LSTM-CRF模型
2.3.1 詞向量
2.3.2 LSTM
2.3.3 Bi-LSTM+CRF框架
第3章 半監(jiān)督命名實體識別方法
3.1 原理介紹
3.2 相似句構造
3.3 目標函數(shù)
3.4 SEMI+Bi-LSTM+CRF模型
3.5 實驗
3.5.1 數(shù)據(jù)介紹
3.5.2 實驗結(jié)果及分析
第4章 基于順序遺忘編碼的命名實體識別方法
4.1 順序遺忘編碼
4.2 注意力機制
4.3 FOFE+Bi-LSTM+CRF框架
4.4 實驗
第5章 結(jié)論與展望
參考文獻
在學研究成果
致謝
【參考文獻】:
期刊論文
[1]融入自注意力機制的社交媒體命名實體識別[J]. 李明揚,孔芳. 清華大學學報(自然科學版). 2019(06)
[2]基于深層條件隨機場的生物醫(yī)學命名實體識別[J]. 孫曉,孫重遠,任福繼. 模式識別與人工智能. 2016(11)
[3]基于層疊隱馬爾可夫模型的中文命名實體識別[J]. 俞鴻魁,張華平,劉群,呂學強,施水才. 通信學報. 2006(02)
[4]中文姓名的自動辨識[J]. 孫茂松,黃昌寧,高海燕,方捷. 中文信息學報. 1995(02)
本文編號:2969169
【文章來源】:沈陽工業(yè)大學遼寧省
【文章頁數(shù)】:40 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 外文命名實體識別研究現(xiàn)狀
1.2.2 中文命名實體識別研究現(xiàn)狀
1.2.3 半監(jiān)督命名實體識別研究現(xiàn)狀
1.3 研究內(nèi)容及論文結(jié)構
第2章 命名實體識別方法
2.1 命名實體識別標注策略
2.2 基于統(tǒng)計的方法
2.2.1 隱馬爾可夫模型
2.2.2 條件隨機場
2.3 Bi-LSTM-CRF模型
2.3.1 詞向量
2.3.2 LSTM
2.3.3 Bi-LSTM+CRF框架
第3章 半監(jiān)督命名實體識別方法
3.1 原理介紹
3.2 相似句構造
3.3 目標函數(shù)
3.4 SEMI+Bi-LSTM+CRF模型
3.5 實驗
3.5.1 數(shù)據(jù)介紹
3.5.2 實驗結(jié)果及分析
第4章 基于順序遺忘編碼的命名實體識別方法
4.1 順序遺忘編碼
4.2 注意力機制
4.3 FOFE+Bi-LSTM+CRF框架
4.4 實驗
第5章 結(jié)論與展望
參考文獻
在學研究成果
致謝
【參考文獻】:
期刊論文
[1]融入自注意力機制的社交媒體命名實體識別[J]. 李明揚,孔芳. 清華大學學報(自然科學版). 2019(06)
[2]基于深層條件隨機場的生物醫(yī)學命名實體識別[J]. 孫曉,孫重遠,任福繼. 模式識別與人工智能. 2016(11)
[3]基于層疊隱馬爾可夫模型的中文命名實體識別[J]. 俞鴻魁,張華平,劉群,呂學強,施水才. 通信學報. 2006(02)
[4]中文姓名的自動辨識[J]. 孫茂松,黃昌寧,高海燕,方捷. 中文信息學報. 1995(02)
本文編號:2969169
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2969169.html
最近更新
教材專著