基于深度神經(jīng)網(wǎng)絡的中文命名實體識別研究
發(fā)布時間:2022-02-14 18:01
命名實體識別作為自然語言處理的關鍵技術之一,已廣泛應用于信息抽取、智能問答、機器翻譯等領域中。隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,用戶在網(wǎng)上的社交和娛樂會產(chǎn)生大量文本,為了能夠挖掘文本內(nèi)的有效信息,命名實體識別技術成為各領域人員關注的重點。命名實體識別的主要任務是識別出文本中人名、地名和機構名等專有名詞。傳統(tǒng)的命名實體識別方法需要花費大量的時間進行手工特征設計,特征工程對模型性能有很大影響。為了減弱模型對人工特征的依賴,本文引入當前流行的深度學習序列標注模型——BiLSTM-CRF模型作為基準模型,并對該模型進行改進,使其能更好的應用于中文命名實體識別任務中。論文主要工作如下:(1)為了方便文本序列輸入,引入word2vec模型將中文字符轉(zhuǎn)化為多維向量輸入模型。將卷積神經(jīng)網(wǎng)絡引入BiLSTM-CRF模型,提出了一種基于BiLSTM-CNN-CRF的中文命名實體識別模型。該模型能夠有效提取文本序列的空間特征信息。實驗表明,BiLSTM-CNN-CRF模型在人民日報語料上召回率和F值比BiLSTM-CRF模型分別提高2.07%和0.86%。(2)將attention機制引入BiLSTM-CRF模型,...
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
基于堆疊式自編碼網(wǎng)絡的命名實體識別模型
京郵電大學碩士研究生學位論文 第二章 中文命名實體識別方法3.1 LSTM 神經(jīng)網(wǎng)絡模型將傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡展開后的結(jié)構和多層前饋神經(jīng)網(wǎng)絡很相似,所以在訓練時如果層多不可避免的會出現(xiàn)梯度消失問題[39],梯度消失示意圖如圖 2.2 所示。圖中結(jié)點顏色深示當前時刻能對第 1 時刻輸入信息保留的多少,顏色越深表示保留的信息越多模型效果,顏色越淺表示保留信息越少模型容易出現(xiàn)梯度消失問題。從模型的前饋過程上看,隨間推移,后續(xù)時刻能夠提取到的信息逐漸減少。如圖所示,在處理時刻 7 的數(shù)據(jù)時能獲的時刻 1 的信息幾乎已經(jīng)消失。從訓練過程中的反向傳播過程上看,時刻 7 輸出層的誤通過梯度向前傳播時,由于梯度的減小誤差也逐漸減小使得模型無法有效更新較前時刻的權值。這種因為梯度消失使得模型無法得到較前時刻信息的問題也叫作長期依賴問題了解決這種問題,國內(nèi)外很多研究人員都對 RNN 模型進行改進,比較常用的有 BRNNRU[41]、LSTM 等,其中應用最廣泛的是 LSTM 模型。
圖 2.3 標準 LSTM 模型結(jié)構圖定了對上一時刻的輸出信息的丟棄程度,通過 sigmoid 函數(shù)來對數(shù)值置為 0 到 1 之間的值:([,]),tft1 tff sigmoidW hx b .10 中,tf 為t時刻的遺忘門層的輸出,t 1h 表示 t 1時刻的隱藏層輸出向入,fW 表示在 f 狀態(tài)下對于輸入tx 的權重矩陣,fb 表示偏置向量。定了什么樣的信息應該被保存下來,為了確定需要更新的值,首先通化,然后再通過 tanh 函數(shù)創(chuàng)建一個新的候選值向量~C :([,]),tit1 tii W hx b ([,]),1~CttCtC TanhW hx b .11 中,i 為t時刻的輸入門層的輸出,W 表示在i狀態(tài)下對于輸入x 的
【參考文獻】:
期刊論文
[1]深層網(wǎng)絡中的梯度消失現(xiàn)象[J]. 周祥全,張津. 科技展望. 2017(27)
[2]基于深度神經(jīng)網(wǎng)絡的中文命名實體識別[J]. 張海楠,伍大勇,劉悅,程學旗. 中文信息學報. 2017(04)
[3]基于BLSTM的命名實體識別方法[J]. 馮艷紅,于紅,孫庚,孫娟娟. 計算機科學. 2018(02)
碩士論文
[1]基于Attention-Based LSTM模型的文本分類技術的研究[D]. 張沖.南京大學 2016
[2]基于規(guī)則的命名實體識別研究[D]. 周昆.合肥工業(yè)大學 2010
[3]基于條件隨機域的中文命名實體識別研究[D]. 王志強.南京理工大學 2006
本文編號:3625016
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
基于堆疊式自編碼網(wǎng)絡的命名實體識別模型
京郵電大學碩士研究生學位論文 第二章 中文命名實體識別方法3.1 LSTM 神經(jīng)網(wǎng)絡模型將傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡展開后的結(jié)構和多層前饋神經(jīng)網(wǎng)絡很相似,所以在訓練時如果層多不可避免的會出現(xiàn)梯度消失問題[39],梯度消失示意圖如圖 2.2 所示。圖中結(jié)點顏色深示當前時刻能對第 1 時刻輸入信息保留的多少,顏色越深表示保留的信息越多模型效果,顏色越淺表示保留信息越少模型容易出現(xiàn)梯度消失問題。從模型的前饋過程上看,隨間推移,后續(xù)時刻能夠提取到的信息逐漸減少。如圖所示,在處理時刻 7 的數(shù)據(jù)時能獲的時刻 1 的信息幾乎已經(jīng)消失。從訓練過程中的反向傳播過程上看,時刻 7 輸出層的誤通過梯度向前傳播時,由于梯度的減小誤差也逐漸減小使得模型無法有效更新較前時刻的權值。這種因為梯度消失使得模型無法得到較前時刻信息的問題也叫作長期依賴問題了解決這種問題,國內(nèi)外很多研究人員都對 RNN 模型進行改進,比較常用的有 BRNNRU[41]、LSTM 等,其中應用最廣泛的是 LSTM 模型。
圖 2.3 標準 LSTM 模型結(jié)構圖定了對上一時刻的輸出信息的丟棄程度,通過 sigmoid 函數(shù)來對數(shù)值置為 0 到 1 之間的值:([,]),tft1 tff sigmoidW hx b .10 中,tf 為t時刻的遺忘門層的輸出,t 1h 表示 t 1時刻的隱藏層輸出向入,fW 表示在 f 狀態(tài)下對于輸入tx 的權重矩陣,fb 表示偏置向量。定了什么樣的信息應該被保存下來,為了確定需要更新的值,首先通化,然后再通過 tanh 函數(shù)創(chuàng)建一個新的候選值向量~C :([,]),tit1 tii W hx b ([,]),1~CttCtC TanhW hx b .11 中,i 為t時刻的輸入門層的輸出,W 表示在i狀態(tài)下對于輸入x 的
【參考文獻】:
期刊論文
[1]深層網(wǎng)絡中的梯度消失現(xiàn)象[J]. 周祥全,張津. 科技展望. 2017(27)
[2]基于深度神經(jīng)網(wǎng)絡的中文命名實體識別[J]. 張海楠,伍大勇,劉悅,程學旗. 中文信息學報. 2017(04)
[3]基于BLSTM的命名實體識別方法[J]. 馮艷紅,于紅,孫庚,孫娟娟. 計算機科學. 2018(02)
碩士論文
[1]基于Attention-Based LSTM模型的文本分類技術的研究[D]. 張沖.南京大學 2016
[2]基于規(guī)則的命名實體識別研究[D]. 周昆.合肥工業(yè)大學 2010
[3]基于條件隨機域的中文命名實體識別研究[D]. 王志強.南京理工大學 2006
本文編號:3625016
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3625016.html
最近更新
教材專著