基于BERT-BLSTM-CRF模型的中文命名實(shí)體識(shí)別研究
發(fā)布時(shí)間:2020-11-09 14:56
命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語(yǔ)言文本數(shù)據(jù)處理工作中的一項(xiàng)基礎(chǔ)且至關(guān)重要的環(huán)節(jié),其任務(wù)為識(shí)別出待處理文本中各個(gè)代表具體實(shí)際意義的實(shí)體。NER是問(wèn)答系統(tǒng)和文本分類(lèi)等應(yīng)用的基石,也是事件抽取和關(guān)系抽取等高層任務(wù)的關(guān)鍵。NER的準(zhǔn)確度將直接影響后續(xù)工作的效果。識(shí)別出文本中地名、人名和機(jī)構(gòu)名等專(zhuān)有名詞是中文NER的主要任務(wù)。完成NER任務(wù)面臨的首要困難是傳統(tǒng)的識(shí)別技術(shù)嚴(yán)重依賴(lài)于人工特征提取與專(zhuān)業(yè)領(lǐng)域知識(shí),因此消耗大量的人力與時(shí)間。其次,基于神經(jīng)網(wǎng)絡(luò)模型的中文命名實(shí)體識(shí)別方法在模型訓(xùn)練過(guò)程中,字向量表示過(guò)程存在向量表征過(guò)于單一化的問(wèn)題,無(wú)法很好的處理字的多義性特征。本文針對(duì)以上問(wèn)題處理中文字符級(jí)別的命名實(shí)體識(shí)別工作,主要任務(wù)如下:(一)傳統(tǒng)的NER方法學(xué)習(xí)長(zhǎng)距離依賴(lài)的能力較弱,并且要聯(lián)合外部知識(shí)和大量人工參與來(lái)提取和處理特征,針對(duì)這一問(wèn)題,本文引入目前比較受歡迎的深度學(xué)習(xí)序列標(biāo)注模型——BLSTM-CRF模型作為基準(zhǔn)模型,此模型首先將待識(shí)別字符輸入雙向LSTM模型,獲得每個(gè)字符相應(yīng)的標(biāo)簽。這些標(biāo)簽之間具有較強(qiáng)的依賴(lài)關(guān)系,使用鏈接在雙向LSTM后的CRF層來(lái)學(xué)習(xí)標(biāo)簽之間的依賴(lài)關(guān)系,最后得到全局最優(yōu)句子級(jí)別的標(biāo)簽序列;贐LSTM-CRF模型的中文命名實(shí)體識(shí)別方法經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,能夠有效的提高中文命名實(shí)體識(shí)別效果。(二)基于神經(jīng)網(wǎng)絡(luò)模型的中文命名實(shí)體識(shí)別方法在模型訓(xùn)練過(guò)程中,字向量表示過(guò)程存在向量表征過(guò)于單一化的問(wèn)題,無(wú)法很好的處理字的多義性特征。針對(duì)這一問(wèn)題提出一種基于BERT-BLSTM-CRF模型的中文命名實(shí)體識(shí)別方法,該方法首先使用BERT(Bidirectional Encoder Representations from Transformers,BERT)預(yù)訓(xùn)練語(yǔ)言模型根據(jù)字的上下文信息來(lái)豐富字的語(yǔ)義向量,然后將輸出的字向量序列輸入到BLSTM-CRF模型進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,此方法在中文命名實(shí)體識(shí)別任務(wù)上其正確率、召回率和F1值分別取得了94.80%、95.44%和95.12%的成績(jī),相較于其他傳統(tǒng)方法效果顯著。
【學(xué)位單位】:安慶師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2020
【中圖分類(lèi)】:TP391.1
【部分圖文】:
隱馬爾可夫模型是一種以馬爾科夫鏈為基礎(chǔ)的統(tǒng)計(jì)模型,主要用來(lái)對(duì)時(shí)序數(shù)據(jù)進(jìn)行建模。為狀態(tài)空間中,從一個(gè)狀態(tài)轉(zhuǎn)換到另一狀態(tài)的隨機(jī)過(guò)程[41-42]。在隱馬爾可夫模型中,狀態(tài)并不是直觀的,但是一些受狀態(tài)影響的變量是可見(jiàn)的,每個(gè)狀態(tài)對(duì)于可能的輸出符號(hào),都存在一概率分布,因此,對(duì)輸出符號(hào)序列的統(tǒng)計(jì)與計(jì)算可以獲得一些狀態(tài)序列的信息。狀態(tài)轉(zhuǎn)移示例如圖2.1所示,在圖2.1中,HMM的狀態(tài)數(shù)為3,當(dāng)前時(shí)刻狀態(tài)值為2,觀測(cè)值為x,前一時(shí)刻狀態(tài)值為2的條件概率表示為:P(2|2,x)。HMM有三個(gè)概率矩陣,分別為初始狀態(tài)概率矩陣、隱含狀態(tài)轉(zhuǎn)移概率矩陣和觀測(cè)狀態(tài)轉(zhuǎn)移概率矩陣,具體定義如公式(2.5)-(2.10):
近些年在BLSTM-CRF模型提出之前,利用深度學(xué)習(xí)實(shí)現(xiàn)命名實(shí)體識(shí)別,通常是采用多層自編碼神經(jīng)網(wǎng)絡(luò),其核心是通過(guò)構(gòu)造多標(biāo)簽分類(lèi)器,將NER轉(zhuǎn)為多分類(lèi)問(wèn)題。所謂自編碼,就是讓網(wǎng)絡(luò)的輸出與輸入盡可能相等,這一結(jié)構(gòu)屬于無(wú)監(jiān)督學(xué)習(xí)模型。對(duì)于簡(jiǎn)單的三層自編碼網(wǎng)絡(luò),唯一需要確定的是中間層神經(jīng)元個(gè)數(shù);多層自編碼網(wǎng)絡(luò)采用逐層編碼的思想,以解決多層同時(shí)訓(xùn)練誤差彌散問(wèn)題,這一思想將整個(gè)網(wǎng)絡(luò)拆分成若干部分,使得每個(gè)部分組成一個(gè)三層自編碼網(wǎng)絡(luò),訓(xùn)練完再將它們鏈接起來(lái)。采用該方法實(shí)現(xiàn)命名實(shí)體識(shí)別的模型如圖2.2所示。對(duì)每層的自編碼網(wǎng)絡(luò)訓(xùn)練時(shí)最常采用的方法為梯度下降法。如果設(shè)定的閾值大于每層輸入和輸出的誤差時(shí)便停止自編碼器的訓(xùn)練然后保留編碼層,去掉解碼層,最后將得到的結(jié)果輸入到下一個(gè)自編碼器。
CBOW模型
【參考文獻(xiàn)】
本文編號(hào):2876591
【學(xué)位單位】:安慶師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2020
【中圖分類(lèi)】:TP391.1
【部分圖文】:
隱馬爾可夫模型是一種以馬爾科夫鏈為基礎(chǔ)的統(tǒng)計(jì)模型,主要用來(lái)對(duì)時(shí)序數(shù)據(jù)進(jìn)行建模。為狀態(tài)空間中,從一個(gè)狀態(tài)轉(zhuǎn)換到另一狀態(tài)的隨機(jī)過(guò)程[41-42]。在隱馬爾可夫模型中,狀態(tài)并不是直觀的,但是一些受狀態(tài)影響的變量是可見(jiàn)的,每個(gè)狀態(tài)對(duì)于可能的輸出符號(hào),都存在一概率分布,因此,對(duì)輸出符號(hào)序列的統(tǒng)計(jì)與計(jì)算可以獲得一些狀態(tài)序列的信息。狀態(tài)轉(zhuǎn)移示例如圖2.1所示,在圖2.1中,HMM的狀態(tài)數(shù)為3,當(dāng)前時(shí)刻狀態(tài)值為2,觀測(cè)值為x,前一時(shí)刻狀態(tài)值為2的條件概率表示為:P(2|2,x)。HMM有三個(gè)概率矩陣,分別為初始狀態(tài)概率矩陣、隱含狀態(tài)轉(zhuǎn)移概率矩陣和觀測(cè)狀態(tài)轉(zhuǎn)移概率矩陣,具體定義如公式(2.5)-(2.10):
近些年在BLSTM-CRF模型提出之前,利用深度學(xué)習(xí)實(shí)現(xiàn)命名實(shí)體識(shí)別,通常是采用多層自編碼神經(jīng)網(wǎng)絡(luò),其核心是通過(guò)構(gòu)造多標(biāo)簽分類(lèi)器,將NER轉(zhuǎn)為多分類(lèi)問(wèn)題。所謂自編碼,就是讓網(wǎng)絡(luò)的輸出與輸入盡可能相等,這一結(jié)構(gòu)屬于無(wú)監(jiān)督學(xué)習(xí)模型。對(duì)于簡(jiǎn)單的三層自編碼網(wǎng)絡(luò),唯一需要確定的是中間層神經(jīng)元個(gè)數(shù);多層自編碼網(wǎng)絡(luò)采用逐層編碼的思想,以解決多層同時(shí)訓(xùn)練誤差彌散問(wèn)題,這一思想將整個(gè)網(wǎng)絡(luò)拆分成若干部分,使得每個(gè)部分組成一個(gè)三層自編碼網(wǎng)絡(luò),訓(xùn)練完再將它們鏈接起來(lái)。采用該方法實(shí)現(xiàn)命名實(shí)體識(shí)別的模型如圖2.2所示。對(duì)每層的自編碼網(wǎng)絡(luò)訓(xùn)練時(shí)最常采用的方法為梯度下降法。如果設(shè)定的閾值大于每層輸入和輸出的誤差時(shí)便停止自編碼器的訓(xùn)練然后保留編碼層,去掉解碼層,最后將得到的結(jié)果輸入到下一個(gè)自編碼器。
CBOW模型
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 尹存燕;黃書(shū)劍;戴新宇;陳家駿;;中英命名實(shí)體識(shí)別及對(duì)齊中的中文分詞優(yōu)化[J];電子學(xué)報(bào);2015年08期
2 張曉艷;王挺;陳火旺;;基于混合統(tǒng)計(jì)模型的漢語(yǔ)命名實(shí)體識(shí)別方法[J];計(jì)算機(jī)工程與科學(xué);2006年06期
3 俞鴻魁;張華平;劉群;呂學(xué)強(qiáng);施水才;;基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J];通信學(xué)報(bào);2006年02期
4 張小衡,王玲玲;中文機(jī)構(gòu)名稱(chēng)的識(shí)別與分析[J];中文信息學(xué)報(bào);1997年04期
5 孫茂松,黃昌寧,高海燕,方捷;中文姓名的自動(dòng)辨識(shí)[J];中文信息學(xué)報(bào);1995年02期
相關(guān)碩士學(xué)位論文 前3條
1 顧孫炎;基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別研究[D];南京郵電大學(xué);2018年
2 金留可;基于遞歸神經(jīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)命名實(shí)體識(shí)別[D];大連理工大學(xué);2016年
3 李波;基于自主推理的中文命名實(shí)體識(shí)別方法研究[D];西北大學(xué);2012年
本文編號(hào):2876591
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2876591.html
最近更新
教材專(zhuān)著