天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于BERT-BLSTM-CRF模型的中文命名實(shí)體識(shí)別研究

發(fā)布時(shí)間:2020-11-09 14:56
   命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語(yǔ)言文本數(shù)據(jù)處理工作中的一項(xiàng)基礎(chǔ)且至關(guān)重要的環(huán)節(jié),其任務(wù)為識(shí)別出待處理文本中各個(gè)代表具體實(shí)際意義的實(shí)體。NER是問(wèn)答系統(tǒng)和文本分類(lèi)等應(yīng)用的基石,也是事件抽取和關(guān)系抽取等高層任務(wù)的關(guān)鍵。NER的準(zhǔn)確度將直接影響后續(xù)工作的效果。識(shí)別出文本中地名、人名和機(jī)構(gòu)名等專(zhuān)有名詞是中文NER的主要任務(wù)。完成NER任務(wù)面臨的首要困難是傳統(tǒng)的識(shí)別技術(shù)嚴(yán)重依賴(lài)于人工特征提取與專(zhuān)業(yè)領(lǐng)域知識(shí),因此消耗大量的人力與時(shí)間。其次,基于神經(jīng)網(wǎng)絡(luò)模型的中文命名實(shí)體識(shí)別方法在模型訓(xùn)練過(guò)程中,字向量表示過(guò)程存在向量表征過(guò)于單一化的問(wèn)題,無(wú)法很好的處理字的多義性特征。本文針對(duì)以上問(wèn)題處理中文字符級(jí)別的命名實(shí)體識(shí)別工作,主要任務(wù)如下:(一)傳統(tǒng)的NER方法學(xué)習(xí)長(zhǎng)距離依賴(lài)的能力較弱,并且要聯(lián)合外部知識(shí)和大量人工參與來(lái)提取和處理特征,針對(duì)這一問(wèn)題,本文引入目前比較受歡迎的深度學(xué)習(xí)序列標(biāo)注模型——BLSTM-CRF模型作為基準(zhǔn)模型,此模型首先將待識(shí)別字符輸入雙向LSTM模型,獲得每個(gè)字符相應(yīng)的標(biāo)簽。這些標(biāo)簽之間具有較強(qiáng)的依賴(lài)關(guān)系,使用鏈接在雙向LSTM后的CRF層來(lái)學(xué)習(xí)標(biāo)簽之間的依賴(lài)關(guān)系,最后得到全局最優(yōu)句子級(jí)別的標(biāo)簽序列;贐LSTM-CRF模型的中文命名實(shí)體識(shí)別方法經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,能夠有效的提高中文命名實(shí)體識(shí)別效果。(二)基于神經(jīng)網(wǎng)絡(luò)模型的中文命名實(shí)體識(shí)別方法在模型訓(xùn)練過(guò)程中,字向量表示過(guò)程存在向量表征過(guò)于單一化的問(wèn)題,無(wú)法很好的處理字的多義性特征。針對(duì)這一問(wèn)題提出一種基于BERT-BLSTM-CRF模型的中文命名實(shí)體識(shí)別方法,該方法首先使用BERT(Bidirectional Encoder Representations from Transformers,BERT)預(yù)訓(xùn)練語(yǔ)言模型根據(jù)字的上下文信息來(lái)豐富字的語(yǔ)義向量,然后將輸出的字向量序列輸入到BLSTM-CRF模型進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,此方法在中文命名實(shí)體識(shí)別任務(wù)上其正確率、召回率和F1值分別取得了94.80%、95.44%和95.12%的成績(jī),相較于其他傳統(tǒng)方法效果顯著。
【學(xué)位單位】:安慶師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2020
【中圖分類(lèi)】:TP391.1
【部分圖文】:

序列,狀態(tài)轉(zhuǎn)移,示例,狀態(tài)


隱馬爾可夫模型是一種以馬爾科夫鏈為基礎(chǔ)的統(tǒng)計(jì)模型,主要用來(lái)對(duì)時(shí)序數(shù)據(jù)進(jìn)行建模。為狀態(tài)空間中,從一個(gè)狀態(tài)轉(zhuǎn)換到另一狀態(tài)的隨機(jī)過(guò)程[41-42]。在隱馬爾可夫模型中,狀態(tài)并不是直觀的,但是一些受狀態(tài)影響的變量是可見(jiàn)的,每個(gè)狀態(tài)對(duì)于可能的輸出符號(hào),都存在一概率分布,因此,對(duì)輸出符號(hào)序列的統(tǒng)計(jì)與計(jì)算可以獲得一些狀態(tài)序列的信息。狀態(tài)轉(zhuǎn)移示例如圖2.1所示,在圖2.1中,HMM的狀態(tài)數(shù)為3,當(dāng)前時(shí)刻狀態(tài)值為2,觀測(cè)值為x,前一時(shí)刻狀態(tài)值為2的條件概率表示為:P(2|2,x)。HMM有三個(gè)概率矩陣,分別為初始狀態(tài)概率矩陣、隱含狀態(tài)轉(zhuǎn)移概率矩陣和觀測(cè)狀態(tài)轉(zhuǎn)移概率矩陣,具體定義如公式(2.5)-(2.10):

模型圖,編碼器,模型,思想


近些年在BLSTM-CRF模型提出之前,利用深度學(xué)習(xí)實(shí)現(xiàn)命名實(shí)體識(shí)別,通常是采用多層自編碼神經(jīng)網(wǎng)絡(luò),其核心是通過(guò)構(gòu)造多標(biāo)簽分類(lèi)器,將NER轉(zhuǎn)為多分類(lèi)問(wèn)題。所謂自編碼,就是讓網(wǎng)絡(luò)的輸出與輸入盡可能相等,這一結(jié)構(gòu)屬于無(wú)監(jiān)督學(xué)習(xí)模型。對(duì)于簡(jiǎn)單的三層自編碼網(wǎng)絡(luò),唯一需要確定的是中間層神經(jīng)元個(gè)數(shù);多層自編碼網(wǎng)絡(luò)采用逐層編碼的思想,以解決多層同時(shí)訓(xùn)練誤差彌散問(wèn)題,這一思想將整個(gè)網(wǎng)絡(luò)拆分成若干部分,使得每個(gè)部分組成一個(gè)三層自編碼網(wǎng)絡(luò),訓(xùn)練完再將它們鏈接起來(lái)。采用該方法實(shí)現(xiàn)命名實(shí)體識(shí)別的模型如圖2.2所示。對(duì)每層的自編碼網(wǎng)絡(luò)訓(xùn)練時(shí)最常采用的方法為梯度下降法。如果設(shè)定的閾值大于每層輸入和輸出的誤差時(shí)便停止自編碼器的訓(xùn)練然后保留編碼層,去掉解碼層,最后將得到的結(jié)果輸入到下一個(gè)自編碼器。

模型圖,模型,目標(biāo)函數(shù)


CBOW模型
【參考文獻(xiàn)】

相關(guān)期刊論文 前5條

1 尹存燕;黃書(shū)劍;戴新宇;陳家駿;;中英命名實(shí)體識(shí)別及對(duì)齊中的中文分詞優(yōu)化[J];電子學(xué)報(bào);2015年08期

2 張曉艷;王挺;陳火旺;;基于混合統(tǒng)計(jì)模型的漢語(yǔ)命名實(shí)體識(shí)別方法[J];計(jì)算機(jī)工程與科學(xué);2006年06期

3 俞鴻魁;張華平;劉群;呂學(xué)強(qiáng);施水才;;基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J];通信學(xué)報(bào);2006年02期

4 張小衡,王玲玲;中文機(jī)構(gòu)名稱(chēng)的識(shí)別與分析[J];中文信息學(xué)報(bào);1997年04期

5 孫茂松,黃昌寧,高海燕,方捷;中文姓名的自動(dòng)辨識(shí)[J];中文信息學(xué)報(bào);1995年02期


相關(guān)碩士學(xué)位論文 前3條

1 顧孫炎;基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別研究[D];南京郵電大學(xué);2018年

2 金留可;基于遞歸神經(jīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)命名實(shí)體識(shí)別[D];大連理工大學(xué);2016年

3 李波;基于自主推理的中文命名實(shí)體識(shí)別方法研究[D];西北大學(xué);2012年



本文編號(hào):2876591

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2876591.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)2437a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
日韩美成人免费在线视频| 婷婷激情四射在线观看视频 | 91欧美日韩国产在线观看| 99秋霞在线观看视频| 99久久精品国产日本| 在线视频免费看你懂的| 欧美中文日韩一区久久| 东京干男人都知道的天堂| 欧美一区二区三区性视频 | 亚洲欧美日韩另类第一页| 狠色婷婷久久一区二区三区| 久久精品国产亚洲熟女| 五月婷婷亚洲综合一区| 高清不卡一卡二卡区在线| 激情五月综五月综合网| 国产综合一区二区三区av| 亚洲精品福利视频你懂的| 免费在线观看欧美喷水黄片| 国产成人精品综合久久久看| 久久亚洲成熟女人毛片| 日韩欧美第一页在线观看| 亚洲超碰成人天堂涩涩| 内射精品欧美一区二区三区久久久| 麻豆蜜桃星空传媒在线观看 | 国内精品伊人久久久av高清| 日本人妻精品中文字幕不卡乱码 | 日韩欧美二区中文字幕| 亚洲免费观看一区二区三区| 丰满的人妻一区二区三区| 男女激情视频在线免费观看| 美女激情免费在线观看| 久久精品偷拍视频观看| 日韩一区二区三区在线欧洲| 日韩人妻一区中文字幕| 欧美国产极品一区二区| 国产免费一区二区三区不卡| 好吊日在线观看免费视频| 五月婷婷六月丁香在线观看| 激情五月天深爱丁香婷婷| 久久天堂夜夜一本婷婷| 精品国自产拍天天青青草原|