天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于BiLSTM-CRF模型的中文命名實體識別研究與實現(xiàn)

發(fā)布時間:2020-12-10 00:43
  命名實體識別是自然語言處理領(lǐng)域的一個分支以及一個關(guān)鍵技術(shù),其任務(wù)目標是識別出文本數(shù)據(jù)中存在的特定意義或者指代性強的實體名,其識別結(jié)果將進一步影響到自然語言處理的后續(xù)任務(wù)。隨著深度學習理論與技術(shù)的發(fā)展,面對不斷增長的非結(jié)構(gòu)化文本數(shù)據(jù),基于深度學習的命名實體識別將具有非常重要的意義。本文使用深度學習的方法,以單向的LSTM-CRF模型為基準模型,構(gòu)建一個改進的BiLSTM-CRF中文命名實體識別算法模型,以人名、地名、組織名作為命名實體識別目標,并將該命名實體識別算法模型成功應(yīng)用在實踐中。具體的工作如下。第一,針對單向的LSTM-CRF模型中存在的不足之處,單向的LSTM網(wǎng)絡(luò)結(jié)構(gòu)只可以學習單向的文本序列信息,不能真正做到學習文本序列的上下文信息。本文將對單向的LSTM網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建為雙向的LSTM網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建一個BiLSTM-CRF的算法模型,從而有助于對文本序列的上下文信息提取。第二,引入注意力機制,通過在BiLSTM-CRF算法模型中加入一個Attention層,設(shè)計并得到一個改進的BiLSTM-CRF命名實體識別算法模型。在該模型中,BiLSTM層用于對文本序列進行上下文信息的全局特... 

【文章來源】:江西財經(jīng)大學江西省

【文章頁數(shù)】:64 頁

【學位級別】:碩士

【部分圖文】:

基于BiLSTM-CRF模型的中文命名實體識別研究與實現(xiàn)


對文本進行命名實體識別

序列,文本數(shù)據(jù),序列


基于BiLSTM-CRF模型的中文命名實體識別研究與實現(xiàn)8圖2-2對文本數(shù)據(jù)進行BIO標注評判一個命名實體是否被正確識別,主要包括如下三個方面:(1)實體邊界是否正確(2)實體類別是否標注正確(3)實體內(nèi)部位置是否標注正確如果以上判別標準一條或者多條不滿足,那么命名實體的識別結(jié)果為錯誤。在測試或訓(xùn)練語料數(shù)據(jù)中,通過統(tǒng)計出所有命名實體的識別結(jié)果的個數(shù),包括識別正確和識別錯誤的個數(shù),使用機器學習中常用的三個評價指標對模型進行測評,其中三個評價指標為準確率P、召回率R及F-值,詳見4.2節(jié)。2.1.3命名實體識別的算法模型命名實體識別的實現(xiàn)算法歷經(jīng)了三個階段,由早期的基于規(guī)則和詞典的方法,21世紀初的基于統(tǒng)計概率的方法,到如今最為廣泛使用的基于深度學習的方法。通過神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)命名實體的識別已經(jīng)成為目前主流的方法。在NER任務(wù)中,文本是以序列的形式存在,一個句子可以看作是符合一定自然語言規(guī)則的詞的序列。這些語言規(guī)則包含非常復(fù)雜的語法和語義的組合關(guān)系,很難顯式地去建模這些規(guī)則,但是可以通過神經(jīng)網(wǎng)絡(luò)模型從已知的序列分布中學習并生成新的序列樣本,這就是深度序列模型。因此,基于神經(jīng)網(wǎng)絡(luò)的命名實體識別算法模型相當于深度序列模型。深度序列模型一般可以分為三個部分:嵌入層、特征層、輸出層。(1)嵌入層由于神經(jīng)網(wǎng)絡(luò)模型的輸入為數(shù)值向量,而文本數(shù)據(jù)在計算機中是一種符號表示的信息,因此需要將文本數(shù)據(jù)轉(zhuǎn)化為數(shù)值向量。其中一種簡易的轉(zhuǎn)換方法是通過一個嵌入表(也稱為嵌入矩陣或查詢表)來將每個文本符號直接映射成向量表示,如圖2-3所示。令)1(:1ttxh表示輸入的歷史信息,其中第k列向量km表示詞表中第k個詞對應(yīng)的向量表示。通過嵌入層的映射可以得到字詞序列t)1(:1x對應(yīng)的向量序列1

效果圖,降維,中文,效果圖


word2vec詞向量降維效果圖


本文編號:2907767

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2907767.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b3932***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com