基于語義向量融合的中文命名實體識別
發(fā)布時間:2021-10-30 12:38
隨著信息技術的快速發(fā)展,人們生活中充斥著海量的文本數(shù)據(jù),命名實體識別任務就是對這些數(shù)據(jù)中有意義的實體進行提取。它是自然語言處理中一個關鍵任務,是輿情監(jiān)測、信息提取任務的基礎,其效果的好壞對后續(xù)任務研究有著巨大的影響。本文中引入的命名實體識別任務是對文本中的人名,地名,機構名進行抽取。由于傳統(tǒng)方法會導致代價大、泛化性差的結果,本文采用了基于語義向量融合的方法對中文實體進行識別。首先利用雙向長短時記憶網(wǎng)絡(BiLSTMs)進行建模,通過引入條件隨機場(CRF)增加規(guī)則來提高模型識別效率構建BiLSTMs+CRF模型。以字為單位進行輸入,解決了中文分詞錯誤導致識別效果不好的問題。在模型中將經(jīng)過預訓練模型的詞向量和字向量進行拼接,得到一組語義向量融合的新特征。然后構建了 CNN-BiLSTMs+CRF的模型,其中卷積神經(jīng)網(wǎng)絡(CNN)用來提取細粒度的特征。為了解決序列模型計算速度慢的缺點,將融合好語義的向量輸入到構建的迭代膨脹卷積網(wǎng)絡(ID-CNN)。該模型在沒有增加參數(shù)的情況下使得覆蓋的文本和提取的特征變得更多了。在BiLSTM、BiLSTM+CRF、BiLSTMs、BiLSTMs+CRF模...
【文章來源】:云南大學云南省 211工程院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
圖2.1前饋神經(jīng)網(wǎng)絡結構??
卷積提取出特征圖(Feature?Map)。池化層作用是對卷積后的特征進行降維,壓??縮數(shù)據(jù)量,減小過擬合。其中最常用的是最大池化(Max?Pooling),即在每個區(qū)??域中找到最大值。圖像的卷積過程如圖2.2所示。??involution???max?pooling?v^c???V??nonlinearity?〇?\〇?...??;????.......????—??? ̄ ̄? ̄ ̄??convolution?pooling?layers?fully?ccsinected?layers?Nk?binary?clcesffication??圖2.2圖像卷積過程??對于CNN來說并不是所有的上下層神經(jīng)元都互相連接,而是通過filter作為??中介。再通過池化層進一步提高網(wǎng)絡的魯棒性。??CNN不僅可以用于圖像領域,在自然語言處理領域也取得不錯的成果。在2014??年Yoon?Kim[44l首先將CNN用于文本分類問題,并且得到了很好的效果。讓人們??看到CNN在自然語言處理方面的前景。相比于圖像,文本處理則是一維卷積,卷??積過程是整行整行的進行,filter的大小就是卷積行數(shù),有多少filter就有多少feature??map,也等于最后經(jīng)過池化后的向量的維度。其卷積的原理如圖2.3所示。??wait?|?T;?p?-、?|??for?:丨丨丨?—?????-?-?Z_p—]??*e?rp' ̄—-—lZtz??video???:?一?..
卷積提取出特征圖(Feature?Map)。池化層作用是對卷積后的特征進行降維,壓??縮數(shù)據(jù)量,減小過擬合。其中最常用的是最大池化(Max?Pooling),即在每個區(qū)??域中找到最大值。圖像的卷積過程如圖2.2所示。??involution???max?pooling?v^c???V??nonlinearity?〇?\〇?...??;????.......????—??? ̄ ̄? ̄ ̄??convolution?pooling?layers?fully?ccsinected?layers?Nk?binary?clcesffication??圖2.2圖像卷積過程??對于CNN來說并不是所有的上下層神經(jīng)元都互相連接,而是通過filter作為??中介。再通過池化層進一步提高網(wǎng)絡的魯棒性。??CNN不僅可以用于圖像領域,在自然語言處理領域也取得不錯的成果。在2014??年Yoon?Kim[44l首先將CNN用于文本分類問題,并且得到了很好的效果。讓人們??看到CNN在自然語言處理方面的前景。相比于圖像,文本處理則是一維卷積,卷??積過程是整行整行的進行,filter的大小就是卷積行數(shù),有多少filter就有多少feature??map,也等于最后經(jīng)過池化后的向量的維度。其卷積的原理如圖2.3所示。??wait?|?T;?p?-、?|??for?:丨丨丨?—?????-?-?Z_p—]??*e?rp' ̄—-—lZtz??video???:?一?..
【參考文獻】:
期刊論文
[1]基于深度信念網(wǎng)絡的地質(zhì)實體識別方法[J]. 張雪英,葉鵬,王曙,杜咪. 巖石學報. 2018(02)
[2]基于深度神經(jīng)網(wǎng)絡的命名實體識別方法研究[J]. GUL Khan Safi Qamas,尹繼澤,潘麗敏,羅森林. 信息網(wǎng)絡安全. 2017(10)
[3]基于BLSTM的命名實體識別方法[J]. 馮艷紅,于紅,孫庚,孫娟娟. 計算機科學. 2018(02)
[4]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計算機科學. 2016(06)
[5]基于位置敏感Embedding的中文命名實體識別[J]. 魯亞楠,孫銳,姬東鴻. 計算機應用研究. 2017(02)
[6]命名實體識別綜述[J]. 陳基. 現(xiàn)代計算機(專業(yè)版). 2016(03)
[7]問答系統(tǒng)綜述[J]. 李沛晏,朱露,吳多勝. 數(shù)字技術與應用. 2015(04)
[8]ICTCLAS中文詞法分析的Delphi調(diào)用研究[J]. 郭曉云. 電腦編程技巧與維護. 2011(24)
[9]基于規(guī)則和概率統(tǒng)計相結合的中文命名實體識別研究[J]. 閆萍. 計算機與數(shù)字工程. 2011(09)
[10]科學知識圖譜的發(fā)展歷程[J]. 陳悅,劉則淵,陳勁,侯劍華. 科學學研究. 2008(03)
碩士論文
[1]基于詞表示方法的生物醫(yī)學命名實體識別[D]. 何紅磊.大連理工大學 2015
[2]基于自主推理的中文命名實體識別方法研究[D]. 李波.西北大學 2012
本文編號:3466745
【文章來源】:云南大學云南省 211工程院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
圖2.1前饋神經(jīng)網(wǎng)絡結構??
卷積提取出特征圖(Feature?Map)。池化層作用是對卷積后的特征進行降維,壓??縮數(shù)據(jù)量,減小過擬合。其中最常用的是最大池化(Max?Pooling),即在每個區(qū)??域中找到最大值。圖像的卷積過程如圖2.2所示。??involution???max?pooling?v^c???V??nonlinearity?〇?\〇?...??;????.......????—??? ̄ ̄? ̄ ̄??convolution?pooling?layers?fully?ccsinected?layers?Nk?binary?clcesffication??圖2.2圖像卷積過程??對于CNN來說并不是所有的上下層神經(jīng)元都互相連接,而是通過filter作為??中介。再通過池化層進一步提高網(wǎng)絡的魯棒性。??CNN不僅可以用于圖像領域,在自然語言處理領域也取得不錯的成果。在2014??年Yoon?Kim[44l首先將CNN用于文本分類問題,并且得到了很好的效果。讓人們??看到CNN在自然語言處理方面的前景。相比于圖像,文本處理則是一維卷積,卷??積過程是整行整行的進行,filter的大小就是卷積行數(shù),有多少filter就有多少feature??map,也等于最后經(jīng)過池化后的向量的維度。其卷積的原理如圖2.3所示。??wait?|?T;?p?-、?|??for?:丨丨丨?—?????-?-?Z_p—]??*e?rp' ̄—-—lZtz??video???:?一?..
卷積提取出特征圖(Feature?Map)。池化層作用是對卷積后的特征進行降維,壓??縮數(shù)據(jù)量,減小過擬合。其中最常用的是最大池化(Max?Pooling),即在每個區(qū)??域中找到最大值。圖像的卷積過程如圖2.2所示。??involution???max?pooling?v^c???V??nonlinearity?〇?\〇?...??;????.......????—??? ̄ ̄? ̄ ̄??convolution?pooling?layers?fully?ccsinected?layers?Nk?binary?clcesffication??圖2.2圖像卷積過程??對于CNN來說并不是所有的上下層神經(jīng)元都互相連接,而是通過filter作為??中介。再通過池化層進一步提高網(wǎng)絡的魯棒性。??CNN不僅可以用于圖像領域,在自然語言處理領域也取得不錯的成果。在2014??年Yoon?Kim[44l首先將CNN用于文本分類問題,并且得到了很好的效果。讓人們??看到CNN在自然語言處理方面的前景。相比于圖像,文本處理則是一維卷積,卷??積過程是整行整行的進行,filter的大小就是卷積行數(shù),有多少filter就有多少feature??map,也等于最后經(jīng)過池化后的向量的維度。其卷積的原理如圖2.3所示。??wait?|?T;?p?-、?|??for?:丨丨丨?—?????-?-?Z_p—]??*e?rp' ̄—-—lZtz??video???:?一?..
【參考文獻】:
期刊論文
[1]基于深度信念網(wǎng)絡的地質(zhì)實體識別方法[J]. 張雪英,葉鵬,王曙,杜咪. 巖石學報. 2018(02)
[2]基于深度神經(jīng)網(wǎng)絡的命名實體識別方法研究[J]. GUL Khan Safi Qamas,尹繼澤,潘麗敏,羅森林. 信息網(wǎng)絡安全. 2017(10)
[3]基于BLSTM的命名實體識別方法[J]. 馮艷紅,于紅,孫庚,孫娟娟. 計算機科學. 2018(02)
[4]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計算機科學. 2016(06)
[5]基于位置敏感Embedding的中文命名實體識別[J]. 魯亞楠,孫銳,姬東鴻. 計算機應用研究. 2017(02)
[6]命名實體識別綜述[J]. 陳基. 現(xiàn)代計算機(專業(yè)版). 2016(03)
[7]問答系統(tǒng)綜述[J]. 李沛晏,朱露,吳多勝. 數(shù)字技術與應用. 2015(04)
[8]ICTCLAS中文詞法分析的Delphi調(diào)用研究[J]. 郭曉云. 電腦編程技巧與維護. 2011(24)
[9]基于規(guī)則和概率統(tǒng)計相結合的中文命名實體識別研究[J]. 閆萍. 計算機與數(shù)字工程. 2011(09)
[10]科學知識圖譜的發(fā)展歷程[J]. 陳悅,劉則淵,陳勁,侯劍華. 科學學研究. 2008(03)
碩士論文
[1]基于詞表示方法的生物醫(yī)學命名實體識別[D]. 何紅磊.大連理工大學 2015
[2]基于自主推理的中文命名實體識別方法研究[D]. 李波.西北大學 2012
本文編號:3466745
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3466745.html
最近更新
教材專著