面向農(nóng)業(yè)領(lǐng)域的命名實(shí)體識(shí)別研究
發(fā)布時(shí)間:2022-01-03 02:52
命名實(shí)體識(shí)別是指將非結(jié)構(gòu)化文本中的命名實(shí)體進(jìn)行定位和分類為預(yù)先定義的類別,它是自然語言處理中一項(xiàng)至關(guān)重要的基礎(chǔ)任務(wù),被應(yīng)用到了很多高級(jí)別的自然語言處理任務(wù)之中。在農(nóng)業(yè)信息化時(shí)代,互聯(lián)網(wǎng)上儲(chǔ)存著大量的非結(jié)構(gòu)化農(nóng)業(yè)文本,如何將這些雜亂無章的農(nóng)業(yè)文本轉(zhuǎn)化成高質(zhì)量、結(jié)構(gòu)化的農(nóng)業(yè)信息和農(nóng)業(yè)知識(shí),是實(shí)現(xiàn)智慧農(nóng)業(yè)的關(guān)鍵。因此,農(nóng)業(yè)領(lǐng)域命名實(shí)體識(shí)別是一個(gè)非常有研究意義的課題。本文主要研究如何利用神經(jīng)網(wǎng)絡(luò)模型從農(nóng)業(yè)文本中識(shí)別出與農(nóng)業(yè)領(lǐng)域有關(guān)的9類命名實(shí)體,并且從識(shí)別效果、模型訓(xùn)練時(shí)間、模型解碼時(shí)間和顯存占用等多個(gè)方面來分析所提出模型的優(yōu)缺點(diǎn)。本文的工作內(nèi)容和創(chuàng)新點(diǎn)可以總結(jié)為以下三點(diǎn):(1)本文首先選擇目前比較流行的(Bi-directional Long Short-Term Memory,BiLSTM)雙向長短期記憶網(wǎng)絡(luò)與條件隨機(jī)場(Conditional Random Field,CRF)相結(jié)合的神經(jīng)網(wǎng)絡(luò)架構(gòu)作為基準(zhǔn)模型,然后對(duì)其進(jìn)行優(yōu)化改進(jìn),提出了一種基于稠密連接的深層BiLSTM模型——DC-BiLSTM,并引入了注意力機(jī)制對(duì)文本中的實(shí)體片段進(jìn)行關(guān)注,加大實(shí)體部分特征和非實(shí)體部分特征的區(qū)別,使實(shí)...
【文章來源】:安徽農(nóng)業(yè)大學(xué)安徽省
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-2?RNN神經(jīng)元結(jié)構(gòu)圖??Fig?2-2?Recurrent?Neural?Network?architecture??
任意線性模型的組合任然是線性模型,而??線性模型能解決的問題是有限的。深度學(xué)習(xí)是一類通過多層非線性變換對(duì)高度復(fù)雜數(shù)??據(jù)建模算法的合集,它有兩個(gè)非常重要的特性一一多層和非線性。激活函數(shù)是實(shí)現(xiàn)非??線性變換的關(guān)鍵,它為神經(jīng)元添加了非線性因素,使得神經(jīng)網(wǎng)絡(luò)可以任意逼近任何非??線性函數(shù),這樣神經(jīng)網(wǎng)絡(luò)就從線性模型轉(zhuǎn)變?yōu)榉蔷€性模型。在神經(jīng)網(wǎng)絡(luò)模型中最常使??用的激活函數(shù)有S/gwo/Aton/r和;?£/??,下面我們來具體介紹這三種常用的激活函數(shù),??并對(duì)它們的優(yōu)缺點(diǎn)進(jìn)行分析:??(1)圖2-4是?S/gwoW函數(shù)曲線圖,它是一個(gè)S型函數(shù),由于其單增以及反函??數(shù)單增等性質(zhì),函數(shù)常被用作神經(jīng)網(wǎng)絡(luò)的閾值函數(shù),例如在LSTM的門結(jié)構(gòu)??中就大量用到了此激活函數(shù),公式2-12是它的數(shù)學(xué)表達(dá)式:??/W?=?士?(2-12)??/^\??08?/??。廿f—-/一??04?/??I_I?/?1??0.2?-??—?J??-??0.0?■??—??-10.0?-7.5?-5.0?-2.5?0.0?2.5?5.0?7.5?10.0??圖2-4?Sigmoid函數(shù)曲線圖??Fig?2-4?Sigmoid?function?graph??&加―函數(shù)的定義域在(-々ex)),值域在(〇,1),它的優(yōu)點(diǎn)是:可以壓縮數(shù)據(jù)并且幅??度不變;具有很好的對(duì)稱性,函數(shù)輸入超過一定范圍不敏感;處處連續(xù)便于求導(dǎo)。它??的缺點(diǎn)是:趨于無窮的區(qū)域函數(shù)值變換很小,不利于深層神經(jīng)網(wǎng)絡(luò)的反向傳播,很容??易造成梯度消失;輸出不是0均值,會(huì)導(dǎo)致后層的神經(jīng)元輸入是非0均值的信號(hào),這??樣在反向傳播過程中梯度要么向正方向更新,要么往負(fù)方向更新,使得模
(2)圖2-5是ton/?函數(shù)曲線圖,它是雙曲正切函數(shù),外型與S/gwoW很相似,??在特征相差明顯時(shí)它的效果會(huì)很好,在循環(huán)過程中會(huì)不斷擴(kuò)大特征的效果,因此在??LSTM中被用在了狀態(tài)和輸出上,公式2-13是它的數(shù)學(xué)表達(dá)式:??=?e?-e?(2-13)??coshx?ex?+e?x??1.00????r??0.50?/??025??〇?〇〇?.?一?.??-0.25?I.??-〇-50??仙?J??-1.00????-100?-7.5?-5.0?-2.5?0.0?2.5?5.0?7.5?10.0??圖2-5tanh函數(shù)曲線圖??Fig?2-5?tanh?function?graph??函數(shù)的定義域在(-〇〇,〇〇),值域在(_1,1),它的輸出是0均值的,不會(huì)存在??zero-centered問題,但是函數(shù)也會(huì)存在梯度飽和問題,導(dǎo)致訓(xùn)練效率低下。??(3)圖2-6是心Lh函數(shù)曲線圖,它又稱作修正線性單元,常用于隱層神經(jīng)元輸??出,它的數(shù)學(xué)表達(dá)式如下:??)\x)?=?max(0,x)?(2-14)??10?/??8?—.?1???/??/??>1?/??卜「1?^r?p-??-10.0?-7.5?-5.0?-2.5?0.0?2.5?5.0?7.5?10.0??圖2-6ReLu函數(shù)曲線圖??Fig?2-6?ReLu?function?graph??13??
【參考文獻(xiàn)】:
期刊論文
[1]利用數(shù)據(jù)挖掘技術(shù)建設(shè)農(nóng)業(yè)智能綜合信息服務(wù)平臺(tái)[J]. 張偉,歐吉順,周楚新. 農(nóng)業(yè)網(wǎng)絡(luò)信息. 2011(08)
[2]命名實(shí)體識(shí)別研究進(jìn)展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報(bào)技術(shù). 2010(06)
[3]融合多特征的最大熵漢語命名實(shí)體識(shí)別模型[J]. 張玥杰,徐智婷,薛向陽. 計(jì)算機(jī)研究與發(fā)展. 2008(06)
[4]中文金融新聞中公司名的識(shí)別[J]. 王寧,葛瑞芳,苑春法,黃錦輝,李文捷. 中文信息學(xué)報(bào). 2002(02)
碩士論文
[1]基于CRF的農(nóng)業(yè)命名實(shí)體識(shí)別研究[D]. 王春雨.河北農(nóng)業(yè)大學(xué) 2014
[2]基于CRF的中文命名實(shí)體識(shí)別研究[D]. 史海峰.蘇州大學(xué) 2010
[3]基于統(tǒng)計(jì)的生物命名實(shí)體識(shí)別研究[D]. 邱莎.四川大學(xué) 2006
本文編號(hào):3565414
【文章來源】:安徽農(nóng)業(yè)大學(xué)安徽省
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-2?RNN神經(jīng)元結(jié)構(gòu)圖??Fig?2-2?Recurrent?Neural?Network?architecture??
任意線性模型的組合任然是線性模型,而??線性模型能解決的問題是有限的。深度學(xué)習(xí)是一類通過多層非線性變換對(duì)高度復(fù)雜數(shù)??據(jù)建模算法的合集,它有兩個(gè)非常重要的特性一一多層和非線性。激活函數(shù)是實(shí)現(xiàn)非??線性變換的關(guān)鍵,它為神經(jīng)元添加了非線性因素,使得神經(jīng)網(wǎng)絡(luò)可以任意逼近任何非??線性函數(shù),這樣神經(jīng)網(wǎng)絡(luò)就從線性模型轉(zhuǎn)變?yōu)榉蔷€性模型。在神經(jīng)網(wǎng)絡(luò)模型中最常使??用的激活函數(shù)有S/gwo/Aton/r和;?£/??,下面我們來具體介紹這三種常用的激活函數(shù),??并對(duì)它們的優(yōu)缺點(diǎn)進(jìn)行分析:??(1)圖2-4是?S/gwoW函數(shù)曲線圖,它是一個(gè)S型函數(shù),由于其單增以及反函??數(shù)單增等性質(zhì),函數(shù)常被用作神經(jīng)網(wǎng)絡(luò)的閾值函數(shù),例如在LSTM的門結(jié)構(gòu)??中就大量用到了此激活函數(shù),公式2-12是它的數(shù)學(xué)表達(dá)式:??/W?=?士?(2-12)??/^\??08?/??。廿f—-/一??04?/??I_I?/?1??0.2?-??—?J??-??0.0?■??—??-10.0?-7.5?-5.0?-2.5?0.0?2.5?5.0?7.5?10.0??圖2-4?Sigmoid函數(shù)曲線圖??Fig?2-4?Sigmoid?function?graph??&加―函數(shù)的定義域在(-々ex)),值域在(〇,1),它的優(yōu)點(diǎn)是:可以壓縮數(shù)據(jù)并且幅??度不變;具有很好的對(duì)稱性,函數(shù)輸入超過一定范圍不敏感;處處連續(xù)便于求導(dǎo)。它??的缺點(diǎn)是:趨于無窮的區(qū)域函數(shù)值變換很小,不利于深層神經(jīng)網(wǎng)絡(luò)的反向傳播,很容??易造成梯度消失;輸出不是0均值,會(huì)導(dǎo)致后層的神經(jīng)元輸入是非0均值的信號(hào),這??樣在反向傳播過程中梯度要么向正方向更新,要么往負(fù)方向更新,使得模
(2)圖2-5是ton/?函數(shù)曲線圖,它是雙曲正切函數(shù),外型與S/gwoW很相似,??在特征相差明顯時(shí)它的效果會(huì)很好,在循環(huán)過程中會(huì)不斷擴(kuò)大特征的效果,因此在??LSTM中被用在了狀態(tài)和輸出上,公式2-13是它的數(shù)學(xué)表達(dá)式:??=?e?-e?(2-13)??coshx?ex?+e?x??1.00????r??0.50?/??025??〇?〇〇?.?一?.??-0.25?I.??-〇-50??仙?J??-1.00????-100?-7.5?-5.0?-2.5?0.0?2.5?5.0?7.5?10.0??圖2-5tanh函數(shù)曲線圖??Fig?2-5?tanh?function?graph??函數(shù)的定義域在(-〇〇,〇〇),值域在(_1,1),它的輸出是0均值的,不會(huì)存在??zero-centered問題,但是函數(shù)也會(huì)存在梯度飽和問題,導(dǎo)致訓(xùn)練效率低下。??(3)圖2-6是心Lh函數(shù)曲線圖,它又稱作修正線性單元,常用于隱層神經(jīng)元輸??出,它的數(shù)學(xué)表達(dá)式如下:??)\x)?=?max(0,x)?(2-14)??10?/??8?—.?1???/??/??>1?/??卜「1?^r?p-??-10.0?-7.5?-5.0?-2.5?0.0?2.5?5.0?7.5?10.0??圖2-6ReLu函數(shù)曲線圖??Fig?2-6?ReLu?function?graph??13??
【參考文獻(xiàn)】:
期刊論文
[1]利用數(shù)據(jù)挖掘技術(shù)建設(shè)農(nóng)業(yè)智能綜合信息服務(wù)平臺(tái)[J]. 張偉,歐吉順,周楚新. 農(nóng)業(yè)網(wǎng)絡(luò)信息. 2011(08)
[2]命名實(shí)體識(shí)別研究進(jìn)展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報(bào)技術(shù). 2010(06)
[3]融合多特征的最大熵漢語命名實(shí)體識(shí)別模型[J]. 張玥杰,徐智婷,薛向陽. 計(jì)算機(jī)研究與發(fā)展. 2008(06)
[4]中文金融新聞中公司名的識(shí)別[J]. 王寧,葛瑞芳,苑春法,黃錦輝,李文捷. 中文信息學(xué)報(bào). 2002(02)
碩士論文
[1]基于CRF的農(nóng)業(yè)命名實(shí)體識(shí)別研究[D]. 王春雨.河北農(nóng)業(yè)大學(xué) 2014
[2]基于CRF的中文命名實(shí)體識(shí)別研究[D]. 史海峰.蘇州大學(xué) 2010
[3]基于統(tǒng)計(jì)的生物命名實(shí)體識(shí)別研究[D]. 邱莎.四川大學(xué) 2006
本文編號(hào):3565414
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3565414.html
最近更新
教材專著