天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

水稻病蟲(chóng)草害與藥劑實(shí)體關(guān)系聯(lián)合抽取算法

發(fā)布時(shí)間:2022-02-26 15:34
  [目的]從水稻病蟲(chóng)草害防治文本中,自動(dòng)抽取病蟲(chóng)草害與藥劑之間的實(shí)體與關(guān)系,為構(gòu)建作物系統(tǒng)領(lǐng)域知識(shí)圖譜提供數(shù)據(jù)。[方法]針對(duì)病蟲(chóng)草害防治文本中含有大量實(shí)體沒(méi)有明確邊界以及藥劑與病蟲(chóng)草害實(shí)體之間存在多種類型關(guān)系的特點(diǎn),設(shè)計(jì)了一種基于新標(biāo)注模式的雙層長(zhǎng)短期記憶(bi-directional long short-term memory,BiLSTM)網(wǎng)絡(luò)與注意力機(jī)制結(jié)合的水稻病蟲(chóng)草害與藥劑的實(shí)體關(guān)系聯(lián)合抽取算法(joint entity recognition and relation extraction for rice diseases,pests and weeds,JE-DPW)。該方法在解碼層利用BiLSTM網(wǎng)絡(luò)的前向傳播和反向傳播,增強(qiáng)對(duì)病蟲(chóng)草害防治文本中復(fù)雜語(yǔ)義特征的提取;再通過(guò)softmax分類器獲取字符的類別標(biāo)簽,實(shí)現(xiàn)實(shí)體識(shí)別;與此同時(shí),利用注意力機(jī)制判斷當(dāng)前字符與之前字符之間存在的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)實(shí)體與多關(guān)系的聯(lián)合抽取。[結(jié)果]利用包含7 380個(gè)實(shí)體、8 605個(gè)關(guān)系的病蟲(chóng)草害防治文本數(shù)據(jù)集訓(xùn)練模型,使用測(cè)試集測(cè)試后發(fā)現(xiàn):JE-DPW算法在病蟲(chóng)草害與藥劑的實(shí)體抽取和關(guān)系... 

【文章來(lái)源】:南京農(nóng)業(yè)大學(xué)學(xué)報(bào). 2020,43(06)北大核心CSCD

【文章頁(yè)數(shù)】:11 頁(yè)

【部分圖文】:

水稻病蟲(chóng)草害與藥劑實(shí)體關(guān)系聯(lián)合抽取算法


JE-DPW算法框架

病蟲(chóng),藥劑,實(shí)體,標(biāo)簽


藥劑與病蟲(chóng)草害實(shí)體之間的關(guān)系細(xì)分為6種,分別是:治療病害關(guān)系(Treate_dis)、不治療病害關(guān)系(Distreate_dis)、治療蟲(chóng)害關(guān)系(Treate_pes)、不治療蟲(chóng)害關(guān)系(Distreate_pes)、治療草害關(guān)系(Treate_str)、不治療草害關(guān)系(Distreate_str)。其中Treate表示治療,Distreate表示不治療,下劃線“_”后面接的是治療或者不治療的類型。圖2為標(biāo)注的例句展示。由于自制數(shù)據(jù)集全部通過(guò)手工標(biāo)注,標(biāo)注錯(cuò)誤可能導(dǎo)致噪聲標(biāo)簽的出現(xiàn)。對(duì)于人工標(biāo)注錯(cuò)誤的噪聲標(biāo)簽,本文設(shè)計(jì)了自動(dòng)找錯(cuò)程序,首先檢測(cè)實(shí)體標(biāo)簽是否符合“BIO”標(biāo)注規(guī)則,即每一個(gè)實(shí)體標(biāo)簽都是以B開(kāi)頭,中間和結(jié)尾的字符都是I標(biāo)簽。例如藥劑實(shí)體標(biāo)簽的開(kāi)頭都是B-DRU,那么在下一個(gè)O標(biāo)簽之前,后續(xù)的實(shí)體標(biāo)簽一定都是I-DRU,否則標(biāo)注錯(cuò)誤,輸出錯(cuò)誤的位置,然后人工修正。對(duì)于關(guān)系標(biāo)簽主要是通過(guò)字符串檢測(cè)的方式,來(lái)判斷關(guān)系標(biāo)注的準(zhǔn)確性,發(fā)現(xiàn)標(biāo)注錯(cuò)誤后,人為修改錯(cuò)誤的標(biāo)簽保證自制數(shù)據(jù)集標(biāo)注的正確性。

統(tǒng)計(jì)圖,實(shí)體,模型識(shí)別,統(tǒng)計(jì)圖


圖3為不同方法識(shí)別的實(shí)體數(shù)情況。從圖3-a可以看出:JE-DPW模型、BiLSTM-WA模型、E-BiLSTM模型識(shí)別的實(shí)體數(shù)相差不大,分別為1 865、1 856、1 868;JE-DPW模型正確識(shí)別的實(shí)體數(shù)是1 703,比BiLSTM-WA和E-BiLSTM分別多46和165,錯(cuò)誤識(shí)別的實(shí)體數(shù)為162,分別比BiLSTM-WA模型和 E-BiLSTM 模型少37和168,說(shuō)明JE-DPW模型抽取效果更優(yōu)。實(shí)體識(shí)別錯(cuò)誤主要分為3種情形:類型錯(cuò)誤、歧義錯(cuò)誤、邊界錯(cuò)誤。類型錯(cuò)誤指實(shí)體邊界正確,但是類型錯(cuò)誤,如表6中E-BiLSTM模型將草害實(shí)體“千金子”錯(cuò)誤地識(shí)別為藥劑類型實(shí)體。歧義錯(cuò)誤指該實(shí)體表示的意思有多種,如蟲(chóng)害實(shí)體“二化螟”包含“一代二化螟”“二代二化螟”“三代二化螟”等。邊界錯(cuò)誤指實(shí)體類型識(shí)別正確但是邊界發(fā)生錯(cuò)誤,如表6中對(duì)藥劑實(shí)體“吡嘧磺隆”3種模型都把該實(shí)體識(shí)別為藥劑類型(DRU),但是識(shí)別的實(shí)體名稱為“吡嘧磺”,缺少了邊界字符。從圖3-b可以看出:JE-DPW、BiLSTM-WA、E-BiLSTM發(fā)生實(shí)體邊界錯(cuò)誤數(shù)分別為147、176和295,邊界錯(cuò)誤占總錯(cuò)誤數(shù)的比例分別為88.3%、88.4%、89.4%,因此實(shí)體邊界錯(cuò)誤是實(shí)體識(shí)別的主要錯(cuò)誤。從圖3-c可見(jiàn):E-BiLSTM模型在抽取實(shí)體時(shí),邊界錯(cuò)誤的實(shí)體中有155個(gè)屬于無(wú)邊界實(shí)體,而JE-DPW模型中,邊界錯(cuò)誤的實(shí)體僅有76個(gè)屬于無(wú)邊界實(shí)體,比E-BiLSTM模型少79個(gè);在無(wú)邊界實(shí)體識(shí)別上,JE-DPW模型的抽取效果明顯優(yōu)于 E-BiLSTM 模型。JE-DPW模型比BiLSTM-WA模型對(duì)無(wú)邊界實(shí)體識(shí)別的錯(cuò)誤數(shù)少18個(gè),表明在解碼層使用BiLSTM網(wǎng)絡(luò)對(duì)文本特征提取的能力強(qiáng)于使用單向LSTM網(wǎng)絡(luò),在實(shí)體抽取上所得到的語(yǔ)義信息更充分。

【參考文獻(xiàn)】:
期刊論文
[1]基于神經(jīng)網(wǎng)絡(luò)的藥物實(shí)體與關(guān)系聯(lián)合抽取[J]. 曹明宇,楊志豪,羅凌,林鴻飛,王健.  計(jì)算機(jī)研究與發(fā)展. 2019(07)
[2]深度學(xué)習(xí)實(shí)體關(guān)系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴.  軟件學(xué)報(bào). 2019(06)
[3]基于聯(lián)合模型的藏文實(shí)體關(guān)系抽取方法研究[J]. 夏天賜,孫媛.  中文信息學(xué)報(bào). 2018(12)
[4]基于條件隨機(jī)場(chǎng)的農(nóng)作物病蟲(chóng)害及農(nóng)藥命名實(shí)體識(shí)別[J]. 李想,魏小紅,賈璐,陳昕,劉磊,張彥娥.  農(nóng)業(yè)機(jī)械學(xué)報(bào). 2017(S1)
[5]基于BLSTM的命名實(shí)體識(shí)別方法[J]. 馮艷紅,于紅,孫庚,孫娟娟.  計(jì)算機(jī)科學(xué). 2018(02)
[6]知識(shí)圖譜研究進(jìn)展[J]. 漆桂林,高桓,吳天星.  情報(bào)工程. 2017(01)
[7]基于條件隨機(jī)場(chǎng)的農(nóng)業(yè)命名實(shí)體識(shí)別研究[J]. 王春雨,王芳.  河北農(nóng)業(yè)大學(xué)學(xué)報(bào). 2014(01)



本文編號(hào):3644713

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/nykjlw/dzwbhlw/3644713.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0ad2a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com