水稻病蟲草害與藥劑實體關(guān)系聯(lián)合抽取算法
發(fā)布時間:2022-02-26 15:34
[目的]從水稻病蟲草害防治文本中,自動抽取病蟲草害與藥劑之間的實體與關(guān)系,為構(gòu)建作物系統(tǒng)領(lǐng)域知識圖譜提供數(shù)據(jù)。[方法]針對病蟲草害防治文本中含有大量實體沒有明確邊界以及藥劑與病蟲草害實體之間存在多種類型關(guān)系的特點,設(shè)計了一種基于新標(biāo)注模式的雙層長短期記憶(bi-directional long short-term memory,BiLSTM)網(wǎng)絡(luò)與注意力機(jī)制結(jié)合的水稻病蟲草害與藥劑的實體關(guān)系聯(lián)合抽取算法(joint entity recognition and relation extraction for rice diseases,pests and weeds,JE-DPW)。該方法在解碼層利用BiLSTM網(wǎng)絡(luò)的前向傳播和反向傳播,增強(qiáng)對病蟲草害防治文本中復(fù)雜語義特征的提取;再通過softmax分類器獲取字符的類別標(biāo)簽,實現(xiàn)實體識別;與此同時,利用注意力機(jī)制判斷當(dāng)前字符與之前字符之間存在的關(guān)聯(lián)關(guān)系,實現(xiàn)實體與多關(guān)系的聯(lián)合抽取。[結(jié)果]利用包含7 380個實體、8 605個關(guān)系的病蟲草害防治文本數(shù)據(jù)集訓(xùn)練模型,使用測試集測試后發(fā)現(xiàn):JE-DPW算法在病蟲草害與藥劑的實體抽取和關(guān)系...
【文章來源】:南京農(nóng)業(yè)大學(xué)學(xué)報. 2020,43(06)北大核心CSCD
【文章頁數(shù)】:11 頁
【部分圖文】:
JE-DPW算法框架
藥劑與病蟲草害實體之間的關(guān)系細(xì)分為6種,分別是:治療病害關(guān)系(Treate_dis)、不治療病害關(guān)系(Distreate_dis)、治療蟲害關(guān)系(Treate_pes)、不治療蟲害關(guān)系(Distreate_pes)、治療草害關(guān)系(Treate_str)、不治療草害關(guān)系(Distreate_str)。其中Treate表示治療,Distreate表示不治療,下劃線“_”后面接的是治療或者不治療的類型。圖2為標(biāo)注的例句展示。由于自制數(shù)據(jù)集全部通過手工標(biāo)注,標(biāo)注錯誤可能導(dǎo)致噪聲標(biāo)簽的出現(xiàn)。對于人工標(biāo)注錯誤的噪聲標(biāo)簽,本文設(shè)計了自動找錯程序,首先檢測實體標(biāo)簽是否符合“BIO”標(biāo)注規(guī)則,即每一個實體標(biāo)簽都是以B開頭,中間和結(jié)尾的字符都是I標(biāo)簽。例如藥劑實體標(biāo)簽的開頭都是B-DRU,那么在下一個O標(biāo)簽之前,后續(xù)的實體標(biāo)簽一定都是I-DRU,否則標(biāo)注錯誤,輸出錯誤的位置,然后人工修正。對于關(guān)系標(biāo)簽主要是通過字符串檢測的方式,來判斷關(guān)系標(biāo)注的準(zhǔn)確性,發(fā)現(xiàn)標(biāo)注錯誤后,人為修改錯誤的標(biāo)簽保證自制數(shù)據(jù)集標(biāo)注的正確性。
圖3為不同方法識別的實體數(shù)情況。從圖3-a可以看出:JE-DPW模型、BiLSTM-WA模型、E-BiLSTM模型識別的實體數(shù)相差不大,分別為1 865、1 856、1 868;JE-DPW模型正確識別的實體數(shù)是1 703,比BiLSTM-WA和E-BiLSTM分別多46和165,錯誤識別的實體數(shù)為162,分別比BiLSTM-WA模型和 E-BiLSTM 模型少37和168,說明JE-DPW模型抽取效果更優(yōu)。實體識別錯誤主要分為3種情形:類型錯誤、歧義錯誤、邊界錯誤。類型錯誤指實體邊界正確,但是類型錯誤,如表6中E-BiLSTM模型將草害實體“千金子”錯誤地識別為藥劑類型實體。歧義錯誤指該實體表示的意思有多種,如蟲害實體“二化螟”包含“一代二化螟”“二代二化螟”“三代二化螟”等。邊界錯誤指實體類型識別正確但是邊界發(fā)生錯誤,如表6中對藥劑實體“吡嘧磺隆”3種模型都把該實體識別為藥劑類型(DRU),但是識別的實體名稱為“吡嘧磺”,缺少了邊界字符。從圖3-b可以看出:JE-DPW、BiLSTM-WA、E-BiLSTM發(fā)生實體邊界錯誤數(shù)分別為147、176和295,邊界錯誤占總錯誤數(shù)的比例分別為88.3%、88.4%、89.4%,因此實體邊界錯誤是實體識別的主要錯誤。從圖3-c可見:E-BiLSTM模型在抽取實體時,邊界錯誤的實體中有155個屬于無邊界實體,而JE-DPW模型中,邊界錯誤的實體僅有76個屬于無邊界實體,比E-BiLSTM模型少79個;在無邊界實體識別上,JE-DPW模型的抽取效果明顯優(yōu)于 E-BiLSTM 模型。JE-DPW模型比BiLSTM-WA模型對無邊界實體識別的錯誤數(shù)少18個,表明在解碼層使用BiLSTM網(wǎng)絡(luò)對文本特征提取的能力強(qiáng)于使用單向LSTM網(wǎng)絡(luò),在實體抽取上所得到的語義信息更充分。
【參考文獻(xiàn)】:
期刊論文
[1]基于神經(jīng)網(wǎng)絡(luò)的藥物實體與關(guān)系聯(lián)合抽取[J]. 曹明宇,楊志豪,羅凌,林鴻飛,王健. 計算機(jī)研究與發(fā)展. 2019(07)
[2]深度學(xué)習(xí)實體關(guān)系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學(xué)報. 2019(06)
[3]基于聯(lián)合模型的藏文實體關(guān)系抽取方法研究[J]. 夏天賜,孫媛. 中文信息學(xué)報. 2018(12)
[4]基于條件隨機(jī)場的農(nóng)作物病蟲害及農(nóng)藥命名實體識別[J]. 李想,魏小紅,賈璐,陳昕,劉磊,張彥娥. 農(nóng)業(yè)機(jī)械學(xué)報. 2017(S1)
[5]基于BLSTM的命名實體識別方法[J]. 馮艷紅,于紅,孫庚,孫娟娟. 計算機(jī)科學(xué). 2018(02)
[6]知識圖譜研究進(jìn)展[J]. 漆桂林,高桓,吳天星. 情報工程. 2017(01)
[7]基于條件隨機(jī)場的農(nóng)業(yè)命名實體識別研究[J]. 王春雨,王芳. 河北農(nóng)業(yè)大學(xué)學(xué)報. 2014(01)
本文編號:3644713
【文章來源】:南京農(nóng)業(yè)大學(xué)學(xué)報. 2020,43(06)北大核心CSCD
【文章頁數(shù)】:11 頁
【部分圖文】:
JE-DPW算法框架
藥劑與病蟲草害實體之間的關(guān)系細(xì)分為6種,分別是:治療病害關(guān)系(Treate_dis)、不治療病害關(guān)系(Distreate_dis)、治療蟲害關(guān)系(Treate_pes)、不治療蟲害關(guān)系(Distreate_pes)、治療草害關(guān)系(Treate_str)、不治療草害關(guān)系(Distreate_str)。其中Treate表示治療,Distreate表示不治療,下劃線“_”后面接的是治療或者不治療的類型。圖2為標(biāo)注的例句展示。由于自制數(shù)據(jù)集全部通過手工標(biāo)注,標(biāo)注錯誤可能導(dǎo)致噪聲標(biāo)簽的出現(xiàn)。對于人工標(biāo)注錯誤的噪聲標(biāo)簽,本文設(shè)計了自動找錯程序,首先檢測實體標(biāo)簽是否符合“BIO”標(biāo)注規(guī)則,即每一個實體標(biāo)簽都是以B開頭,中間和結(jié)尾的字符都是I標(biāo)簽。例如藥劑實體標(biāo)簽的開頭都是B-DRU,那么在下一個O標(biāo)簽之前,后續(xù)的實體標(biāo)簽一定都是I-DRU,否則標(biāo)注錯誤,輸出錯誤的位置,然后人工修正。對于關(guān)系標(biāo)簽主要是通過字符串檢測的方式,來判斷關(guān)系標(biāo)注的準(zhǔn)確性,發(fā)現(xiàn)標(biāo)注錯誤后,人為修改錯誤的標(biāo)簽保證自制數(shù)據(jù)集標(biāo)注的正確性。
圖3為不同方法識別的實體數(shù)情況。從圖3-a可以看出:JE-DPW模型、BiLSTM-WA模型、E-BiLSTM模型識別的實體數(shù)相差不大,分別為1 865、1 856、1 868;JE-DPW模型正確識別的實體數(shù)是1 703,比BiLSTM-WA和E-BiLSTM分別多46和165,錯誤識別的實體數(shù)為162,分別比BiLSTM-WA模型和 E-BiLSTM 模型少37和168,說明JE-DPW模型抽取效果更優(yōu)。實體識別錯誤主要分為3種情形:類型錯誤、歧義錯誤、邊界錯誤。類型錯誤指實體邊界正確,但是類型錯誤,如表6中E-BiLSTM模型將草害實體“千金子”錯誤地識別為藥劑類型實體。歧義錯誤指該實體表示的意思有多種,如蟲害實體“二化螟”包含“一代二化螟”“二代二化螟”“三代二化螟”等。邊界錯誤指實體類型識別正確但是邊界發(fā)生錯誤,如表6中對藥劑實體“吡嘧磺隆”3種模型都把該實體識別為藥劑類型(DRU),但是識別的實體名稱為“吡嘧磺”,缺少了邊界字符。從圖3-b可以看出:JE-DPW、BiLSTM-WA、E-BiLSTM發(fā)生實體邊界錯誤數(shù)分別為147、176和295,邊界錯誤占總錯誤數(shù)的比例分別為88.3%、88.4%、89.4%,因此實體邊界錯誤是實體識別的主要錯誤。從圖3-c可見:E-BiLSTM模型在抽取實體時,邊界錯誤的實體中有155個屬于無邊界實體,而JE-DPW模型中,邊界錯誤的實體僅有76個屬于無邊界實體,比E-BiLSTM模型少79個;在無邊界實體識別上,JE-DPW模型的抽取效果明顯優(yōu)于 E-BiLSTM 模型。JE-DPW模型比BiLSTM-WA模型對無邊界實體識別的錯誤數(shù)少18個,表明在解碼層使用BiLSTM網(wǎng)絡(luò)對文本特征提取的能力強(qiáng)于使用單向LSTM網(wǎng)絡(luò),在實體抽取上所得到的語義信息更充分。
【參考文獻(xiàn)】:
期刊論文
[1]基于神經(jīng)網(wǎng)絡(luò)的藥物實體與關(guān)系聯(lián)合抽取[J]. 曹明宇,楊志豪,羅凌,林鴻飛,王健. 計算機(jī)研究與發(fā)展. 2019(07)
[2]深度學(xué)習(xí)實體關(guān)系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學(xué)報. 2019(06)
[3]基于聯(lián)合模型的藏文實體關(guān)系抽取方法研究[J]. 夏天賜,孫媛. 中文信息學(xué)報. 2018(12)
[4]基于條件隨機(jī)場的農(nóng)作物病蟲害及農(nóng)藥命名實體識別[J]. 李想,魏小紅,賈璐,陳昕,劉磊,張彥娥. 農(nóng)業(yè)機(jī)械學(xué)報. 2017(S1)
[5]基于BLSTM的命名實體識別方法[J]. 馮艷紅,于紅,孫庚,孫娟娟. 計算機(jī)科學(xué). 2018(02)
[6]知識圖譜研究進(jìn)展[J]. 漆桂林,高桓,吳天星. 情報工程. 2017(01)
[7]基于條件隨機(jī)場的農(nóng)業(yè)命名實體識別研究[J]. 王春雨,王芳. 河北農(nóng)業(yè)大學(xué)學(xué)報. 2014(01)
本文編號:3644713
本文鏈接:http://sikaile.net/nykjlw/dzwbhlw/3644713.html
最近更新
教材專著