基于BiLSTM+CRF的漁業(yè)標(biāo)準(zhǔn)術(shù)語識別研究
發(fā)布時間:2021-11-20 15:25
漁業(yè)標(biāo)準(zhǔn)是漁業(yè)生產(chǎn)的重要指導(dǎo)性文件,漁業(yè)標(biāo)準(zhǔn)命名實體識別是構(gòu)建漁業(yè)標(biāo)準(zhǔn)內(nèi)容服務(wù)系統(tǒng)的基礎(chǔ)工作,機(jī)器翻譯、信息抽取、問答系統(tǒng)等相關(guān)工作都依賴漁業(yè)標(biāo)準(zhǔn)的命名實體識別任務(wù)。隨著計算性能的發(fā)展,深度學(xué)習(xí)方法在圖像文本領(lǐng)域取得的重大突破,使用深度學(xué)習(xí)方法稱為研究自然語言處理任務(wù)的主流方法。隨著漁業(yè)信息量的不斷增長,和漁業(yè)領(lǐng)域的特殊性,沒有領(lǐng)域的數(shù)據(jù)集和模型來實現(xiàn)漁業(yè)標(biāo)準(zhǔn)命名實體識別。因此,本文將結(jié)合漁業(yè)標(biāo)準(zhǔn)文本的特殊性,研究基于深度學(xué)習(xí)的漁業(yè)標(biāo)準(zhǔn)命名實體識別方法。具體工作如下:(1)漁業(yè)標(biāo)準(zhǔn)文本標(biāo)注方法的研究。針對漁業(yè)標(biāo)準(zhǔn)中命名實體識別需要利用文本結(jié)構(gòu)特征進(jìn)行識別、而傳統(tǒng)的BIO標(biāo)注方法無法表達(dá)實體之間的結(jié)構(gòu)信息這一問題,提出了E-BIO的標(biāo)注方法,該方法通過增加文本標(biāo)題標(biāo)簽使模型可以學(xué)習(xí)到實體的上下文結(jié)構(gòu)信息。經(jīng)實驗證明了提出的E-BIO標(biāo)注方式可以有效提升具有結(jié)構(gòu)特征的漁業(yè)標(biāo)準(zhǔn)文本實體的識別精度。(2)融合注意力機(jī)制的BiLSTM+CRF漁業(yè)標(biāo)準(zhǔn)命名實體識別模型研究。針對漁業(yè)標(biāo)準(zhǔn)文本序列長度較長,存在序列語義稀釋的問題,在BiLSTM+CRF模型中引入注意力機(jī)制,在特征提取階段通過生成不斷變...
【文章來源】:大連海洋大學(xué)遼寧省
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
命名實體識別工作流程
6表2-1BIO標(biāo)注Lab.2-1BIOannotation第一段標(biāo)注代表含義BBegin表示實體開頭字符IInside表示實體中間字符OOther其他第二段標(biāo)注通常有使用英文簡短的英文字符串來編碼。在通用領(lǐng)域使用PER、LOC、ORG標(biāo)注人名、地名、機(jī)構(gòu)名,標(biāo)注實例如下圖:圖2-3標(biāo)注實例Fig.2-3Calloutexample2.3.2BIOES標(biāo)注標(biāo)簽通常分為兩部分,第一段標(biāo)注表示詞語的結(jié)構(gòu),第二段標(biāo)注表示為詞語的類型。通常使用BIOES五種標(biāo)簽標(biāo)注命名實體識別語料庫。表2-1BIOES標(biāo)注Lab.2-1BIOESannotation第一段標(biāo)注代表含義BBegin表示實體開頭字符IInside表示實體中間字符EEnd表示實體結(jié)尾字符SSingle單字符實體OOther其他BIO與BIOES標(biāo)注方法沒有本質(zhì)區(qū)別,都可以通過標(biāo)簽將實體字符串完整的標(biāo)注出來。BIOES標(biāo)注法將實體尾字符和單個字符的實體做了特殊區(qū)分,但是BIO標(biāo)注法簡化了標(biāo)注手段,也可以完成實體標(biāo)注,不會對實驗結(jié)果產(chǎn)生影響。上述方法是對人名、地名、機(jī)構(gòu)名等常規(guī)命名實體識別任務(wù)中普遍使用的標(biāo)注方法,在特殊領(lǐng)域的命名實體識別任務(wù)中還需要領(lǐng)域命名實體的特點,有針對性的提出有效的語料標(biāo)注方法。2.4中文分詞分詞是將句子序列以詞語為基本單位進(jìn)行切分的過程。在英文文本中,單詞之間以空格作為天然分界符,人名、地名、機(jī)構(gòu)名等專有名詞有大寫的區(qū)分,但是在中文文本中,字符之間沒有空格等分界符。對于一個句子詞語的切分是人根據(jù)自身知識和經(jīng)驗進(jìn)行理解劃分的。由于中文的特殊行文結(jié)構(gòu),中文分詞是相較于英文自然語言處理的特殊
17第3章融合注意力機(jī)制的漁業(yè)標(biāo)準(zhǔn)命名實體識別技術(shù)本章節(jié)介紹漁業(yè)標(biāo)準(zhǔn)命名實體識別存在的問題,提出了E-BIO的標(biāo)注方法,并設(shè)計了融合注意力機(jī)制的漁業(yè)標(biāo)準(zhǔn)命名實體識別模型。首先根據(jù)漁業(yè)標(biāo)準(zhǔn)的文本數(shù)據(jù)特點基于BIO標(biāo)注提出了E-BIO標(biāo)注法構(gòu)建漁業(yè)標(biāo)準(zhǔn)語料庫;根據(jù)漁業(yè)標(biāo)準(zhǔn)命名實體識別存在的問題設(shè)計了基于字向量融合注意力機(jī)制的BiLSTM+CRF的漁業(yè)標(biāo)準(zhǔn)命名實體識別模型。字粒度的向量避免了分詞算法不準(zhǔn)確造成的錯誤蔓延,BiLSTM編碼器可以有效的提取實體特征,注意力機(jī)制的引入可以避免長序列前段語義稀釋,CRF解碼器可以考慮標(biāo)簽之間依賴性更合理的輸出標(biāo)注序列得到標(biāo)注結(jié)果,并用試驗驗證了本章所提方法的有效性。3.1漁業(yè)領(lǐng)域命名實體識別標(biāo)注3.1.1漁業(yè)標(biāo)準(zhǔn)命名實體定義漁業(yè)標(biāo)準(zhǔn)是指導(dǎo)漁業(yè)生產(chǎn)的規(guī)范性文件。漁業(yè)標(biāo)準(zhǔn)內(nèi)容的分析需要關(guān)注標(biāo)準(zhǔn)與標(biāo)準(zhǔn)之間的引用關(guān)系和漁業(yè)標(biāo)準(zhǔn)指標(biāo)的具體內(nèi)容,漁業(yè)標(biāo)準(zhǔn)之間的引用關(guān)系是通過漁業(yè)標(biāo)準(zhǔn)號體現(xiàn)的,因此定義了漁業(yè)標(biāo)準(zhǔn)命名實體識別任務(wù)是識別標(biāo)準(zhǔn)文本中“漁業(yè)標(biāo)準(zhǔn)號”和“漁業(yè)標(biāo)準(zhǔn)指標(biāo)”兩類命名實體。漁業(yè)標(biāo)準(zhǔn)號:漁業(yè)標(biāo)準(zhǔn)號是漁業(yè)標(biāo)準(zhǔn)的唯一標(biāo)識,由“字母段”和“數(shù)字段”兩部分構(gòu)成。通常出現(xiàn)在漁業(yè)標(biāo)準(zhǔn)“規(guī)范性引用文件”和標(biāo)準(zhǔn)指標(biāo)描述部分,如“GB11607”、“GB/T5099.44-2003”“NY5288-2006”、“SC2056”、“SC/T3210-2001”等。如圖3-1所示:圖3-1漁業(yè)標(biāo)準(zhǔn)號實例Fig.3-1ExamplesofFisheryStandardNumber漁業(yè)標(biāo)準(zhǔn)指標(biāo):是漁業(yè)標(biāo)準(zhǔn)定義漁業(yè)生產(chǎn)中需要規(guī)范化操作的項目名稱,如“育苗設(shè)施”、“原料處理與裝籠”、“凍品外觀檢驗”、“魚片”、“黑膜”等。如圖3-2所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于長短期記憶網(wǎng)絡(luò)的抗癌肽的預(yù)測[J]. 方春,孫福振,李彩虹,宋莉. 山東理工大學(xué)學(xué)報(自然科學(xué)版). 2020(03)
[2]基于word2vec的專利文本自動分類研究[J]. 薛金成,姜迪,吳建德. 信息技術(shù). 2020(02)
[3]基于統(tǒng)計方法從文本中抽取分詞詞典[J]. 黃超. 電腦知識與技術(shù). 2020(04)
[4]一種針對中國移動客服文本的分詞方法[J]. 鐘建,高海洋. 現(xiàn)代信息科技. 2020(01)
[5]基于神經(jīng)網(wǎng)絡(luò)的中文分詞技術(shù)研究[J]. 馬學(xué)海. 科學(xué)技術(shù)創(chuàng)新. 2019(32)
[6]基于Python的中文結(jié)巴分詞技術(shù)實現(xiàn)[J]. 曾小芹. 信息與電腦(理論版). 2019(18)
[7]序列標(biāo)注模型中不同輸入特征組合的集成學(xué)習(xí)與直推學(xué)習(xí)方法研究——以CCKS-2018電子病歷命名實體識別任務(wù)為例[J]. 孫安,于英香,羅永剛,孫遜. 情報雜志. 2019(10)
[8]基于深度學(xué)習(xí)的圖像風(fēng)格化算法研究綜述[J]. 黃海新,梁志旭,張東. 電子技術(shù)應(yīng)用. 2019(07)
[9]基于雙層注意力循環(huán)神經(jīng)網(wǎng)絡(luò)的方面級情感分析[J]. 曾鋒,曾碧卿,韓旭麗,張敏,商齊. 中文信息學(xué)報. 2019(06)
[10]基于BiLSTM-CRF的商情實體識別模型[J]. 張應(yīng)成,楊洋,蔣瑞,全兵,張利君,任曉雷. 計算機(jī)工程. 2019(05)
碩士論文
[1]面向司法領(lǐng)域的命名實體識別研究[D]. 林義孟.云南財經(jīng)大學(xué) 2019
[2]基于加權(quán)Word2vec的微博文本相似度計算方法研究[D]. 馬思丹.西安電子科技大學(xué) 2019
[3]基于支持向量機(jī)的并行文本分類方法研究[D]. 馮占芳.遼寧工業(yè)大學(xué) 2019
[4]基于分層標(biāo)注的地理領(lǐng)域嵌套命名實體識別研究[D]. 余云秀.東南大學(xué) 2018
[5]基于文本挖掘的生物命名實體識別算法研究[D]. 高冰濤.西北農(nóng)林科技大學(xué) 2018
[6]基于深度學(xué)習(xí)的中文命名實體識別研究[D]. 隋臣.浙江大學(xué) 2017
[7]基于LDA的文本分類研究及其應(yīng)用[D]. 張金瑞.鄭州大學(xué) 2016
[8]基于深度學(xué)習(xí)的中文命名實體識別研究[D]. 王國昱.北京工業(yè)大學(xué) 2015
[9]基于最大熵的客戶反饋系統(tǒng)設(shè)計與實現(xiàn)[D]. 劉丙華.北京交通大學(xué) 2015
[10]分布式全文檢索系統(tǒng)中索引管理及文件預(yù)處理研究[D]. 戴上靜.中國科學(xué)技術(shù)大學(xué) 2015
本文編號:3507610
【文章來源】:大連海洋大學(xué)遼寧省
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
命名實體識別工作流程
6表2-1BIO標(biāo)注Lab.2-1BIOannotation第一段標(biāo)注代表含義BBegin表示實體開頭字符IInside表示實體中間字符OOther其他第二段標(biāo)注通常有使用英文簡短的英文字符串來編碼。在通用領(lǐng)域使用PER、LOC、ORG標(biāo)注人名、地名、機(jī)構(gòu)名,標(biāo)注實例如下圖:圖2-3標(biāo)注實例Fig.2-3Calloutexample2.3.2BIOES標(biāo)注標(biāo)簽通常分為兩部分,第一段標(biāo)注表示詞語的結(jié)構(gòu),第二段標(biāo)注表示為詞語的類型。通常使用BIOES五種標(biāo)簽標(biāo)注命名實體識別語料庫。表2-1BIOES標(biāo)注Lab.2-1BIOESannotation第一段標(biāo)注代表含義BBegin表示實體開頭字符IInside表示實體中間字符EEnd表示實體結(jié)尾字符SSingle單字符實體OOther其他BIO與BIOES標(biāo)注方法沒有本質(zhì)區(qū)別,都可以通過標(biāo)簽將實體字符串完整的標(biāo)注出來。BIOES標(biāo)注法將實體尾字符和單個字符的實體做了特殊區(qū)分,但是BIO標(biāo)注法簡化了標(biāo)注手段,也可以完成實體標(biāo)注,不會對實驗結(jié)果產(chǎn)生影響。上述方法是對人名、地名、機(jī)構(gòu)名等常規(guī)命名實體識別任務(wù)中普遍使用的標(biāo)注方法,在特殊領(lǐng)域的命名實體識別任務(wù)中還需要領(lǐng)域命名實體的特點,有針對性的提出有效的語料標(biāo)注方法。2.4中文分詞分詞是將句子序列以詞語為基本單位進(jìn)行切分的過程。在英文文本中,單詞之間以空格作為天然分界符,人名、地名、機(jī)構(gòu)名等專有名詞有大寫的區(qū)分,但是在中文文本中,字符之間沒有空格等分界符。對于一個句子詞語的切分是人根據(jù)自身知識和經(jīng)驗進(jìn)行理解劃分的。由于中文的特殊行文結(jié)構(gòu),中文分詞是相較于英文自然語言處理的特殊
17第3章融合注意力機(jī)制的漁業(yè)標(biāo)準(zhǔn)命名實體識別技術(shù)本章節(jié)介紹漁業(yè)標(biāo)準(zhǔn)命名實體識別存在的問題,提出了E-BIO的標(biāo)注方法,并設(shè)計了融合注意力機(jī)制的漁業(yè)標(biāo)準(zhǔn)命名實體識別模型。首先根據(jù)漁業(yè)標(biāo)準(zhǔn)的文本數(shù)據(jù)特點基于BIO標(biāo)注提出了E-BIO標(biāo)注法構(gòu)建漁業(yè)標(biāo)準(zhǔn)語料庫;根據(jù)漁業(yè)標(biāo)準(zhǔn)命名實體識別存在的問題設(shè)計了基于字向量融合注意力機(jī)制的BiLSTM+CRF的漁業(yè)標(biāo)準(zhǔn)命名實體識別模型。字粒度的向量避免了分詞算法不準(zhǔn)確造成的錯誤蔓延,BiLSTM編碼器可以有效的提取實體特征,注意力機(jī)制的引入可以避免長序列前段語義稀釋,CRF解碼器可以考慮標(biāo)簽之間依賴性更合理的輸出標(biāo)注序列得到標(biāo)注結(jié)果,并用試驗驗證了本章所提方法的有效性。3.1漁業(yè)領(lǐng)域命名實體識別標(biāo)注3.1.1漁業(yè)標(biāo)準(zhǔn)命名實體定義漁業(yè)標(biāo)準(zhǔn)是指導(dǎo)漁業(yè)生產(chǎn)的規(guī)范性文件。漁業(yè)標(biāo)準(zhǔn)內(nèi)容的分析需要關(guān)注標(biāo)準(zhǔn)與標(biāo)準(zhǔn)之間的引用關(guān)系和漁業(yè)標(biāo)準(zhǔn)指標(biāo)的具體內(nèi)容,漁業(yè)標(biāo)準(zhǔn)之間的引用關(guān)系是通過漁業(yè)標(biāo)準(zhǔn)號體現(xiàn)的,因此定義了漁業(yè)標(biāo)準(zhǔn)命名實體識別任務(wù)是識別標(biāo)準(zhǔn)文本中“漁業(yè)標(biāo)準(zhǔn)號”和“漁業(yè)標(biāo)準(zhǔn)指標(biāo)”兩類命名實體。漁業(yè)標(biāo)準(zhǔn)號:漁業(yè)標(biāo)準(zhǔn)號是漁業(yè)標(biāo)準(zhǔn)的唯一標(biāo)識,由“字母段”和“數(shù)字段”兩部分構(gòu)成。通常出現(xiàn)在漁業(yè)標(biāo)準(zhǔn)“規(guī)范性引用文件”和標(biāo)準(zhǔn)指標(biāo)描述部分,如“GB11607”、“GB/T5099.44-2003”“NY5288-2006”、“SC2056”、“SC/T3210-2001”等。如圖3-1所示:圖3-1漁業(yè)標(biāo)準(zhǔn)號實例Fig.3-1ExamplesofFisheryStandardNumber漁業(yè)標(biāo)準(zhǔn)指標(biāo):是漁業(yè)標(biāo)準(zhǔn)定義漁業(yè)生產(chǎn)中需要規(guī)范化操作的項目名稱,如“育苗設(shè)施”、“原料處理與裝籠”、“凍品外觀檢驗”、“魚片”、“黑膜”等。如圖3-2所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于長短期記憶網(wǎng)絡(luò)的抗癌肽的預(yù)測[J]. 方春,孫福振,李彩虹,宋莉. 山東理工大學(xué)學(xué)報(自然科學(xué)版). 2020(03)
[2]基于word2vec的專利文本自動分類研究[J]. 薛金成,姜迪,吳建德. 信息技術(shù). 2020(02)
[3]基于統(tǒng)計方法從文本中抽取分詞詞典[J]. 黃超. 電腦知識與技術(shù). 2020(04)
[4]一種針對中國移動客服文本的分詞方法[J]. 鐘建,高海洋. 現(xiàn)代信息科技. 2020(01)
[5]基于神經(jīng)網(wǎng)絡(luò)的中文分詞技術(shù)研究[J]. 馬學(xué)海. 科學(xué)技術(shù)創(chuàng)新. 2019(32)
[6]基于Python的中文結(jié)巴分詞技術(shù)實現(xiàn)[J]. 曾小芹. 信息與電腦(理論版). 2019(18)
[7]序列標(biāo)注模型中不同輸入特征組合的集成學(xué)習(xí)與直推學(xué)習(xí)方法研究——以CCKS-2018電子病歷命名實體識別任務(wù)為例[J]. 孫安,于英香,羅永剛,孫遜. 情報雜志. 2019(10)
[8]基于深度學(xué)習(xí)的圖像風(fēng)格化算法研究綜述[J]. 黃海新,梁志旭,張東. 電子技術(shù)應(yīng)用. 2019(07)
[9]基于雙層注意力循環(huán)神經(jīng)網(wǎng)絡(luò)的方面級情感分析[J]. 曾鋒,曾碧卿,韓旭麗,張敏,商齊. 中文信息學(xué)報. 2019(06)
[10]基于BiLSTM-CRF的商情實體識別模型[J]. 張應(yīng)成,楊洋,蔣瑞,全兵,張利君,任曉雷. 計算機(jī)工程. 2019(05)
碩士論文
[1]面向司法領(lǐng)域的命名實體識別研究[D]. 林義孟.云南財經(jīng)大學(xué) 2019
[2]基于加權(quán)Word2vec的微博文本相似度計算方法研究[D]. 馬思丹.西安電子科技大學(xué) 2019
[3]基于支持向量機(jī)的并行文本分類方法研究[D]. 馮占芳.遼寧工業(yè)大學(xué) 2019
[4]基于分層標(biāo)注的地理領(lǐng)域嵌套命名實體識別研究[D]. 余云秀.東南大學(xué) 2018
[5]基于文本挖掘的生物命名實體識別算法研究[D]. 高冰濤.西北農(nóng)林科技大學(xué) 2018
[6]基于深度學(xué)習(xí)的中文命名實體識別研究[D]. 隋臣.浙江大學(xué) 2017
[7]基于LDA的文本分類研究及其應(yīng)用[D]. 張金瑞.鄭州大學(xué) 2016
[8]基于深度學(xué)習(xí)的中文命名實體識別研究[D]. 王國昱.北京工業(yè)大學(xué) 2015
[9]基于最大熵的客戶反饋系統(tǒng)設(shè)計與實現(xiàn)[D]. 劉丙華.北京交通大學(xué) 2015
[10]分布式全文檢索系統(tǒng)中索引管理及文件預(yù)處理研究[D]. 戴上靜.中國科學(xué)技術(shù)大學(xué) 2015
本文編號:3507610
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3507610.html
最近更新
教材專著