濕地實體識別與開放關(guān)系抽取的研究
發(fā)布時間:2021-06-05 16:44
濕地文獻數(shù)據(jù)研究是濕地研究中重要的一部分,傳統(tǒng)的濕地文獻研究方法主要是對濕地文獻論文作者合作度,合著率,核心作者,論文引用數(shù)量,論文高頻關(guān)鍵詞的分析,缺少對濕地文獻文本語義方面的分析。濕地文獻文本數(shù)據(jù)本身具有復(fù)雜性和開放性,統(tǒng)計方法難以分析出濕地文獻所表達的具體實體信息和實體關(guān)系。因此本文的主要研究課題是濕地數(shù)據(jù)的命名實體識別和開放語義關(guān)系抽取,主要研究內(nèi)容和工作分為以下三個部分。第一部分是濕地命名實體識別。濕地領(lǐng)域命名實體包括動物實體,植物實體,人名,地名,組織機構(gòu)名實體等。針對人名,地名,組織機構(gòu)名的標(biāo)準(zhǔn)命名實體識別任務(wù),本文設(shè)計了一種結(jié)合雙向LSTM和CNN的深度識別方法,在雙向LSTM深度網(wǎng)絡(luò)中加入CNN單元來抽取單詞的字符特征,對比基于條件隨機場的命名實體識別工具Stanford Open NER識別結(jié)果,該方法在人名,地名,組織機構(gòu)名抽取精準(zhǔn)率,召回率,F1值上面有著不同程度的提升。對于其他濕地領(lǐng)域?qū)嶓w,分別采用Google Geocoding來對WGS84坐標(biāo)數(shù)據(jù)進行解析,構(gòu)建專業(yè)領(lǐng)域知識詞典來對動物實體,植物實體進行識別。第二部分主要研究濕地文獻實體關(guān)系抽取方法。濕地文...
【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
一循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
重要的組成部分是狀態(tài)單元s(t)單元有類似的線性自環(huán)。然而,此處自環(huán)??(或相關(guān)聯(lián)的時間常數(shù))由遺忘門(forget?gate)?/;(t)控制(時刻t和細胞??sigmoid單元將權(quán)重設(shè)置為0和1之間的值:??//°?=?cr(b;?+?U(.x^?+?5:;?(2-11)??式(2-11)中xW是當(dāng)前輸入向量,是當(dāng)前隱藏層向量,11?包含所有LSTM??輸出。bf,Uf?,Wf分別是偏置、輸入權(quán)重和遺忘門的循環(huán)權(quán)重。因此LSTM??部狀態(tài)以如(2-12)方式更新,其中有一個條件的自環(huán)權(quán)重:??s(0?=?+?gW^bi?+?^?+?^?.?w.jh^?(2-12)??中b,U,W分別是LSTM細胞中的偏置、輸入權(quán)重和遺忘門的循環(huán)權(quán)重。??入門(external?input?gate)單元以類似遺忘門(使用sigmoid獲得一個0??間的值)的方式更新,但有自身的參數(shù)??g??=?a(bf?+?z;?uf.xf?+?S;?(2-13)??TM細胞的輸出也可以由輸出門(output?gate)?關(guān)閉(使用sigmoid??為門控):??
種比較簡單得組織機構(gòu)名稱,抽取的結(jié)果相同比較準(zhǔn)確,例句2說明對于濕地獻中出現(xiàn)的特有名稱北大西洋濤動the?Arctic/North?Atlantic?Oscillation?(AO/NAO),兩方法都錯誤的認(rèn)為是一個組織機構(gòu)名稱,例句3說明對于文章發(fā)表的期刊的抽結(jié)果,深度網(wǎng)絡(luò)的結(jié)果往往認(rèn)為期刊名稱是一個組織機構(gòu)名稱,而條件隨機場的法認(rèn)為不是一個組織機構(gòu)名稱。??如上述例子所示,實驗分別在Abstract抽樣500條結(jié)果和s中抽樣500條進統(tǒng)計,抽取的結(jié)果如表3-11圖3-7所示:??表3-11機構(gòu)名抽取結(jié)果??Table?3-11?Organzition?Named?Entity?Results??Method?Stanford?NER?BiLSTM+CNN??Abstract?References?Abstract?References??Prec?81.23%?85.45%?52.47%?93.27%??Recall?58.27%?40.32%?87.21%?95.34%???FI?67.86%?54.79%?65.52%?94.29%????????????——??—?????
【參考文獻】:
期刊論文
[1]融合依存信息Attention機制的藥物關(guān)系抽取研究[J]. 李麗雙,錢爽,周安橋,劉陽,郭元凱. 中文信息學(xué)報. 2019(02)
[2]基于雙向LSTM和GBDT的中醫(yī)文本關(guān)系抽取模型[J]. 羅計根,杜建強,聶斌,熊旺平,劉蕾,賀佳. 計算機應(yīng)用研究. 2019(12)
[3]醫(yī)學(xué)知識圖譜構(gòu)建研究進展[J]. 修曉蕾,吳思竹,崔佳偉,鄔金鳴,錢慶. 中華醫(yī)學(xué)圖書情報雜志. 2018(10)
[4]基于文獻計量和知識圖譜的高原濕地研究熱點分析[J]. 張國飛,杜湘. 西南林業(yè)大學(xué)學(xué)報(社會科學(xué)). 2018(01)
[5]中醫(yī)藥知識圖譜構(gòu)建[J]. 賈李蓉,劉靜,于彤,董燕,朱玲,高博,劉麗紅. 醫(yī)學(xué)信息學(xué)雜志. 2015(08)
[6]基于樹核函數(shù)的中文語義角色標(biāo)注[J]. 王步康,王紅玲,周國棟. 計算機工程. 2011(22)
[7]基于特征組合的中文語義角色標(biāo)注[J]. 李世奇,趙鐵軍,李晗靜,劉鵬遠,劉水. 軟件學(xué)報. 2011(02)
[8]命名實體識別研究進展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報技術(shù). 2010(06)
[9]基于條件隨機場的語義角色標(biāo)注(英文)[J]. 于江德,樊孝忠,龐文博,余正濤. Journal of Southeast University(English Edition). 2007(03)
[10]基于最大熵分類器的語義角色標(biāo)注[J]. 劉挺,車萬翔,李生. 軟件學(xué)報. 2007(03)
本文編號:3212534
【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
一循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
重要的組成部分是狀態(tài)單元s(t)單元有類似的線性自環(huán)。然而,此處自環(huán)??(或相關(guān)聯(lián)的時間常數(shù))由遺忘門(forget?gate)?/;(t)控制(時刻t和細胞??sigmoid單元將權(quán)重設(shè)置為0和1之間的值:??//°?=?cr(b;?+?U(.x^?+?5:;?(2-11)??式(2-11)中xW是當(dāng)前輸入向量,是當(dāng)前隱藏層向量,11?包含所有LSTM??輸出。bf,Uf?,Wf分別是偏置、輸入權(quán)重和遺忘門的循環(huán)權(quán)重。因此LSTM??部狀態(tài)以如(2-12)方式更新,其中有一個條件的自環(huán)權(quán)重:??s(0?=?+?gW^bi?+?^?+?^?.?w.jh^?(2-12)??中b,U,W分別是LSTM細胞中的偏置、輸入權(quán)重和遺忘門的循環(huán)權(quán)重。??入門(external?input?gate)單元以類似遺忘門(使用sigmoid獲得一個0??間的值)的方式更新,但有自身的參數(shù)??g??=?a(bf?+?z;?uf.xf?+?S;?(2-13)??TM細胞的輸出也可以由輸出門(output?gate)?關(guān)閉(使用sigmoid??為門控):??
種比較簡單得組織機構(gòu)名稱,抽取的結(jié)果相同比較準(zhǔn)確,例句2說明對于濕地獻中出現(xiàn)的特有名稱北大西洋濤動the?Arctic/North?Atlantic?Oscillation?(AO/NAO),兩方法都錯誤的認(rèn)為是一個組織機構(gòu)名稱,例句3說明對于文章發(fā)表的期刊的抽結(jié)果,深度網(wǎng)絡(luò)的結(jié)果往往認(rèn)為期刊名稱是一個組織機構(gòu)名稱,而條件隨機場的法認(rèn)為不是一個組織機構(gòu)名稱。??如上述例子所示,實驗分別在Abstract抽樣500條結(jié)果和s中抽樣500條進統(tǒng)計,抽取的結(jié)果如表3-11圖3-7所示:??表3-11機構(gòu)名抽取結(jié)果??Table?3-11?Organzition?Named?Entity?Results??Method?Stanford?NER?BiLSTM+CNN??Abstract?References?Abstract?References??Prec?81.23%?85.45%?52.47%?93.27%??Recall?58.27%?40.32%?87.21%?95.34%???FI?67.86%?54.79%?65.52%?94.29%????????????——??—?????
【參考文獻】:
期刊論文
[1]融合依存信息Attention機制的藥物關(guān)系抽取研究[J]. 李麗雙,錢爽,周安橋,劉陽,郭元凱. 中文信息學(xué)報. 2019(02)
[2]基于雙向LSTM和GBDT的中醫(yī)文本關(guān)系抽取模型[J]. 羅計根,杜建強,聶斌,熊旺平,劉蕾,賀佳. 計算機應(yīng)用研究. 2019(12)
[3]醫(yī)學(xué)知識圖譜構(gòu)建研究進展[J]. 修曉蕾,吳思竹,崔佳偉,鄔金鳴,錢慶. 中華醫(yī)學(xué)圖書情報雜志. 2018(10)
[4]基于文獻計量和知識圖譜的高原濕地研究熱點分析[J]. 張國飛,杜湘. 西南林業(yè)大學(xué)學(xué)報(社會科學(xué)). 2018(01)
[5]中醫(yī)藥知識圖譜構(gòu)建[J]. 賈李蓉,劉靜,于彤,董燕,朱玲,高博,劉麗紅. 醫(yī)學(xué)信息學(xué)雜志. 2015(08)
[6]基于樹核函數(shù)的中文語義角色標(biāo)注[J]. 王步康,王紅玲,周國棟. 計算機工程. 2011(22)
[7]基于特征組合的中文語義角色標(biāo)注[J]. 李世奇,趙鐵軍,李晗靜,劉鵬遠,劉水. 軟件學(xué)報. 2011(02)
[8]命名實體識別研究進展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報技術(shù). 2010(06)
[9]基于條件隨機場的語義角色標(biāo)注(英文)[J]. 于江德,樊孝忠,龐文博,余正濤. Journal of Southeast University(English Edition). 2007(03)
[10]基于最大熵分類器的語義角色標(biāo)注[J]. 劉挺,車萬翔,李生. 軟件學(xué)報. 2007(03)
本文編號:3212534
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3212534.html
最近更新
教材專著