基于枸杞病蟲害知識圖譜的問答系統研究與實現
發(fā)布時間:2021-03-08 01:05
“互聯網+農業(yè)”憑借大數據、人工智能等前沿技術推動農業(yè)生產、病害防治及銷售等方面的發(fā)展取得了重要成果!爸腔坜r業(yè)”已成為科技輔助農業(yè)的重要舉措,不僅輔助農業(yè)增產、農業(yè)病害防治,且借用智能信息化來提升農業(yè)生產效率和水平。枸杞產業(yè)鏈作為寧夏地區(qū)特色產業(yè),隨著枸杞的種植規(guī)模提升、品種創(chuàng)新、銷售方式轉變等因素影響,必將推動枸杞種植、病害防治、專家咨詢及銷售的智能化平臺的大力發(fā)展。知識圖譜從早期Google用來增強搜索引擎效果的信息表示形式,逐漸發(fā)展成為一種新型的知識管理與知識創(chuàng)造技術,是提升語義檢索、智能問答等智能化應用的重要基礎。通過調研和分析,本文首先對枸杞病蟲害非結構化文本數據進行預處理,抽取枸杞病蟲害知識存入Neo4j數據庫中作為數據層,為枸杞知識可視化檢索和智能問答做數據基礎。其次,知識抽取是構建知識圖譜過程中最基礎和關鍵的步驟,本文依據寧夏本地的枸杞病蟲害數據的特點確定實體分類,針對病蟲害領域提出了一種考慮實體邊界劃分問題的標注規(guī)則,并利用該規(guī)則對病害名稱、癥狀、農藥品進行實體標注。另外考慮到病蟲害實體邊界模糊的特點,本文分析與設計了基于ALBERT模型的病蟲害實體識別模型,使用A...
【文章來源】:寧夏大學寧夏回族自治區(qū) 211工程院校
【文章頁數】:57 頁
【學位級別】:碩士
【部分圖文】:
圖1-1研究框架圖??
程上,Cobo等[8]對數據進行采集與檢索,經過數據清洗與處理達到數據標??準化從而構建知識圖譜,并進行可視化展示:楊思洛等[9]認為知識圖譜的構建過程可由數據獲娶??實體與關系的構建、數據標準化和知識圖譜可視化4部分構成:Bomei?等M認為知識圖譜構建由??數據獲娶實體關系概念定義、方法選擇、知識融合以及知識圖譜可視化5部分構成。雖然這些??過程都各有差異,但都存在著共同點,即知識抽娶知識融合、知識處理。因此本文將知識圖譜??的構建過程分為知識抽娶知識融合、知識處理三個主要部分,如圖2-1所示。知識圖譜中知識??抽取主要是指抽取文本中的實體信息、關系信息、屬性信息來構成〈實體-關系-實體〉、〈實體-關??系-屬性〉等三元組信息;知識融合中的實體對齊則針對同一實體的表示方式不同來進行匹配,實??體消歧則針對同一實體在不同上下文表達語義不同來進行區(qū)分:知識推理則是以現有的知識圖譜??通過各種方法去推理獲取潛在的知識。??I?1?.?I?1?I?1??I?(?|?取?I?|?I??結構化娜V-I?i—i ̄f數據整合i丨丨娜壤示??II?j]?1???1?*?^???^1??I?i?1?丨?I?丨?丨?c—^??I?rr?N?|?i?I?|?,丄?'?I?^??I?^^?|?j?[實咖取?j?J?|?^?〕|?|?^?)?I?圖諳??3?鏈艦挪)I?1?r?^?i?|?v?J?I?|?U?v.?J??|?UJ?i ̄^?l絲臟JI」i?丄?i?i?丄?i??I?(?v?I???,?|?["實體消歧?1 ̄I?l—l?[iRfiSte]?I??織4?I?[??議]|?I
將數據轉換為結構化形式。非結構化數據主??要以文本文檔為主,通常采用基于規(guī)則或神經網絡的方法從中抽取實體、關系、屬性等信息。本??文針對枸杞病蟲害非結構化文本數據進行抽取,對命名實體識別方法進行了研宂。??命名實體識別(Named?Entity?Recognition,NER)作為知識圖譜構建過程中重要的基礎工作,主??要任務是識別出文本中的人名、地名等表示命名實體的部分并加以歸類M。主要以基于規(guī)則和詞??典的方法、基于統計機器學習的方法以及基于神經網絡的方法為主。命名實體識別流程圖如圖2-2??所示:??_?_?mmm?__?_??|7?-T?l?h?,l?|T?,l??I?雜驗?|?|?基?w?|?|??ti^?|??,雜?'?I,?,l?I?I?I?I??'?^?i?觸?i?i?1?i?ii?n?r??總構化抹—?!?]?|?^基于習|?^?召酵?|???睹果??\?I?ii?II?|?U?L??數據標注?|?J墓于神經網結J?J?F1???圖2-2命名實體識別流程??基于規(guī)則和詞典的方法:基于規(guī)則的方法以人工構建規(guī)則模板,通過關鍵字詞、標點符號等??字符串匹配為主。國外最早研宄了英文命名實體識別的方法,Rau:15]采用了規(guī)則的方法首次識別??了公司名稱,但中文命名實體的詞性特征較英文有很大不同,因此中文實體識別的難度較英文大。??張小衡M等基于采用規(guī)則的方法對高校等中文機構名稱進行了實驗研究。這類方法大多依賴于知??識庫和詞典的建立,但知識庫與詞典系統建設周期長,可移植性較差。??基于統計機器學習的方法:基相較于基于規(guī)則的方法,基于統計機器學習的方法不依賴于知??
本文編號:3070134
【文章來源】:寧夏大學寧夏回族自治區(qū) 211工程院校
【文章頁數】:57 頁
【學位級別】:碩士
【部分圖文】:
圖1-1研究框架圖??
程上,Cobo等[8]對數據進行采集與檢索,經過數據清洗與處理達到數據標??準化從而構建知識圖譜,并進行可視化展示:楊思洛等[9]認為知識圖譜的構建過程可由數據獲娶??實體與關系的構建、數據標準化和知識圖譜可視化4部分構成:Bomei?等M認為知識圖譜構建由??數據獲娶實體關系概念定義、方法選擇、知識融合以及知識圖譜可視化5部分構成。雖然這些??過程都各有差異,但都存在著共同點,即知識抽娶知識融合、知識處理。因此本文將知識圖譜??的構建過程分為知識抽娶知識融合、知識處理三個主要部分,如圖2-1所示。知識圖譜中知識??抽取主要是指抽取文本中的實體信息、關系信息、屬性信息來構成〈實體-關系-實體〉、〈實體-關??系-屬性〉等三元組信息;知識融合中的實體對齊則針對同一實體的表示方式不同來進行匹配,實??體消歧則針對同一實體在不同上下文表達語義不同來進行區(qū)分:知識推理則是以現有的知識圖譜??通過各種方法去推理獲取潛在的知識。??I?1?.?I?1?I?1??I?(?|?取?I?|?I??結構化娜V-I?i—i ̄f數據整合i丨丨娜壤示??II?j]?1???1?*?^???^1??I?i?1?丨?I?丨?丨?c—^??I?rr?N?|?i?I?|?,丄?'?I?^??I?^^?|?j?[實咖取?j?J?|?^?〕|?|?^?)?I?圖諳??3?鏈艦挪)I?1?r?^?i?|?v?J?I?|?U?v.?J??|?UJ?i ̄^?l絲臟JI」i?丄?i?i?丄?i??I?(?v?I???,?|?["實體消歧?1 ̄I?l—l?[iRfiSte]?I??織4?I?[??議]|?I
將數據轉換為結構化形式。非結構化數據主??要以文本文檔為主,通常采用基于規(guī)則或神經網絡的方法從中抽取實體、關系、屬性等信息。本??文針對枸杞病蟲害非結構化文本數據進行抽取,對命名實體識別方法進行了研宂。??命名實體識別(Named?Entity?Recognition,NER)作為知識圖譜構建過程中重要的基礎工作,主??要任務是識別出文本中的人名、地名等表示命名實體的部分并加以歸類M。主要以基于規(guī)則和詞??典的方法、基于統計機器學習的方法以及基于神經網絡的方法為主。命名實體識別流程圖如圖2-2??所示:??_?_?mmm?__?_??|7?-T?l?h?,l?|T?,l??I?雜驗?|?|?基?w?|?|??ti^?|??,雜?'?I,?,l?I?I?I?I??'?^?i?觸?i?i?1?i?ii?n?r??總構化抹—?!?]?|?^基于習|?^?召酵?|???睹果??\?I?ii?II?|?U?L??數據標注?|?J墓于神經網結J?J?F1???圖2-2命名實體識別流程??基于規(guī)則和詞典的方法:基于規(guī)則的方法以人工構建規(guī)則模板,通過關鍵字詞、標點符號等??字符串匹配為主。國外最早研宄了英文命名實體識別的方法,Rau:15]采用了規(guī)則的方法首次識別??了公司名稱,但中文命名實體的詞性特征較英文有很大不同,因此中文實體識別的難度較英文大。??張小衡M等基于采用規(guī)則的方法對高校等中文機構名稱進行了實驗研究。這類方法大多依賴于知??識庫和詞典的建立,但知識庫與詞典系統建設周期長,可移植性較差。??基于統計機器學習的方法:基相較于基于規(guī)則的方法,基于統計機器學習的方法不依賴于知??
本文編號:3070134
本文鏈接:http://sikaile.net/nykjlw/dzwbhlw/3070134.html