基于Bootstrapping的水利空間關系詞提取
發(fā)布時間:2021-06-07 00:38
目前,在利用水利領域數(shù)據(jù)庫構建知識圖譜的過程中發(fā)現(xiàn)水利空間關系詞的提取存在以下問題:數(shù)據(jù)庫中水利對象空間關系詞較少,難以滿足查詢需要;水利對象間的關系類型復雜,依靠人工構建太過費力。為了解決上述問題,文中首先從專業(yè)性強的高質量水利公文文本中提取空間關系詞形成種子集;然后,通過外部詞典進行空間關系詞的擴展,并結合語料提取面向水利空間關系詞的句法模式;最后,通過泛化后的句法模式,對大規(guī)模水利文本數(shù)據(jù)進行空間關系詞提取,生成空間關系元組,再將其作為種子集重復上述步驟。該方法使用少量的人工操作便可從語料中獲得大量空間語義句法模式以及空間關系元組,逐步擴展構建并最終形成水利空間關系詞詞典,成為擴充水利對象知識圖譜、提升智能檢索的準確率的重要支撐。
【文章來源】:計算機科學. 2020,47(12)北大核心CSCD
【文章頁數(shù)】:8 頁
【部分圖文】:
本文方法框架
3.3節(jié)使用句法模式的泛化來獲得多個抽象模式,這些抽象模式都可以用來提取空間關系元組。本節(jié)重點介紹如何在語料庫中利用抽象模式來獲取更多的空間關系元組,圖2為空間關系的提取流程。首先,根據(jù)空間關系詞詞表從大規(guī)模語料中檢索出包含該詞的共現(xiàn)句,通過分詞、詞性標注、去除停用詞等預處理,以及上述原始句法模式獲取方法得到這些句子的句法模式;然后將生成的每個模式與抽象模式集合內的模式匹配,當原始句法模式與抽象模式中的實體類型相同、關系詞的詞序相同,并且原始句法模式與某個抽象模式的相似度大于閾值β(設置為0.8)時,則抽取出對應的空間關系三元組。
【參考文獻】:
期刊論文
[1]健康領域Web信息抽取[J]. 李汝君,張俊,張曉民,桂小慶. 計算機應用. 2016(01)
[2]水利數(shù)據(jù)資源目錄服務關鍵技術研究[J]. 成建國,馮鈞,楊鵬,唐志賢. 水利信息化. 2014(06)
[3]基于領域本體的語義查詢擴展[J]. 胡川洌,符云清,鐘明洋. 計算機系統(tǒng)應用. 2012(07)
[4]開放式文本信息抽取[J]. 趙軍,劉康,周光有,蔡黎. 中文信息學報. 2011(06)
[5]自然語言處理中詞語上下文有效范圍的定量描述[J]. 魯松,白碩. 計算機學報. 2001(07)
本文編號:3215476
【文章來源】:計算機科學. 2020,47(12)北大核心CSCD
【文章頁數(shù)】:8 頁
【部分圖文】:
本文方法框架
3.3節(jié)使用句法模式的泛化來獲得多個抽象模式,這些抽象模式都可以用來提取空間關系元組。本節(jié)重點介紹如何在語料庫中利用抽象模式來獲取更多的空間關系元組,圖2為空間關系的提取流程。首先,根據(jù)空間關系詞詞表從大規(guī)模語料中檢索出包含該詞的共現(xiàn)句,通過分詞、詞性標注、去除停用詞等預處理,以及上述原始句法模式獲取方法得到這些句子的句法模式;然后將生成的每個模式與抽象模式集合內的模式匹配,當原始句法模式與抽象模式中的實體類型相同、關系詞的詞序相同,并且原始句法模式與某個抽象模式的相似度大于閾值β(設置為0.8)時,則抽取出對應的空間關系三元組。
【參考文獻】:
期刊論文
[1]健康領域Web信息抽取[J]. 李汝君,張俊,張曉民,桂小慶. 計算機應用. 2016(01)
[2]水利數(shù)據(jù)資源目錄服務關鍵技術研究[J]. 成建國,馮鈞,楊鵬,唐志賢. 水利信息化. 2014(06)
[3]基于領域本體的語義查詢擴展[J]. 胡川洌,符云清,鐘明洋. 計算機系統(tǒng)應用. 2012(07)
[4]開放式文本信息抽取[J]. 趙軍,劉康,周光有,蔡黎. 中文信息學報. 2011(06)
[5]自然語言處理中詞語上下文有效范圍的定量描述[J]. 魯松,白碩. 計算機學報. 2001(07)
本文編號:3215476
本文鏈接:http://sikaile.net/kejilunwen/shuiwenshuili/3215476.html
最近更新
教材專著