勘探開發(fā)文檔中知識抽取的研究與實現(xiàn)
發(fā)布時間:2021-02-06 06:47
多年來,知識圖譜的引入讓搜索從鏈接文本變成鏈接數(shù)據(jù),直指答案本身的結(jié)果使得計算機更容易分析處理數(shù)據(jù)并建立實體之間的關(guān)系。但是,目前勘探開發(fā)專業(yè)領(lǐng)域的知識圖譜還不完善,知識圖譜中囊括的實體及其關(guān)系還不夠多,所以如何從勘探開發(fā)文檔中盡可能多地、完整地抽取出關(guān)系三元組成為構(gòu)建勘探開發(fā)領(lǐng)域知識圖譜的首要任務(wù)。本文主要針對有多重語義復(fù)合的且沒有標點符號的復(fù)雜語句進行分析,為了盡可能完整地抽取語句中的知識,本文分三個步驟進行研究。首先,獲取語料與訓(xùn)練動作分類器,提出了結(jié)合規(guī)則和人工收集的方式獲取語料的方法,并構(gòu)建中文句法依存樹,進而獲取訓(xùn)練集并訓(xùn)練動作分類器;其次,將復(fù)雜句轉(zhuǎn)換為多個簡單句,提出了利用動作分類器對中文句法依存樹中的邊進行分類進而獲得子句的方法,成功地將復(fù)雜句變?yōu)槎鄠簡單句;最后,進行實體關(guān)系抽取,對得到的簡單句和原句采用基于句法依存關(guān)系、基于遠監(jiān)督以及LTP的方法進行實體關(guān)系抽取并進行結(jié)果分析。實驗表明,用復(fù)雜句轉(zhuǎn)換為簡單句增加抽取語料再進行實體關(guān)系抽取的方法比直接對語句進行抽取更能增加抽取出的知識的完整性。
【文章來源】:中國石油大學(xué)(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:55 頁
【學(xué)位級別】:碩士
【部分圖文】:
網(wǎng)絡(luò)結(jié)構(gòu)
圖 2.2 CBOW 模型的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2.2 The network structure of CBOW model詞典 D 中任意詞 w 來說,Huffman 樹一定存在且只存在一條的節(jié)點的路徑 pw。路徑上共存在wl個分支,將路徑上存在的次二分類,這樣每次分類都會產(chǎn)生一個概率,將這些概率做乘詞語出現(xiàn)的概率 p ( w Context ( w) ),其算法如公式(2.1)所示12( ( )) ( | , )wlw wj w jjp w Context w p d x W 模型的學(xué)習目標是將對數(shù)似然函數(shù)最大化,函數(shù)如公式(2表語料庫 C 中的任意一個詞語。將公式(2.1)代入公式(2.2
第2 章 相關(guān)技術(shù)介紹與分析log ( ( ))w CL p w Context w 1 12{(1 ) log[ ( )] log[ ( )]}wlw T w w T wj w j j w jw C jL d x d x kip-gram 模型gram 模型的原理是在已知當前詞的詞向量的情況下預(yù)測上下OW 模型類似,Skip-gram 模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖 2.3 所示,其 w 的詞向量 v(w);投影層是將當前詞的詞向量投影到當前詞的層是多余的,本文為了與 CBOW 模型形成對比,所以未省略和 CBOW 模型一樣的 Huffman 樹。
【參考文獻】:
期刊論文
[1]基于弱監(jiān)督和半自動方法的中文關(guān)系抽取數(shù)據(jù)集構(gòu)建[J]. 馬超義,徐蔚然. 中文信息學(xué)報. 2017(05)
[2]基于模式的遠監(jiān)督關(guān)系抽取算法[J]. 王加楠,魯強. 中文信息學(xué)報. 2017(04)
[3]結(jié)合從句級遠程監(jiān)督與半監(jiān)督集成學(xué)習的關(guān)系抽取方法[J]. 余小康,陳嶺,郭敬,蔡雅雅,吳勇,王敬昌. 模式識別與人工智能. 2017(01)
[4]知識圖譜技術(shù)綜述[J]. 徐增林,盛泳潘,賀麗榮,王雅芳. 電子科技大學(xué)學(xué)報. 2016(04)
[5]基于依存分析的開放式中文實體關(guān)系抽取方法[J]. 李明耀,楊靜. 計算機工程. 2016(06)
[6]基于多核融合的中文領(lǐng)域?qū)嶓w關(guān)系抽取[J]. 郭劍毅,陳鵬,余正濤,線巖團,毛存禮,趙君. 中文信息學(xué)報. 2016(01)
[7]無指導(dǎo)的中文開放式實體關(guān)系抽取[J]. 秦兵,劉安安,劉挺. 計算機研究與發(fā)展. 2015(05)
[8]基于上下文的話題演化和話題關(guān)系抽取研究[J]. 章建,李芳. 中文信息學(xué)報. 2015(02)
[9]基于LM算法的領(lǐng)域概念實體屬性關(guān)系抽取[J]. 劉麗佳,郭劍毅,周蘭江,余正濤,邵發(fā),張金鵬. 中文信息學(xué)報. 2014(06)
[10]基于句法語義特征的中文實體關(guān)系抽取[J]. 郭喜躍,何婷婷,胡小華,陳前軍. 中文信息學(xué)報. 2014(06)
本文編號:3020335
【文章來源】:中國石油大學(xué)(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:55 頁
【學(xué)位級別】:碩士
【部分圖文】:
網(wǎng)絡(luò)結(jié)構(gòu)
圖 2.2 CBOW 模型的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2.2 The network structure of CBOW model詞典 D 中任意詞 w 來說,Huffman 樹一定存在且只存在一條的節(jié)點的路徑 pw。路徑上共存在wl個分支,將路徑上存在的次二分類,這樣每次分類都會產(chǎn)生一個概率,將這些概率做乘詞語出現(xiàn)的概率 p ( w Context ( w) ),其算法如公式(2.1)所示12( ( )) ( | , )wlw wj w jjp w Context w p d x W 模型的學(xué)習目標是將對數(shù)似然函數(shù)最大化,函數(shù)如公式(2表語料庫 C 中的任意一個詞語。將公式(2.1)代入公式(2.2
第2 章 相關(guān)技術(shù)介紹與分析log ( ( ))w CL p w Context w 1 12{(1 ) log[ ( )] log[ ( )]}wlw T w w T wj w j j w jw C jL d x d x kip-gram 模型gram 模型的原理是在已知當前詞的詞向量的情況下預(yù)測上下OW 模型類似,Skip-gram 模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖 2.3 所示,其 w 的詞向量 v(w);投影層是將當前詞的詞向量投影到當前詞的層是多余的,本文為了與 CBOW 模型形成對比,所以未省略和 CBOW 模型一樣的 Huffman 樹。
【參考文獻】:
期刊論文
[1]基于弱監(jiān)督和半自動方法的中文關(guān)系抽取數(shù)據(jù)集構(gòu)建[J]. 馬超義,徐蔚然. 中文信息學(xué)報. 2017(05)
[2]基于模式的遠監(jiān)督關(guān)系抽取算法[J]. 王加楠,魯強. 中文信息學(xué)報. 2017(04)
[3]結(jié)合從句級遠程監(jiān)督與半監(jiān)督集成學(xué)習的關(guān)系抽取方法[J]. 余小康,陳嶺,郭敬,蔡雅雅,吳勇,王敬昌. 模式識別與人工智能. 2017(01)
[4]知識圖譜技術(shù)綜述[J]. 徐增林,盛泳潘,賀麗榮,王雅芳. 電子科技大學(xué)學(xué)報. 2016(04)
[5]基于依存分析的開放式中文實體關(guān)系抽取方法[J]. 李明耀,楊靜. 計算機工程. 2016(06)
[6]基于多核融合的中文領(lǐng)域?qū)嶓w關(guān)系抽取[J]. 郭劍毅,陳鵬,余正濤,線巖團,毛存禮,趙君. 中文信息學(xué)報. 2016(01)
[7]無指導(dǎo)的中文開放式實體關(guān)系抽取[J]. 秦兵,劉安安,劉挺. 計算機研究與發(fā)展. 2015(05)
[8]基于上下文的話題演化和話題關(guān)系抽取研究[J]. 章建,李芳. 中文信息學(xué)報. 2015(02)
[9]基于LM算法的領(lǐng)域概念實體屬性關(guān)系抽取[J]. 劉麗佳,郭劍毅,周蘭江,余正濤,邵發(fā),張金鵬. 中文信息學(xué)報. 2014(06)
[10]基于句法語義特征的中文實體關(guān)系抽取[J]. 郭喜躍,何婷婷,胡小華,陳前軍. 中文信息學(xué)報. 2014(06)
本文編號:3020335
本文鏈接:http://sikaile.net/kejilunwen/diqiudizhi/3020335.html
最近更新
教材專著