勘探開發(fā)文檔中知識(shí)抽取的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-02-06 06:47
多年來,知識(shí)圖譜的引入讓搜索從鏈接文本變成鏈接數(shù)據(jù),直指答案本身的結(jié)果使得計(jì)算機(jī)更容易分析處理數(shù)據(jù)并建立實(shí)體之間的關(guān)系。但是,目前勘探開發(fā)專業(yè)領(lǐng)域的知識(shí)圖譜還不完善,知識(shí)圖譜中囊括的實(shí)體及其關(guān)系還不夠多,所以如何從勘探開發(fā)文檔中盡可能多地、完整地抽取出關(guān)系三元組成為構(gòu)建勘探開發(fā)領(lǐng)域知識(shí)圖譜的首要任務(wù)。本文主要針對(duì)有多重語義復(fù)合的且沒有標(biāo)點(diǎn)符號(hào)的復(fù)雜語句進(jìn)行分析,為了盡可能完整地抽取語句中的知識(shí),本文分三個(gè)步驟進(jìn)行研究。首先,獲取語料與訓(xùn)練動(dòng)作分類器,提出了結(jié)合規(guī)則和人工收集的方式獲取語料的方法,并構(gòu)建中文句法依存樹,進(jìn)而獲取訓(xùn)練集并訓(xùn)練動(dòng)作分類器;其次,將復(fù)雜句轉(zhuǎn)換為多個(gè)簡(jiǎn)單句,提出了利用動(dòng)作分類器對(duì)中文句法依存樹中的邊進(jìn)行分類進(jìn)而獲得子句的方法,成功地將復(fù)雜句變?yōu)槎鄠(gè)簡(jiǎn)單句;最后,進(jìn)行實(shí)體關(guān)系抽取,對(duì)得到的簡(jiǎn)單句和原句采用基于句法依存關(guān)系、基于遠(yuǎn)監(jiān)督以及LTP的方法進(jìn)行實(shí)體關(guān)系抽取并進(jìn)行結(jié)果分析。實(shí)驗(yàn)表明,用復(fù)雜句轉(zhuǎn)換為簡(jiǎn)單句增加抽取語料再進(jìn)行實(shí)體關(guān)系抽取的方法比直接對(duì)語句進(jìn)行抽取更能增加抽取出的知識(shí)的完整性。
【文章來源】:中國(guó)石油大學(xué)(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:55 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
網(wǎng)絡(luò)結(jié)構(gòu)
圖 2.2 CBOW 模型的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2.2 The network structure of CBOW model詞典 D 中任意詞 w 來說,Huffman 樹一定存在且只存在一條的節(jié)點(diǎn)的路徑 pw。路徑上共存在wl個(gè)分支,將路徑上存在的次二分類,這樣每次分類都會(huì)產(chǎn)生一個(gè)概率,將這些概率做乘詞語出現(xiàn)的概率 p ( w Context ( w) ),其算法如公式(2.1)所示12( ( )) ( | , )wlw wj w jjp w Context w p d x W 模型的學(xué)習(xí)目標(biāo)是將對(duì)數(shù)似然函數(shù)最大化,函數(shù)如公式(2表語料庫 C 中的任意一個(gè)詞語。將公式(2.1)代入公式(2.2
第2 章 相關(guān)技術(shù)介紹與分析log ( ( ))w CL p w Context w 1 12{(1 ) log[ ( )] log[ ( )]}wlw T w w T wj w j j w jw C jL d x d x kip-gram 模型gram 模型的原理是在已知當(dāng)前詞的詞向量的情況下預(yù)測(cè)上下OW 模型類似,Skip-gram 模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖 2.3 所示,其 w 的詞向量 v(w);投影層是將當(dāng)前詞的詞向量投影到當(dāng)前詞的層是多余的,本文為了與 CBOW 模型形成對(duì)比,所以未省略和 CBOW 模型一樣的 Huffman 樹。
【參考文獻(xiàn)】:
期刊論文
[1]基于弱監(jiān)督和半自動(dòng)方法的中文關(guān)系抽取數(shù)據(jù)集構(gòu)建[J]. 馬超義,徐蔚然. 中文信息學(xué)報(bào). 2017(05)
[2]基于模式的遠(yuǎn)監(jiān)督關(guān)系抽取算法[J]. 王加楠,魯強(qiáng). 中文信息學(xué)報(bào). 2017(04)
[3]結(jié)合從句級(jí)遠(yuǎn)程監(jiān)督與半監(jiān)督集成學(xué)習(xí)的關(guān)系抽取方法[J]. 余小康,陳嶺,郭敬,蔡雅雅,吳勇,王敬昌. 模式識(shí)別與人工智能. 2017(01)
[4]知識(shí)圖譜技術(shù)綜述[J]. 徐增林,盛泳潘,賀麗榮,王雅芳. 電子科技大學(xué)學(xué)報(bào). 2016(04)
[5]基于依存分析的開放式中文實(shí)體關(guān)系抽取方法[J]. 李明耀,楊靜. 計(jì)算機(jī)工程. 2016(06)
[6]基于多核融合的中文領(lǐng)域?qū)嶓w關(guān)系抽取[J]. 郭劍毅,陳鵬,余正濤,線巖團(tuán),毛存禮,趙君. 中文信息學(xué)報(bào). 2016(01)
[7]無指導(dǎo)的中文開放式實(shí)體關(guān)系抽取[J]. 秦兵,劉安安,劉挺. 計(jì)算機(jī)研究與發(fā)展. 2015(05)
[8]基于上下文的話題演化和話題關(guān)系抽取研究[J]. 章建,李芳. 中文信息學(xué)報(bào). 2015(02)
[9]基于LM算法的領(lǐng)域概念實(shí)體屬性關(guān)系抽取[J]. 劉麗佳,郭劍毅,周蘭江,余正濤,邵發(fā),張金鵬. 中文信息學(xué)報(bào). 2014(06)
[10]基于句法語義特征的中文實(shí)體關(guān)系抽取[J]. 郭喜躍,何婷婷,胡小華,陳前軍. 中文信息學(xué)報(bào). 2014(06)
本文編號(hào):3020335
【文章來源】:中國(guó)石油大學(xué)(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:55 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
網(wǎng)絡(luò)結(jié)構(gòu)
圖 2.2 CBOW 模型的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2.2 The network structure of CBOW model詞典 D 中任意詞 w 來說,Huffman 樹一定存在且只存在一條的節(jié)點(diǎn)的路徑 pw。路徑上共存在wl個(gè)分支,將路徑上存在的次二分類,這樣每次分類都會(huì)產(chǎn)生一個(gè)概率,將這些概率做乘詞語出現(xiàn)的概率 p ( w Context ( w) ),其算法如公式(2.1)所示12( ( )) ( | , )wlw wj w jjp w Context w p d x W 模型的學(xué)習(xí)目標(biāo)是將對(duì)數(shù)似然函數(shù)最大化,函數(shù)如公式(2表語料庫 C 中的任意一個(gè)詞語。將公式(2.1)代入公式(2.2
第2 章 相關(guān)技術(shù)介紹與分析log ( ( ))w CL p w Context w 1 12{(1 ) log[ ( )] log[ ( )]}wlw T w w T wj w j j w jw C jL d x d x kip-gram 模型gram 模型的原理是在已知當(dāng)前詞的詞向量的情況下預(yù)測(cè)上下OW 模型類似,Skip-gram 模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖 2.3 所示,其 w 的詞向量 v(w);投影層是將當(dāng)前詞的詞向量投影到當(dāng)前詞的層是多余的,本文為了與 CBOW 模型形成對(duì)比,所以未省略和 CBOW 模型一樣的 Huffman 樹。
【參考文獻(xiàn)】:
期刊論文
[1]基于弱監(jiān)督和半自動(dòng)方法的中文關(guān)系抽取數(shù)據(jù)集構(gòu)建[J]. 馬超義,徐蔚然. 中文信息學(xué)報(bào). 2017(05)
[2]基于模式的遠(yuǎn)監(jiān)督關(guān)系抽取算法[J]. 王加楠,魯強(qiáng). 中文信息學(xué)報(bào). 2017(04)
[3]結(jié)合從句級(jí)遠(yuǎn)程監(jiān)督與半監(jiān)督集成學(xué)習(xí)的關(guān)系抽取方法[J]. 余小康,陳嶺,郭敬,蔡雅雅,吳勇,王敬昌. 模式識(shí)別與人工智能. 2017(01)
[4]知識(shí)圖譜技術(shù)綜述[J]. 徐增林,盛泳潘,賀麗榮,王雅芳. 電子科技大學(xué)學(xué)報(bào). 2016(04)
[5]基于依存分析的開放式中文實(shí)體關(guān)系抽取方法[J]. 李明耀,楊靜. 計(jì)算機(jī)工程. 2016(06)
[6]基于多核融合的中文領(lǐng)域?qū)嶓w關(guān)系抽取[J]. 郭劍毅,陳鵬,余正濤,線巖團(tuán),毛存禮,趙君. 中文信息學(xué)報(bào). 2016(01)
[7]無指導(dǎo)的中文開放式實(shí)體關(guān)系抽取[J]. 秦兵,劉安安,劉挺. 計(jì)算機(jī)研究與發(fā)展. 2015(05)
[8]基于上下文的話題演化和話題關(guān)系抽取研究[J]. 章建,李芳. 中文信息學(xué)報(bào). 2015(02)
[9]基于LM算法的領(lǐng)域概念實(shí)體屬性關(guān)系抽取[J]. 劉麗佳,郭劍毅,周蘭江,余正濤,邵發(fā),張金鵬. 中文信息學(xué)報(bào). 2014(06)
[10]基于句法語義特征的中文實(shí)體關(guān)系抽取[J]. 郭喜躍,何婷婷,胡小華,陳前軍. 中文信息學(xué)報(bào). 2014(06)
本文編號(hào):3020335
本文鏈接:http://sikaile.net/kejilunwen/diqiudizhi/3020335.html
最近更新
教材專著