天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

實(shí)體關(guān)系抽取關(guān)鍵技術(shù)研究

發(fā)布時(shí)間:2017-05-21 11:14

  本文關(guān)鍵詞:實(shí)體關(guān)系抽取關(guān)鍵技術(shù)研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著Web2.0的迅速發(fā)展,網(wǎng)絡(luò)信息呈現(xiàn)爆炸式增長(zhǎng),如何從中快速準(zhǔn)確地抽取用戶(hù)感興趣的信息成為當(dāng)前智能信息處理領(lǐng)域亟待解決的問(wèn)題。實(shí)體關(guān)系抽取作為信息抽取的核心任務(wù)和重要環(huán)節(jié),能夠?qū)崿F(xiàn)實(shí)體對(duì)間語(yǔ)義關(guān)系的識(shí)別,同時(shí)對(duì)句子語(yǔ)義理解及實(shí)體語(yǔ)義知識(shí)庫(kù)構(gòu)建有著重要作用。本文主要研究了實(shí)體關(guān)系抽取技術(shù),包括:有監(jiān)督實(shí)體關(guān)系抽取、實(shí)體關(guān)系觸發(fā)詞詞典構(gòu)建、中文開(kāi)放式實(shí)體關(guān)系抽取等三個(gè)方面。論文的主要研究成果如下:(1)研究了有監(jiān)督的實(shí)體關(guān)系抽取技術(shù),針對(duì)普通名詞實(shí)體關(guān)系抽取中模糊樣本邊界難以確定、存在交疊的問(wèn)題,提出了一種基于SVM-KNN(SVM和KNN的組合分類(lèi)方法)的有監(jiān)督實(shí)體關(guān)系抽取方法。該方法設(shè)計(jì)了一種雙投票機(jī)制,利用SVM進(jìn)行模糊樣本的判定,將測(cè)試樣本集分為確定區(qū)域和模糊區(qū)域;對(duì)確定區(qū)域的樣本直接輸出SVM分類(lèi)器的分類(lèi)結(jié)果,對(duì)模糊區(qū)域樣本使用KNN分類(lèi)器進(jìn)行二次分類(lèi)。實(shí)驗(yàn)結(jié)果表明,該方法有效判定了實(shí)體關(guān)系模糊樣本,較大程度提高了實(shí)體關(guān)系抽取的性能。(2)研究了實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建技術(shù),針對(duì)傳統(tǒng)人工或有監(jiān)督方式構(gòu)建實(shí)體關(guān)系觸發(fā)詞詞典耗費(fèi)大量人力且無(wú)法獲取完備詞典的問(wèn)題,提出了一種無(wú)監(jiān)督的實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建方法。該方法首先采用層次狄利克雷過(guò)程(Hierarchical Dirichlet Process,HDP)進(jìn)行建模,得到關(guān)系句子實(shí)例集的主題-詞分布;然后,通過(guò)主題過(guò)濾和詞語(yǔ)概率權(quán)重過(guò)濾獲得候選觸發(fā)詞集;最后,采用依存句法分析對(duì)候選觸發(fā)詞集進(jìn)行二次過(guò)濾獲得關(guān)系觸發(fā)詞詞典。該方法無(wú)需人工參與,且有效避免了有監(jiān)督方法所需的初始關(guān)系觸發(fā)詞庫(kù)。實(shí)驗(yàn)結(jié)果表明,該方法能快速構(gòu)建任意實(shí)體關(guān)系類(lèi)型的觸發(fā)詞詞典,且具有較高的準(zhǔn)確率。(3)研究了開(kāi)放式實(shí)體關(guān)系抽取方法,針對(duì)傳統(tǒng)方法中遠(yuǎn)程監(jiān)督(Distant Supervision)假設(shè)引入大量未蘊(yùn)含指定實(shí)體關(guān)系的噪聲標(biāo)注數(shù)據(jù)的問(wèn)題,提出了一種基于主題模型的中文開(kāi)放式實(shí)體關(guān)系抽取方法。該方法利用觸發(fā)詞窗口內(nèi)的詞與實(shí)體對(duì)共同構(gòu)成觸發(fā)詞窗口關(guān)系模式,抽取候選關(guān)系句子實(shí)例集中每個(gè)句子實(shí)例的關(guān)系模式,并通過(guò)模式聚類(lèi)形成關(guān)系模式組;然后,利用主題模型計(jì)算關(guān)系模式組表達(dá)實(shí)體關(guān)系的概率,實(shí)現(xiàn)噪聲標(biāo)注數(shù)據(jù)的識(shí)別;最后,訓(xùn)練實(shí)體關(guān)系抽取模型,實(shí)現(xiàn)實(shí)體關(guān)系抽取。實(shí)驗(yàn)結(jié)果表明,該方法能有效識(shí)別訓(xùn)練語(yǔ)料中的噪聲標(biāo)注,通過(guò)過(guò)濾噪聲標(biāo)注數(shù)據(jù)后訓(xùn)練的實(shí)體關(guān)系抽取模型性能有較大提高。
【關(guān)鍵詞】:實(shí)體關(guān)系抽取 支持向量機(jī) 關(guān)系觸發(fā)詞詞典 分層狄利克雷過(guò)程 依存句法分析 遠(yuǎn)程監(jiān)督 主題模型 噪聲標(biāo)注識(shí)別
【學(xué)位授予單位】:解放軍信息工程大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.1
【目錄】:
  • 摘要4-5
  • ABSTRACT5-11
  • 第一章 緒論11-23
  • 1.1 論文研究背景及意義11-12
  • 1.1.1 研究背景11-12
  • 1.1.2 研究意義12
  • 1.2 實(shí)體關(guān)系抽取的發(fā)展歷程和研究現(xiàn)狀分析12-19
  • 1.2.1 實(shí)體關(guān)系抽取的發(fā)展歷程12-14
  • 1.2.2 實(shí)體關(guān)系抽取研究現(xiàn)狀分析14-19
  • 1.3 論文研究?jī)?nèi)容與組織結(jié)構(gòu)19-23
  • 1.3.1 研究?jī)?nèi)容19-20
  • 1.3.2 組織結(jié)構(gòu)20-23
  • 第二章 基于SVM-KNN的有監(jiān)督實(shí)體關(guān)系抽取方法23-37
  • 2.1 SVM分類(lèi)器與KNN分類(lèi)器簡(jiǎn)介23-25
  • 2.1.1 SVM分類(lèi)器簡(jiǎn)介23-25
  • 2.1.2 KNN分類(lèi)器簡(jiǎn)介25
  • 2.2 基于SVM-KNN的有監(jiān)督實(shí)體關(guān)系抽取方法原理分析25-26
  • 2.3 基于SVM-KNN的有監(jiān)督實(shí)體關(guān)系抽取方法實(shí)現(xiàn)流程與關(guān)鍵技術(shù)26-30
  • 2.3.1 實(shí)體關(guān)系抽取流程27
  • 2.3.2 語(yǔ)料預(yù)處理及特征向量形成27-28
  • 2.3.3 基于雙投票機(jī)制的模糊樣本確定28-29
  • 2.3.4 SVM-KNN分類(lèi)算法29-30
  • 2.4 實(shí)驗(yàn)結(jié)果與性能比較30-34
  • 2.4.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)30-32
  • 2.4.2 實(shí)驗(yàn)結(jié)果及性能比較32-34
  • 2.5 本章小結(jié)34-37
  • 第三章 無(wú)監(jiān)督實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建方法37-51
  • 3.1 無(wú)監(jiān)督實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建方法原理分析37-39
  • 3.2 無(wú)監(jiān)督實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建方法實(shí)現(xiàn)流程與關(guān)鍵技術(shù)39-45
  • 3.2.1 基本流程39-40
  • 3.2.2 分層狄利克雷過(guò)程建模40-42
  • 3.2.3 文檔集合HDP建模42-44
  • 3.2.4 候選觸發(fā)詞集合過(guò)濾44-45
  • 3.3 實(shí)驗(yàn)結(jié)果與性能比較45-48
  • 3.3.1 實(shí)驗(yàn)數(shù)據(jù)及預(yù)處理45-46
  • 3.3.2 實(shí)驗(yàn)結(jié)果及其分析46-48
  • 3.4 本章小結(jié)48-51
  • 第四章 基于主題模型的中文開(kāi)放式實(shí)體關(guān)系抽取方法51-63
  • 4.1 基于主題模型的中文開(kāi)放式實(shí)體關(guān)系抽取方法原理分析51-53
  • 4.2 基于主題模型的中文開(kāi)放式實(shí)體關(guān)系抽取方法實(shí)現(xiàn)流程與關(guān)鍵技術(shù)53-58
  • 4.2.1 算法流程53-54
  • 4.2.2 基于Wikipedia的標(biāo)注數(shù)據(jù)獲取54-55
  • 4.2.3 關(guān)系模式聚合55-57
  • 4.2.4 基于主題模型的噪聲標(biāo)注識(shí)別57-58
  • 4.3 實(shí)驗(yàn)結(jié)果與性能比較58-62
  • 4.3.1 實(shí)驗(yàn)數(shù)據(jù)與設(shè)置58-59
  • 4.3.2 實(shí)驗(yàn)結(jié)果及其分析59-62
  • 4.4 本章小結(jié)62-63
  • 第五章 總結(jié)與展望63-65
  • 5.1 本文工作總結(jié)63-64
  • 5.2 下一步研究展望64-65
  • 致謝65-67
  • 參考文獻(xiàn)67-73
  • 作者簡(jiǎn)歷73

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 陳鵬;郭劍毅;余正濤;嚴(yán)馨;張志坤;高盛祥;;融合領(lǐng)域知識(shí)短語(yǔ)樹(shù)核函數(shù)的中文領(lǐng)域?qū)嶓w關(guān)系抽取[J];南京大學(xué)學(xué)報(bào)(自然科學(xué));2015年01期

2 郭喜躍;何婷婷;胡小華;陳前軍;;基于句法語(yǔ)義特征的中文實(shí)體關(guān)系抽取[J];中文信息學(xué)報(bào);2014年06期

3 王健;吳雨;林鴻飛;楊志豪;;基于深層句法分析的生物事件觸發(fā)詞抽取[J];計(jì)算機(jī)工程;2014年01期

4 劉方馳;鐘志農(nóng);雷霖;吳燁;;基于機(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取方法[J];兵工自動(dòng)化;2013年09期

5 陳立瑋;馮巖松;趙東巖;;基于弱監(jiān)督學(xué)習(xí)的海量網(wǎng)絡(luò)數(shù)據(jù)關(guān)系抽取[J];計(jì)算機(jī)研究與發(fā)展;2013年09期

6 李天潁;劉t

本文編號(hào):383483


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/383483.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)0a6d6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com