實(shí)體關(guān)系抽取關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2017-05-21 11:14
本文關(guān)鍵詞:實(shí)體關(guān)系抽取關(guān)鍵技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著Web2.0的迅速發(fā)展,網(wǎng)絡(luò)信息呈現(xiàn)爆炸式增長(zhǎng),如何從中快速準(zhǔn)確地抽取用戶(hù)感興趣的信息成為當(dāng)前智能信息處理領(lǐng)域亟待解決的問(wèn)題。實(shí)體關(guān)系抽取作為信息抽取的核心任務(wù)和重要環(huán)節(jié),能夠?qū)崿F(xiàn)實(shí)體對(duì)間語(yǔ)義關(guān)系的識(shí)別,同時(shí)對(duì)句子語(yǔ)義理解及實(shí)體語(yǔ)義知識(shí)庫(kù)構(gòu)建有著重要作用。本文主要研究了實(shí)體關(guān)系抽取技術(shù),包括:有監(jiān)督實(shí)體關(guān)系抽取、實(shí)體關(guān)系觸發(fā)詞詞典構(gòu)建、中文開(kāi)放式實(shí)體關(guān)系抽取等三個(gè)方面。論文的主要研究成果如下:(1)研究了有監(jiān)督的實(shí)體關(guān)系抽取技術(shù),針對(duì)普通名詞實(shí)體關(guān)系抽取中模糊樣本邊界難以確定、存在交疊的問(wèn)題,提出了一種基于SVM-KNN(SVM和KNN的組合分類(lèi)方法)的有監(jiān)督實(shí)體關(guān)系抽取方法。該方法設(shè)計(jì)了一種雙投票機(jī)制,利用SVM進(jìn)行模糊樣本的判定,將測(cè)試樣本集分為確定區(qū)域和模糊區(qū)域;對(duì)確定區(qū)域的樣本直接輸出SVM分類(lèi)器的分類(lèi)結(jié)果,對(duì)模糊區(qū)域樣本使用KNN分類(lèi)器進(jìn)行二次分類(lèi)。實(shí)驗(yàn)結(jié)果表明,該方法有效判定了實(shí)體關(guān)系模糊樣本,較大程度提高了實(shí)體關(guān)系抽取的性能。(2)研究了實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建技術(shù),針對(duì)傳統(tǒng)人工或有監(jiān)督方式構(gòu)建實(shí)體關(guān)系觸發(fā)詞詞典耗費(fèi)大量人力且無(wú)法獲取完備詞典的問(wèn)題,提出了一種無(wú)監(jiān)督的實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建方法。該方法首先采用層次狄利克雷過(guò)程(Hierarchical Dirichlet Process,HDP)進(jìn)行建模,得到關(guān)系句子實(shí)例集的主題-詞分布;然后,通過(guò)主題過(guò)濾和詞語(yǔ)概率權(quán)重過(guò)濾獲得候選觸發(fā)詞集;最后,采用依存句法分析對(duì)候選觸發(fā)詞集進(jìn)行二次過(guò)濾獲得關(guān)系觸發(fā)詞詞典。該方法無(wú)需人工參與,且有效避免了有監(jiān)督方法所需的初始關(guān)系觸發(fā)詞庫(kù)。實(shí)驗(yàn)結(jié)果表明,該方法能快速構(gòu)建任意實(shí)體關(guān)系類(lèi)型的觸發(fā)詞詞典,且具有較高的準(zhǔn)確率。(3)研究了開(kāi)放式實(shí)體關(guān)系抽取方法,針對(duì)傳統(tǒng)方法中遠(yuǎn)程監(jiān)督(Distant Supervision)假設(shè)引入大量未蘊(yùn)含指定實(shí)體關(guān)系的噪聲標(biāo)注數(shù)據(jù)的問(wèn)題,提出了一種基于主題模型的中文開(kāi)放式實(shí)體關(guān)系抽取方法。該方法利用觸發(fā)詞窗口內(nèi)的詞與實(shí)體對(duì)共同構(gòu)成觸發(fā)詞窗口關(guān)系模式,抽取候選關(guān)系句子實(shí)例集中每個(gè)句子實(shí)例的關(guān)系模式,并通過(guò)模式聚類(lèi)形成關(guān)系模式組;然后,利用主題模型計(jì)算關(guān)系模式組表達(dá)實(shí)體關(guān)系的概率,實(shí)現(xiàn)噪聲標(biāo)注數(shù)據(jù)的識(shí)別;最后,訓(xùn)練實(shí)體關(guān)系抽取模型,實(shí)現(xiàn)實(shí)體關(guān)系抽取。實(shí)驗(yàn)結(jié)果表明,該方法能有效識(shí)別訓(xùn)練語(yǔ)料中的噪聲標(biāo)注,通過(guò)過(guò)濾噪聲標(biāo)注數(shù)據(jù)后訓(xùn)練的實(shí)體關(guān)系抽取模型性能有較大提高。
【關(guān)鍵詞】:實(shí)體關(guān)系抽取 支持向量機(jī) 關(guān)系觸發(fā)詞詞典 分層狄利克雷過(guò)程 依存句法分析 遠(yuǎn)程監(jiān)督 主題模型 噪聲標(biāo)注識(shí)別
【學(xué)位授予單位】:解放軍信息工程大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-11
- 第一章 緒論11-23
- 1.1 論文研究背景及意義11-12
- 1.1.1 研究背景11-12
- 1.1.2 研究意義12
- 1.2 實(shí)體關(guān)系抽取的發(fā)展歷程和研究現(xiàn)狀分析12-19
- 1.2.1 實(shí)體關(guān)系抽取的發(fā)展歷程12-14
- 1.2.2 實(shí)體關(guān)系抽取研究現(xiàn)狀分析14-19
- 1.3 論文研究?jī)?nèi)容與組織結(jié)構(gòu)19-23
- 1.3.1 研究?jī)?nèi)容19-20
- 1.3.2 組織結(jié)構(gòu)20-23
- 第二章 基于SVM-KNN的有監(jiān)督實(shí)體關(guān)系抽取方法23-37
- 2.1 SVM分類(lèi)器與KNN分類(lèi)器簡(jiǎn)介23-25
- 2.1.1 SVM分類(lèi)器簡(jiǎn)介23-25
- 2.1.2 KNN分類(lèi)器簡(jiǎn)介25
- 2.2 基于SVM-KNN的有監(jiān)督實(shí)體關(guān)系抽取方法原理分析25-26
- 2.3 基于SVM-KNN的有監(jiān)督實(shí)體關(guān)系抽取方法實(shí)現(xiàn)流程與關(guān)鍵技術(shù)26-30
- 2.3.1 實(shí)體關(guān)系抽取流程27
- 2.3.2 語(yǔ)料預(yù)處理及特征向量形成27-28
- 2.3.3 基于雙投票機(jī)制的模糊樣本確定28-29
- 2.3.4 SVM-KNN分類(lèi)算法29-30
- 2.4 實(shí)驗(yàn)結(jié)果與性能比較30-34
- 2.4.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)30-32
- 2.4.2 實(shí)驗(yàn)結(jié)果及性能比較32-34
- 2.5 本章小結(jié)34-37
- 第三章 無(wú)監(jiān)督實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建方法37-51
- 3.1 無(wú)監(jiān)督實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建方法原理分析37-39
- 3.2 無(wú)監(jiān)督實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建方法實(shí)現(xiàn)流程與關(guān)鍵技術(shù)39-45
- 3.2.1 基本流程39-40
- 3.2.2 分層狄利克雷過(guò)程建模40-42
- 3.2.3 文檔集合HDP建模42-44
- 3.2.4 候選觸發(fā)詞集合過(guò)濾44-45
- 3.3 實(shí)驗(yàn)結(jié)果與性能比較45-48
- 3.3.1 實(shí)驗(yàn)數(shù)據(jù)及預(yù)處理45-46
- 3.3.2 實(shí)驗(yàn)結(jié)果及其分析46-48
- 3.4 本章小結(jié)48-51
- 第四章 基于主題模型的中文開(kāi)放式實(shí)體關(guān)系抽取方法51-63
- 4.1 基于主題模型的中文開(kāi)放式實(shí)體關(guān)系抽取方法原理分析51-53
- 4.2 基于主題模型的中文開(kāi)放式實(shí)體關(guān)系抽取方法實(shí)現(xiàn)流程與關(guān)鍵技術(shù)53-58
- 4.2.1 算法流程53-54
- 4.2.2 基于Wikipedia的標(biāo)注數(shù)據(jù)獲取54-55
- 4.2.3 關(guān)系模式聚合55-57
- 4.2.4 基于主題模型的噪聲標(biāo)注識(shí)別57-58
- 4.3 實(shí)驗(yàn)結(jié)果與性能比較58-62
- 4.3.1 實(shí)驗(yàn)數(shù)據(jù)與設(shè)置58-59
- 4.3.2 實(shí)驗(yàn)結(jié)果及其分析59-62
- 4.4 本章小結(jié)62-63
- 第五章 總結(jié)與展望63-65
- 5.1 本文工作總結(jié)63-64
- 5.2 下一步研究展望64-65
- 致謝65-67
- 參考文獻(xiàn)67-73
- 作者簡(jiǎn)歷73
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 陳鵬;郭劍毅;余正濤;嚴(yán)馨;張志坤;高盛祥;;融合領(lǐng)域知識(shí)短語(yǔ)樹(shù)核函數(shù)的中文領(lǐng)域?qū)嶓w關(guān)系抽取[J];南京大學(xué)學(xué)報(bào)(自然科學(xué));2015年01期
2 郭喜躍;何婷婷;胡小華;陳前軍;;基于句法語(yǔ)義特征的中文實(shí)體關(guān)系抽取[J];中文信息學(xué)報(bào);2014年06期
3 王健;吳雨;林鴻飛;楊志豪;;基于深層句法分析的生物事件觸發(fā)詞抽取[J];計(jì)算機(jī)工程;2014年01期
4 劉方馳;鐘志農(nóng);雷霖;吳燁;;基于機(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取方法[J];兵工自動(dòng)化;2013年09期
5 陳立瑋;馮巖松;趙東巖;;基于弱監(jiān)督學(xué)習(xí)的海量網(wǎng)絡(luò)數(shù)據(jù)關(guān)系抽取[J];計(jì)算機(jī)研究與發(fā)展;2013年09期
6 李天潁;劉t
本文編號(hào):383483
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/383483.html
最近更新
教材專(zhuān)著