無監(jiān)督中文實體關(guān)系抽取研究
發(fā)布時間:2017-03-31 10:05
本文關(guān)鍵詞:無監(jiān)督中文實體關(guān)系抽取研究,由筆耕文化傳播整理發(fā)布。
【摘要】:實體關(guān)系抽取在信息抽取研究領(lǐng)域是非常重要的課題。其應(yīng)用領(lǐng)域廣泛,特別是這幾年隨著互聯(lián)網(wǎng)大發(fā)展,傳統(tǒng)的基于關(guān)鍵字索引的搜索引擎已經(jīng)漸漸無法滿足用戶日益提升的需求。知識圖譜技術(shù)的提出,無疑為搜索引擎提供了一條新出路。而知識圖譜的構(gòu)建是建立在實體識別與實體關(guān)系抽取的基礎(chǔ)之上,中文實體識別在早年已經(jīng)較為成熟,因而實體關(guān)系抽取研究的意義就變得更加重要。傳統(tǒng)的實體關(guān)系抽取都是采用規(guī)則匹配或者有監(jiān)督的機器學習。雖然兩種方法都具有較高準確性,但是由于上述兩種方法都需要有大量的人工介入,并且領(lǐng)域通用性較差,因而不適合大規(guī)模的應(yīng)用。所以近些年來半監(jiān)督或者無監(jiān)督實體關(guān)系抽取相繼成為研究熱點。國外半監(jiān)督與無監(jiān)督研究相對開展較早,提出了很多較為優(yōu)秀的方法。相比之下,國內(nèi)該領(lǐng)域由于中文語法的復雜性和與英文語法的區(qū)別性,國外的較多研究成果不具有借鑒意義。雖然近年來很多學者提出了多種中文實體關(guān)系抽取方法,但由于網(wǎng)絡(luò)語言更新較快,不斷有新的語言現(xiàn)象出現(xiàn),且網(wǎng)絡(luò)語言的語法較為隨意,因而目前特征獲取不準和精度低的問題依然存在。本文提出了一種在互聯(lián)網(wǎng)開放式環(huán)境中,采用大規(guī)模語料抽取實體對關(guān)系的無監(jiān)督方法。該方法同樣是基于特征向量文本抽取的共同假設(shè),即存在相同或相似關(guān)系的實體對,其上下文內(nèi)容較為相近;诖思僭O(shè),實體對關(guān)系的抽取,就變成了實體對特征向量相似度的計算,然后再通過對相似實體對特征的聚類,提取出關(guān)鍵詞描述該類實體對關(guān)系。本文的主要工作體現(xiàn)在三個方面:首先,在經(jīng)典上下文窗口的基礎(chǔ)之上,通過語料統(tǒng)計分析,提出了一種改進的彈性上下文窗口方法獲取特征詞。其次,本文引入互信息方法計算特征詞權(quán)值,并針對互信息方法不足做出了改進。最后,提出了一種通過預(yù)聚類和采用標準分數(shù)的方法,改進經(jīng)典k means在K值和聚類初始中心選擇與孤立點處理上的不足。為了驗證提出方法的有效性。在網(wǎng)絡(luò)獲取的語料上,對于幾種不同的方案分別進行了區(qū)分實驗。從結(jié)果上可以看出,本文提出的幾種方法都能夠有效提升實體關(guān)系抽取效果。
【關(guān)鍵詞】:知識圖譜 關(guān)系抽取 句法特征 k means 互信息
【學位授予單位】:中國地質(zhì)大學(北京)
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-9
- 1 緒論9-15
- 1.1 課題來源及背景9-10
- 1.2 研究目的與意義10
- 1.3 實體關(guān)系抽取研究現(xiàn)狀10-12
- 1.4 本文主要研究內(nèi)容12-13
- 1.5 論文的組織結(jié)構(gòu)13-15
- 2 相關(guān)技術(shù)及理論15-26
- 2.1 實體關(guān)系抽取方法概述15-17
- 2.1.1 基于模式匹配的關(guān)系抽取15-16
- 2.1.2 無監(jiān)督機器學習關(guān)系抽取16-17
- 2.2 實體關(guān)系特征獲取方法介紹17-20
- 2.2.1 一般性關(guān)系特征獲取方式18-19
- 2.2.2 無監(jiān)督抽取關(guān)系特征獲取方式19-20
- 2.3 實體對聚類方法介紹20-23
- 2.3.1 聚類技術(shù)簡介20-23
- 2.3.2 無監(jiān)督關(guān)系抽取聚類23
- 2.4 抽取工作評價標準23-25
- 2.4.1 實體關(guān)系抽取效果評價24
- 2.4.2 實體關(guān)系聚類效果評價24-25
- 2.5 本章小結(jié)25-26
- 3 實體關(guān)系特征獲取算法改進26-40
- 3.1 相關(guān)術(shù)語定義26-27
- 3.2 實體關(guān)系特征選擇27-34
- 3.2.1 基于位置與詞性的關(guān)系特征的抽取27-31
- 3.2.2 基于句法分析的關(guān)系特征抽取31-34
- 3.3 特征數(shù)值化與詞集合的構(gòu)建34-39
- 3.3.1 停用詞處理34
- 3.3.2 特征權(quán)重計算經(jīng)典方法34-36
- 3.3.3 對MI互信息法的改進36-39
- 3.4 本章小結(jié)39-40
- 4 實體關(guān)系抽取聚類算法改進40-53
- 4.1 根據(jù)實體類型對實體對進行類別預(yù)劃分41-42
- 4.2 關(guān)系抽取中相似度計算42-44
- 4.2.1 相似系數(shù)計算方法42-43
- 4.2.2 距離函數(shù)計算方法43-44
- 4.3 K MEANS聚類算法改進44-50
- 4.3.1 k means算法的流程44-45
- 4.3.2 k means的研究熱點與主要問題45-47
- 4.3.3 算法k值與初始聚類中心獲取方法改進47-48
- 4.3.4 對于孤立點處理的改進48-50
- 4.4 算法準則函數(shù)50-51
- 4.5 關(guān)系標簽標注51-52
- 4.6 本章小結(jié)52-53
- 5 實體關(guān)系抽取系統(tǒng)設(shè)計與實驗53-63
- 5.1 系統(tǒng)原型設(shè)計與實現(xiàn)53-55
- 5.1.1 系統(tǒng)處理流程53
- 5.1.2 系統(tǒng)整體框架53-55
- 5.1.3 系統(tǒng)開發(fā)環(huán)境55
- 5.2 實驗情況55-62
- 5.2.1 實驗數(shù)據(jù)基本情況55-57
- 5.2.2 實驗設(shè)計57
- 5.2.3 實驗結(jié)果及分析57-62
- 5.3 本章小結(jié)62-63
- 6 總結(jié)與展望63-65
- 6.1 論文工作總結(jié)63-64
- 6.2 工作展望64-65
- 致謝65-66
- 參考文獻66-68
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 劉海峰;劉守生;張學仁;;聚類模式下一種優(yōu)化的K-means文本特征選擇[J];計算機科學;2011年01期
2 虞歡歡;錢龍華;周國棟;朱巧明;;基于合一句法和實體語義樹的中文語義關(guān)系抽取[J];中文信息學報;2010年05期
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 寧海燕;實體關(guān)系自動抽取技術(shù)的比較研究[D];哈爾濱工業(yè)大學;2010年
本文關(guān)鍵詞:無監(jiān)督中文實體關(guān)系抽取研究,,由筆耕文化傳播整理發(fā)布。
本文編號:279445
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/279445.html
最近更新
教材專著