面向開放領(lǐng)域文本的實(shí)體關(guān)系抽取
本文關(guān)鍵詞:面向開放領(lǐng)域文本的實(shí)體關(guān)系抽取
更多相關(guān)文章: 開放領(lǐng)域 實(shí)體識(shí)別 實(shí)體關(guān)系抽取 知識(shí)圖譜
【摘要】:隨著大數(shù)據(jù)時(shí)代的來臨,人們面臨和需要處理的數(shù)據(jù)在規(guī)模上急劇膨脹,而大部分?jǐn)?shù)據(jù)以自然語言描述的無結(jié)構(gòu)文本格式存在,其內(nèi)容所屬領(lǐng)域的界限也日趨模糊,一些有重要意義和價(jià)值的知識(shí)信息顯式或隱式地散落在這些海量的文字中間,從而影響了人們直觀、高效地從中發(fā)現(xiàn)目標(biāo)信息。作為信息抽取的一項(xiàng)重要任務(wù),實(shí)體關(guān)系抽取研究的根本目標(biāo)就是利用語言學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、信息科學(xué)等多個(gè)領(lǐng)域的知識(shí),從無結(jié)構(gòu)或半結(jié)構(gòu)的文本中發(fā)現(xiàn)實(shí)體之間存在的各類語義關(guān)系,并以結(jié)構(gòu)化的方式呈現(xiàn)出來,以便于人們快速理解和掌握文本的意義。面向開放領(lǐng)域文本的關(guān)系抽取面臨著諸多困難與挑戰(zhàn),而該項(xiàng)研究對(duì)于事件抽取、信息檢索、機(jī)器翻譯、自動(dòng)問答等領(lǐng)域的研究具有較強(qiáng)的支撐作用,因而具有較強(qiáng)的研究價(jià)值與研究意義。針對(duì)開放領(lǐng)域文本的特點(diǎn),在總結(jié)現(xiàn)有實(shí)體關(guān)系抽取研究的基礎(chǔ)上,本文從實(shí)體關(guān)系特征選擇和實(shí)體關(guān)系抽取方法兩個(gè)角度進(jìn)行了面向開放領(lǐng)域文本的實(shí)體關(guān)系抽取研究,并將這些研究成果應(yīng)用于面向大學(xué)計(jì)算機(jī)基礎(chǔ)課程的知識(shí)圖譜的構(gòu)建研究中。本文的主要研究內(nèi)容包括以下四個(gè)方面:(1)基于句法語義特征的實(shí)體關(guān)系抽取。領(lǐng)域無關(guān)的新聞文本是一種較為常見的開放領(lǐng)域文本,現(xiàn)有的研究偏重于核函數(shù)及其組合的在關(guān)系抽取中的應(yīng)用,而在關(guān)系特征方面的研究相對(duì)偏少,而且以往的研究大多是利用外部的語義知識(shí)庫作為輔助來實(shí)現(xiàn),較少從關(guān)系結(jié)構(gòu)自身所處的句子中提取語義特征,也缺少從語言學(xué)的角度來挖掘關(guān)系特征。為此,本文提出一種基于句法語義特征的實(shí)體關(guān)系抽取方法,在特征選擇方面,著重從語言學(xué)的角度出發(fā),以詞法分析、上下文環(huán)境等特征為基礎(chǔ),新添加了依存句法特征、語義角色標(biāo)注特征以及核心謂詞與實(shí)體的位置距離特征等,實(shí)現(xiàn)關(guān)系特征選擇范圍的擴(kuò)展;在機(jī)器學(xué)習(xí)方法上,以SVM模型為基礎(chǔ),構(gòu)建基于特征空間轉(zhuǎn)換的訓(xùn)練模型,并采用成熟的算法對(duì)訓(xùn)練過程進(jìn)行優(yōu)化;最后使用《人民日?qǐng)?bào)》部分語料進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了本文所述方法的有效性。(2)基于弱監(jiān)督的實(shí)體關(guān)系抽取。百科類文本是另一種典型的開放領(lǐng)域文本,可根據(jù)其自有內(nèi)容實(shí)現(xiàn)基于弱監(jiān)督機(jī)器學(xué)習(xí)的關(guān)系抽取,從而減少人工干預(yù)、提高效率。以往針對(duì)中文百科文本的屬性抽取研究較多,而實(shí)體關(guān)系抽取的研究相對(duì)較少,且在目標(biāo)關(guān)系類型選擇過程中存在缺陷。為此,本文提出一種基于弱監(jiān)督的百科文本實(shí)體關(guān)系抽取方法,在監(jiān)督知識(shí)庫的構(gòu)建環(huán)節(jié),不再直接依賴基本信息框中的數(shù)據(jù),而是從多個(gè)角度對(duì)基本信息框中的內(nèi)容進(jìn)行加工整合,得到質(zhì)量更高的關(guān)系元組,用于對(duì)詞條正文進(jìn)行自動(dòng)關(guān)系標(biāo)注;在目標(biāo)關(guān)系類型選擇中,提出了一種基于頻度差值密度的目標(biāo)關(guān)系類型選擇方法,使其夠按照每種關(guān)系類型在語料中的分布密度隨機(jī)從一定范圍內(nèi)選擇目標(biāo)關(guān)系類型,從而提高目標(biāo)關(guān)系類型選擇的覆蓋面和科學(xué)性;本方法繼承了上一研究內(nèi)容中的關(guān)系特征選擇、特征向量優(yōu)化方法和關(guān)系分類訓(xùn)練模型,并使用百度百科部分詞條作為語料進(jìn)行了實(shí)驗(yàn),得到了較好的實(shí)驗(yàn)效果。(3)基于字典構(gòu)建與規(guī)則學(xué)習(xí)的實(shí)體關(guān)系抽取。該項(xiàng)研究主要實(shí)現(xiàn)從期刊文本中進(jìn)行特定類型的術(shù)語之間的關(guān)系抽取。在基于規(guī)則的實(shí)體關(guān)系抽取研究中,利用關(guān)系字典能夠明顯地提升關(guān)系識(shí)別效果,而在以往研究中,關(guān)系規(guī)則與關(guān)系字典往往由人工構(gòu)建,效率較低。本文提出一種基于弱監(jiān)督的關(guān)系詞字典自動(dòng)構(gòu)建方法,首先設(shè)計(jì)一種全新的關(guān)系詞字典結(jié)構(gòu),在人工挑選部分典型關(guān)系詞的基礎(chǔ)上,通過基于CRF模型的弱監(jiān)督機(jī)器學(xué)習(xí)得到關(guān)系詞識(shí)別器,最終實(shí)現(xiàn)關(guān)系詞字典的自動(dòng)構(gòu)建:在關(guān)系規(guī)則的自動(dòng)生成方面,利用上述關(guān)系詞字典,首先根據(jù)關(guān)系詞與實(shí)體的相對(duì)位置關(guān)系設(shè)計(jì)關(guān)系模式,然后從大量的訓(xùn)練文本中抽取填充因子填充到關(guān)系模式中,從而自動(dòng)得到關(guān)系規(guī)則;此外,本文還提出了無明顯關(guān)系詞的實(shí)體關(guān)系抽取方法以及規(guī)則修剪方法等。在實(shí)驗(yàn)中,將本方法應(yīng)用于生物醫(yī)學(xué)期刊文獻(xiàn)中的蛋白質(zhì)交互(PPI)關(guān)系抽取,取得了較好的效果。(4)面向大學(xué)計(jì)算機(jī)基礎(chǔ)課程的知識(shí)圖譜構(gòu)建研究。面向大學(xué)計(jì)算機(jī)基礎(chǔ)課程的知識(shí)圖譜構(gòu)建,可以為該課程的教學(xué)改革、學(xué)習(xí)方法的改進(jìn)等提供豐富的知識(shí)保障,從而有助于提升教育信息化水平。本文以大學(xué)計(jì)算機(jī)基礎(chǔ)課程的教材為知識(shí)語料來源,首先提出了一種跨語言的實(shí)體識(shí)別方法;整合并改造上述研究內(nèi)容實(shí)現(xiàn)從教材文本中進(jìn)行實(shí)體關(guān)系抽;提出了知識(shí)圖譜的模式設(shè)計(jì),包括Schema設(shè)計(jì)、關(guān)系知識(shí)表示、知識(shí)更新方法和沖突處理等關(guān)鍵環(huán)節(jié);最后開發(fā)了該知識(shí)圖譜的可視化系統(tǒng)。
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄧擘;鄭彥寧;傅繼彬;;漢語實(shí)體關(guān)系模式的自動(dòng)獲取研究[J];計(jì)算機(jī)科學(xué);2010年02期
2 牟晉娟;包宏;;中文實(shí)體關(guān)系抽取研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年15期
3 朱姍;;基于規(guī)則和本體的實(shí)體關(guān)系抽取系統(tǒng)研究[J];情報(bào)雜志;2010年S2期
4 車萬翔,劉挺,李生;實(shí)體關(guān)系自動(dòng)抽取[J];中文信息學(xué)報(bào);2005年02期
5 朱鴻宇;劉瑰;陳左寧;唐福華;;實(shí)體關(guān)系識(shí)別中長距離依賴問題的研究[J];小型微型計(jì)算機(jī)系統(tǒng);2008年02期
6 周利娟;林鴻飛;羅文華;;基于實(shí)體關(guān)系的犯罪網(wǎng)絡(luò)識(shí)別機(jī)制[J];計(jì)算機(jī)應(yīng)用研究;2011年03期
7 徐健;張智雄;吳振新;;實(shí)體關(guān)系抽取的技術(shù)方法綜述[J];現(xiàn)代圖書情報(bào)技術(shù);2008年08期
8 李小紅;錢龍華;;基于自舉的弱指導(dǎo)中文實(shí)體關(guān)系抽取研究[J];高科技與產(chǎn)業(yè)化;2010年09期
9 董靜;孫樂;馮元勇;黃瑞紅;;中文實(shí)體關(guān)系抽取中的特征選擇研究[J];中文信息學(xué)報(bào);2007年04期
10 黃晨;錢龍華;周國棟;朱巧明;;基于卷積樹核的無指導(dǎo)中文實(shí)體關(guān)系抽取研究[J];中文信息學(xué)報(bào);2010年04期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前3條
1 車萬翔;劉挺;李生;;實(shí)體關(guān)系自動(dòng)抽取[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
2 莊成龍;錢龍華;周國棟;;基于樹核函數(shù)的實(shí)體關(guān)系抽取方法研究[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C];2008年
3 徐芬;王挺;陳火旺;;基于SVM方法的中文實(shí)體關(guān)系抽取[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 陳忱;面向Web的實(shí)體關(guān)系查詢與分析關(guān)鍵技術(shù)研究[D];東北大學(xué);2013年
2 郭喜躍;面向開放領(lǐng)域文本的實(shí)體關(guān)系抽取[D];華中師范大學(xué);2016年
3 張奇;信息抽取中實(shí)體關(guān)系識(shí)別研究[D];中國科學(xué)技術(shù)大學(xué);2010年
4 張宏濤;面向生物文本的實(shí)體關(guān)系自動(dòng)抽取問題研究[D];清華大學(xué);2012年
5 張素香;信息抽取中關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 施琦;無監(jiān)督中文實(shí)體關(guān)系抽取研究[D];中國地質(zhì)大學(xué)(北京);2015年
2 林家欣;基于多源知識(shí)的地理選擇題答題方法研究[D];哈爾濱工業(yè)大學(xué);2015年
3 劉紹毓;實(shí)體關(guān)系抽取關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2015年
4 胡春艷;中文開放式實(shí)體關(guān)系抽取技術(shù)研究[D];東北大學(xué);2014年
5 程文亮;中文企業(yè)知識(shí)圖譜構(gòu)建與分析[D];華東師范大學(xué);2016年
6 徐力;面向Web2.0的二元人物關(guān)系抽取研究[D];華東交通大學(xué);2016年
7 韓海丹;面向智能服務(wù)機(jī)器人的家庭環(huán)境關(guān)系知識(shí)庫構(gòu)建[D];燕山大學(xué);2016年
8 劉龍;音樂領(lǐng)域全局實(shí)體關(guān)系抽取研究[D];哈爾濱工業(yè)大學(xué);2010年
9 雷春雅;領(lǐng)域?qū)嶓w關(guān)系自動(dòng)抽取研究[D];昆明理工大學(xué);2011年
10 劉安安;開放式中文實(shí)體關(guān)系抽取研究[D];哈爾濱工業(yè)大學(xué);2013年
,本文編號(hào):1270407
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1270407.html