天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于詞匯語義信息的中文命名實(shí)體關(guān)系抽取研究

發(fā)布時(shí)間:2017-03-29 03:13

  本文關(guān)鍵詞:基于詞匯語義信息的中文命名實(shí)體關(guān)系抽取研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:自互聯(lián)網(wǎng)誕生以來,接入的用戶越來越多,直接導(dǎo)致了當(dāng)今互聯(lián)網(wǎng)上的信息量呈爆炸式增長,信息量的巨大也帶來了巨大的使用價(jià)值。然而互聯(lián)網(wǎng)上的信息大多為無結(jié)構(gòu)或半結(jié)構(gòu)化的文本,要想有效利用其中的信息,就涉及到自然語言處理領(lǐng)域的一個(gè)熱門課題——信息抽取。命名實(shí)體關(guān)系抽取是信息抽取的重要任務(wù),其內(nèi)容為使計(jì)算機(jī)自動(dòng)的通過實(shí)體所在的文本抽取出實(shí)體之間的關(guān)系。關(guān)系抽取對(duì)領(lǐng)域本體和知識(shí)圖譜的構(gòu)建、問答系統(tǒng)、信息檢索等領(lǐng)域具有重要意義。在四種中文關(guān)系抽取的方法中,本文選擇基于樹核函數(shù)的機(jī)器學(xué)習(xí)方法作為研究方向,其關(guān)鍵是構(gòu)建有效的關(guān)系抽取特征。在已有的特征中,很少涉及《同義詞詞林》、《知網(wǎng)》等語義詞典,而這些詞典包含的語義信息對(duì)關(guān)系的識(shí)別和抽取非常有研究價(jià)值。本文首先提出了一種簡易的根據(jù)《同義詞詞林》計(jì)算詞匯語義相似度的方法,并根據(jù)該方法提出了詞匯語義相似度樹特征。《同義詞詞林》編碼分為5層,從左到右相同的層數(shù)越多,詞匯在語義上越相近;而樹核函數(shù)計(jì)算相似度的原理為相同的子樹越多,相似度越高。針對(duì)以上兩點(diǎn),提出了《同義詞詞林》編碼樹特征,將5層編碼分別放入樹形結(jié)構(gòu)的5層節(jié)點(diǎn)中。為了探究哪一層編碼所代表的語義信息更適合關(guān)系抽取,又提出了各個(gè)級(jí)別的《同義詞詞林》編碼樹特征。《知網(wǎng)》中詞條的語義信息都包含在常識(shí)性知識(shí)庫中的DEF項(xiàng)里,由此本文提出了一種由DEF項(xiàng)轉(zhuǎn)化而來的《知網(wǎng)》語義樹特征。為了縮減特征中節(jié)點(diǎn)數(shù)量提出了兩種簡化的《知網(wǎng)》語義樹:三層語義樹和無動(dòng)態(tài)角色語義樹。經(jīng)過實(shí)驗(yàn)得到了以下結(jié)論:在基于《同義詞詞林》的特征中,完整的《同義詞詞林》編碼樹取得了最好的效果;在基于《知網(wǎng)》的特征中,同樣是完整的《知網(wǎng)》語義樹抽取效果最好;《同義詞詞林》編碼樹和《知網(wǎng)》語義樹的組合特征取得了非常好的抽取效果,關(guān)系大類和關(guān)系小類的抽取的TF分別達(dá)到了86.6和93.3,而且該組合特征可以不依賴標(biāo)注語料得到,在未來的開放域關(guān)系抽取中很有應(yīng)用價(jià)值。
【關(guān)鍵詞】:關(guān)系抽取 樹核函數(shù) 機(jī)器學(xué)習(xí) 《同義詞詞林》 《知網(wǎng)》
【學(xué)位授予單位】:太原理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要3-5
  • ABSTRACT5-9
  • 第一章 緒論9-18
  • 1.1 研究背景及意義9-10
  • 1.2 研究現(xiàn)狀10-16
  • 1.2.1 基于模式匹配的關(guān)系抽取11
  • 1.2.2 基于詞典驅(qū)動(dòng)的關(guān)系抽取11-12
  • 1.2.3 基于機(jī)器學(xué)習(xí)的關(guān)系抽取12-14
  • 1.2.4 開放域關(guān)系抽取14-16
  • 1.3 主要研究內(nèi)容16
  • 1.4 本文的組織結(jié)構(gòu)16-18
  • 第二章 相關(guān)理論及工具概述18-28
  • 2.1 語料庫18-21
  • 2.2 預(yù)處理方法21-24
  • 2.2.1 中文分詞21-22
  • 2.2.2 中文句法分析22-24
  • 2.3 樹核函數(shù)24-25
  • 2.4 分類器及SVM的多分類支持25-27
  • 2.5 本章小結(jié)27-28
  • 第三章 基于《同義詞詞林》的關(guān)系抽取特征28-39
  • 3.1 《同義詞詞林》28-30
  • 3.2 《詞林》編碼的獲取30-31
  • 3.3 基于《詞林》的詞匯語義相似度31-32
  • 3.4 基于《詞林》的實(shí)體詞詞匯語義相似度樹32-34
  • 3.5 《詞林》編碼樹34-36
  • 3.6 各個(gè)級(jí)別《詞林》編碼樹36-37
  • 3.7 本章小結(jié)37-39
  • 第四章 基于《知網(wǎng)》的關(guān)系抽取特征39-47
  • 4.1 《知網(wǎng)》39-41
  • 4.2 《知網(wǎng)》語義樹41-44
  • 4.3 簡化的《知網(wǎng)》語義樹44-46
  • 4.3.1 三層語義樹44-45
  • 4.3.2 無動(dòng)態(tài)角色語義樹45-46
  • 4.4 本章小結(jié)46-47
  • 第五章 中文命名實(shí)體關(guān)系抽取性能評(píng)測47-57
  • 5.1 實(shí)驗(yàn)設(shè)置與基準(zhǔn)特征47-49
  • 5.1.1 實(shí)驗(yàn)設(shè)置47
  • 5.1.2 基準(zhǔn)特征47-49
  • 5.2 實(shí)驗(yàn)結(jié)果與分析49-55
  • 5.2.1 單一特征49-54
  • 5.2.2 兩種組合特征54-55
  • 5.2.3 多種組合特征55
  • 5.3 本章小結(jié)55-57
  • 第六章 總結(jié)與展望57-59
  • 6.1 工作總結(jié)57-58
  • 6.2 下一步研究展望58-59
  • 參考文獻(xiàn)59-62
  • 致謝62-63
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄63

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 黃碩;周延泉;;基于知網(wǎng)和同義詞詞林的詞匯語義傾向計(jì)算[J];軟件;2013年02期

2 劉丹丹;彭成;錢龍華;周國棟;;《同義詞詞林》在中文實(shí)體關(guān)系抽取中的作用[J];中文信息學(xué)報(bào);2014年02期

3 張寶劍;一種基于無指導(dǎo)的詞義排歧方法[J];河南職業(yè)技術(shù)師范學(xué)院學(xué)報(bào);2002年01期

4 呂震宇;林永民;趙爽;朱衛(wèi)東;;基于同義詞詞林的文本特征選擇與加權(quán)研究[J];情報(bào)雜志;2008年05期

5 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計(jì)算方法[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2010年06期

6 鄭艷紅;張東站;;基于同義詞詞林的文本特征選擇方法[J];廈門大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年02期

7 陳登;小議“五詞”[J];研究與探索;1986年03期

8 楊霞;;基于同義詞詞林的微博客評(píng)論情感分類研究[J];電子科技;2014年07期

9 程傳鵬;;網(wǎng)絡(luò)評(píng)價(jià)傾向性研究[J];計(jì)算機(jī)工程與應(yīng)用;2011年25期

10 程濤;施水才;王霞;呂學(xué)強(qiáng);;基于同義詞詞林的中文文本主題詞提取[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前7條

1 徐慶;基于詞匯語義信息的中文命名實(shí)體關(guān)系抽取研究[D];太原理工大學(xué);2016年

2 耿端;基于同義詞詞林的評(píng)分在中醫(yī)案例自測系統(tǒng)中的應(yīng)用[D];西北大學(xué);2013年

3 曹晶;同義詞挖掘及其在概念信息檢索系統(tǒng)中的應(yīng)用研究[D];東北師范大學(xué);2006年

4 祁磊;話題檢測與跟蹤及趨勢預(yù)測研究[D];杭州電子科技大學(xué);2014年

5 趙紅艷;基于語義知識(shí)的動(dòng)詞隱喻識(shí)別與應(yīng)用[D];南京師范大學(xué);2012年

6 張翠萍;基于模糊理論的在線智能閱卷系統(tǒng)的研究與應(yīng)用[D];石家莊鐵道大學(xué);2013年

7 胡新主;分布式搜索引擎結(jié)果聚類方法的設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2012年


  本文關(guān)鍵詞:基于詞匯語義信息的中文命名實(shí)體關(guān)系抽取研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):273572

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/273572.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e4094***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com