面向新聞文本的實體關(guān)系抽取研究
發(fā)布時間:2021-01-25 21:38
新聞文本中信息蘊含價值大,因此從其中提取信息有重大實用價值。但是新聞數(shù)量大,增長迅速,依靠人工處理提取信息耗時費力。實體識別和關(guān)系抽取技術(shù)可以實現(xiàn)自動化識別新聞實體,提取實體關(guān)系,為后續(xù)深入分析提供可能。首先新聞具有客觀、嚴(yán)肅的特性,因此用詞少見情感傾向詞匯;其次新聞中會頻繁出現(xiàn)特定詞匯代表特定組織機構(gòu);最后新聞的句子中可能包含很多不同類型實體且這些實體對之間有不同關(guān)系類型。為應(yīng)對新聞文本特征,本文構(gòu)建深度學(xué)習(xí)模型嘗試從海量新聞文本中識別出新聞實體以及抽取實體之間的關(guān)系,以便快速了解新聞重點,加快信息獲取效率。本文提出實體識別模型ER-Mul ATT model,此模型把實體識別轉(zhuǎn)化為句子級別的序列標(biāo)注任務(wù)。首先從語料中獲得詞向量,引入詞的字符級向量來表示詞的大小寫和縮寫等詞的字符特征;然后使用BiLSTM提取出詞的上下文依賴特征,利用自注意力機制來獲取詞的全局相關(guān)特征,解決遠(yuǎn)距離相關(guān)信息缺失的問題;最后使用CRF來獲取標(biāo)簽序列。本文提出實體關(guān)系抽取模型RE-BiGCN model,此模型把實體關(guān)系抽取轉(zhuǎn)化為句子級的分類問題。首先使用詞向量、詞性特征向量、實體標(biāo)識向量和經(jīng)過Char B...
【文章來源】: 周星瀚 武漢郵電科學(xué)研究院
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 研究目的及意義
1.2.1 研究目的
1.2.2 研究意義
1.3 研究現(xiàn)狀
1.3.1 命名實體識別的研究現(xiàn)狀
1.3.2 實體關(guān)系抽取研究現(xiàn)狀
1.4 研究內(nèi)容
1.5 論文結(jié)構(gòu)
2 相關(guān)理論和技術(shù)
2.1 圖卷積神經(jīng)網(wǎng)絡(luò)
2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.2.1 長短時記憶網(wǎng)絡(luò)
2.2.2 雙向長短時記憶網(wǎng)絡(luò)
2.3 條件隨機場
2.4 詞向量
2.4.1 詞表示方法
2.4.2 詞向量表示方法
2.5 注意力機制
2.6 本章小結(jié)
3 新聞文本的實體識別研究
3.1 中英文語言差異
3.2 英文新聞文本的特點
3.3 實體識別模型結(jié)構(gòu)
3.4 實體識別模型特點
3.4.1 特征抽取模塊
3.4.2 Mul ATT模塊
3.4.3 BiLSTM模塊
3.4.4 CRF模塊
3.5 模型優(yōu)化算法
3.6 英文新聞文本數(shù)據(jù)集構(gòu)建
3.6.1 數(shù)據(jù)集來源
3.6.2 數(shù)據(jù)集清洗
3.6.3 數(shù)據(jù)集預(yù)處理
3.6.4 數(shù)據(jù)集標(biāo)注
3.6.5 實驗對比數(shù)據(jù)集
3.7 實驗設(shè)置
3.7.1 實驗環(huán)境設(shè)置
3.7.2 實驗評估指標(biāo)
3.8新聞實體識別實驗
3.8.1 實驗參數(shù)的設(shè)置
3.8.2 對比模型特點
3.8.3 實體識別結(jié)果分析
3.8.4 模塊有效性對比
3.8.5 不同應(yīng)用領(lǐng)域的模型性能對比
3.9 本章小結(jié)
4 新聞文本的實體關(guān)系抽取研究
4.1 實體關(guān)系抽取模型結(jié)構(gòu)
4.2 實體關(guān)系抽取模型特點
4.2.1 特征向量模塊
4.2.2 syntactic BiGCN模塊
4.3 模型優(yōu)化算法
4.4 數(shù)據(jù)集預(yù)處理
4.5新聞實體關(guān)系抽取實驗
4.5.1 實驗參數(shù)的設(shè)置
4.5.2 對比模型特點
4.5.3 實體抽取結(jié)果分析
4.5.4 模塊有效性對比
4.5.5 不同應(yīng)用領(lǐng)域的模型性能對比
4.6 本章小結(jié)
5 總結(jié)與展望
5.1 論文結(jié)論
5.2 未來展望
參考文獻
致謝
附錄1 攻讀碩士期間參與項目和發(fā)表的論文
【參考文獻】:
期刊論文
[1]基于CNN和雙向LSTM融合的實體關(guān)系抽取[J]. 張曉斌,陳福才,黃瑞陽. 網(wǎng)絡(luò)與信息安全學(xué)報. 2018(09)
[2]基于多分類SVM-KNN的實體關(guān)系抽取方法[J]. 劉紹毓,周杰,李弼程,席耀一,唐浩浩. 數(shù)據(jù)采集與處理. 2015(01)
[3]基于句法語義特征的中文實體關(guān)系抽取[J]. 郭喜躍,何婷婷,胡小華,陳前軍. 中文信息學(xué)報. 2014(06)
[4]基于小規(guī)模尾字特征的中文命名實體識別研究[J]. 馮元勇,孫樂,張大鯤,李文波. 電子學(xué)報. 2008(09)
[5]基于層疊隱馬爾可夫模型的中文命名實體識別[J]. 俞鴻魁,張華平,劉群,呂學(xué)強,施水才. 通信學(xué)報. 2006(02)
本文編號:2999937
【文章來源】: 周星瀚 武漢郵電科學(xué)研究院
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 研究目的及意義
1.2.1 研究目的
1.2.2 研究意義
1.3 研究現(xiàn)狀
1.3.1 命名實體識別的研究現(xiàn)狀
1.3.2 實體關(guān)系抽取研究現(xiàn)狀
1.4 研究內(nèi)容
1.5 論文結(jié)構(gòu)
2 相關(guān)理論和技術(shù)
2.1 圖卷積神經(jīng)網(wǎng)絡(luò)
2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.2.1 長短時記憶網(wǎng)絡(luò)
2.2.2 雙向長短時記憶網(wǎng)絡(luò)
2.3 條件隨機場
2.4 詞向量
2.4.1 詞表示方法
2.4.2 詞向量表示方法
2.5 注意力機制
2.6 本章小結(jié)
3 新聞文本的實體識別研究
3.1 中英文語言差異
3.2 英文新聞文本的特點
3.3 實體識別模型結(jié)構(gòu)
3.4 實體識別模型特點
3.4.1 特征抽取模塊
3.4.2 Mul ATT模塊
3.4.3 BiLSTM模塊
3.4.4 CRF模塊
3.5 模型優(yōu)化算法
3.6 英文新聞文本數(shù)據(jù)集構(gòu)建
3.6.1 數(shù)據(jù)集來源
3.6.2 數(shù)據(jù)集清洗
3.6.3 數(shù)據(jù)集預(yù)處理
3.6.4 數(shù)據(jù)集標(biāo)注
3.6.5 實驗對比數(shù)據(jù)集
3.7 實驗設(shè)置
3.7.1 實驗環(huán)境設(shè)置
3.7.2 實驗評估指標(biāo)
3.8新聞實體識別實驗
3.8.1 實驗參數(shù)的設(shè)置
3.8.2 對比模型特點
3.8.3 實體識別結(jié)果分析
3.8.4 模塊有效性對比
3.8.5 不同應(yīng)用領(lǐng)域的模型性能對比
3.9 本章小結(jié)
4 新聞文本的實體關(guān)系抽取研究
4.1 實體關(guān)系抽取模型結(jié)構(gòu)
4.2 實體關(guān)系抽取模型特點
4.2.1 特征向量模塊
4.2.2 syntactic BiGCN模塊
4.3 模型優(yōu)化算法
4.4 數(shù)據(jù)集預(yù)處理
4.5新聞實體關(guān)系抽取實驗
4.5.1 實驗參數(shù)的設(shè)置
4.5.2 對比模型特點
4.5.3 實體抽取結(jié)果分析
4.5.4 模塊有效性對比
4.5.5 不同應(yīng)用領(lǐng)域的模型性能對比
4.6 本章小結(jié)
5 總結(jié)與展望
5.1 論文結(jié)論
5.2 未來展望
參考文獻
致謝
附錄1 攻讀碩士期間參與項目和發(fā)表的論文
【參考文獻】:
期刊論文
[1]基于CNN和雙向LSTM融合的實體關(guān)系抽取[J]. 張曉斌,陳福才,黃瑞陽. 網(wǎng)絡(luò)與信息安全學(xué)報. 2018(09)
[2]基于多分類SVM-KNN的實體關(guān)系抽取方法[J]. 劉紹毓,周杰,李弼程,席耀一,唐浩浩. 數(shù)據(jù)采集與處理. 2015(01)
[3]基于句法語義特征的中文實體關(guān)系抽取[J]. 郭喜躍,何婷婷,胡小華,陳前軍. 中文信息學(xué)報. 2014(06)
[4]基于小規(guī)模尾字特征的中文命名實體識別研究[J]. 馮元勇,孫樂,張大鯤,李文波. 電子學(xué)報. 2008(09)
[5]基于層疊隱馬爾可夫模型的中文命名實體識別[J]. 俞鴻魁,張華平,劉群,呂學(xué)強,施水才. 通信學(xué)報. 2006(02)
本文編號:2999937
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2999937.html
最近更新
教材專著