基于深度學(xué)習(xí)的中文關(guān)系抽取方法研究
發(fā)布時間:2021-04-11 23:47
關(guān)系抽取是指檢測和識別文本語句中實體之間的語義關(guān)系。關(guān)系抽取作為自然語言處理的關(guān)鍵一環(huán),對自然語言處理的許多應(yīng)用如自動問答、知識圖譜等具有重要的意義。近幾年,深度學(xué)習(xí)模型已經(jīng)成為關(guān)系抽取的最先進方法,然而關(guān)于中文關(guān)系抽取的研究工作卻很少。本文針對中文關(guān)系抽取面臨的字詞之間無明顯的分割標(biāo)志,分詞誤差會被引入關(guān)系抽取系統(tǒng)中;以及缺乏公開的標(biāo)記中文語料等問題。首先基于遠(yuǎn)程監(jiān)督思想,從復(fù)旦知識工廠、百度百科中提取關(guān)系三元組,通過與開放的中文語料搜狐新聞數(shù)據(jù)集中的文本進行對齊,構(gòu)建了一個中文人物關(guān)系數(shù)據(jù)集。然后提出了一個用于遠(yuǎn)程監(jiān)督中文關(guān)系抽取的多示例多標(biāo)簽雙向長短時記憶神經(jīng)網(wǎng)絡(luò)(BLSTM)模型。以字向量和位置向量作為輸入,避免了引入中文分詞錯誤;注意機制用于提取更豐富的漢字和句子特征;在神經(jīng)網(wǎng)絡(luò)分類器中使用多個二分類函數(shù)做多標(biāo)簽分類來處理重疊關(guān)系。為了提高關(guān)系抽取模型的性能,又提出了一個改進的基于注意力池化BGRU的關(guān)系抽取模型,該模型將LSTM替換為神經(jīng)元結(jié)構(gòu)更簡單的GRU,在字級注意力層后添加了分段最大池化層,結(jié)合了RNN可以捕獲全局信息和分段最大池化可以提取結(jié)構(gòu)信息的特點,而分類器則采...
【文章來源】:湖南大學(xué)湖南省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【部分圖文】:
RNN展開圖[66]
五種常見的RNN架構(gòu)[68]
卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)圖
本文編號:3132184
【文章來源】:湖南大學(xué)湖南省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【部分圖文】:
RNN展開圖[66]
五種常見的RNN架構(gòu)[68]
卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)圖
本文編號:3132184
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3132184.html
最近更新
教材專著