基于深度學(xué)習(xí)的中文文本實(shí)體關(guān)系抽取研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-03-21 10:02
隨著互聯(lián)網(wǎng)的飛速發(fā)展,文本語料規(guī)模得到了巨大的增長(zhǎng),文本中蘊(yùn)含的信息也在爆炸式地增長(zhǎng)。為了應(yīng)對(duì)信息爆炸的挑戰(zhàn),實(shí)體關(guān)系抽取應(yīng)運(yùn)而生。傳統(tǒng)的有監(jiān)督的關(guān)系提取方法依賴于大量手工標(biāo)注的數(shù)據(jù),這會(huì)花費(fèi)很多時(shí)間和精力。為了解除這一限制,誕生了基于遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系抽取。遠(yuǎn)程監(jiān)督是基于這樣的假設(shè):如果兩個(gè)實(shí)體在知識(shí)庫中有關(guān)系,那么所有包含這兩個(gè)實(shí)體的句子將表示這種關(guān)系。盡管遠(yuǎn)程監(jiān)督是一種自動(dòng)生成訓(xùn)練數(shù)據(jù)的卓越策略,但因?yàn)槠浼僭O(shè)太過強(qiáng)大,不可避免地會(huì)引入噪聲數(shù)據(jù)。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)前沿領(lǐng)域,已經(jīng)有不少研究工作使用深度學(xué)習(xí)在NLP任務(wù)上大放異彩。本文將深度學(xué)習(xí)技術(shù)引入到基于遠(yuǎn)程監(jiān)督的中文實(shí)體關(guān)系抽取任務(wù)中,進(jìn)行了以下的研究工作:1)本文提出了一種基于分層注意力和實(shí)體描述信息的遠(yuǎn)程監(jiān)督關(guān)系抽取算法HBGD。該模型的關(guān)鍵動(dòng)機(jī)在于,實(shí)體的描述信息可以為關(guān)系抽取任務(wù)提供豐富的背景知識(shí)幫助模型更好地識(shí)別關(guān)系。通過分層注意力網(wǎng)絡(luò),模型能夠選擇有效的實(shí)例并從中獲取重要的語義信息。此外,該模型還集成了從維基百科中提取的實(shí)體描述到分層注意力模型中以提供背景知識(shí)。本文提出的模型不僅可以對(duì)抗由遠(yuǎn)程監(jiān)督帶來的噪聲,也...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:81 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
盈ScraPy爬蟲框架圖
段是計(jì)算輸入的Query與需要關(guān)注的重點(diǎn)部分Key的相關(guān)性,第二個(gè)階段把第一階??段得到的相關(guān)性結(jié)果做歸一化,最后第三個(gè)階段按照相關(guān)性的權(quán)重結(jié)果乘上該Key??對(duì)應(yīng)的Value并求和。??在第一個(gè)階段,對(duì)于輸入的Query與需要關(guān)注的重點(diǎn)部分Key的相關(guān)性計(jì)算,??最常見的方法包括:求兩者的向量點(diǎn)積、求兩者的向量余弦相似性或者通過再引入??額外的神經(jīng)網(wǎng)絡(luò)來求值。例如,求點(diǎn)積來計(jì)算相似性的公式如下:??Similarity(Query,Keyi)?—?Query?■?Keyi?(2-2)??第一階段產(chǎn)生的相關(guān)性結(jié)果通過Softmax函數(shù)進(jìn)行歸一化,一般采用如下公式??計(jì)算:??eSimt??ai?=?Softmax[Simi)?=?—r ̄—?(2-3)??L?=xeSimi??
2.4本章小結(jié)??本章首先定義了關(guān)系抽取的相關(guān)概念;然后,對(duì)遠(yuǎn)程監(jiān)督關(guān)系抽取流程中涉及??到的各項(xiàng)NLP工具進(jìn)行了介紹和描述;最后,介紹了文章中使用到的深度學(xué)習(xí)技術(shù)??包括詞向量,卷積神經(jīng)網(wǎng)絡(luò)CNN,門控循環(huán)神經(jīng)網(wǎng)絡(luò)GRU和注意力機(jī)制。??
【參考文獻(xiàn)】:
碩士論文
[1]面向海量互聯(lián)網(wǎng)中文文本的實(shí)體關(guān)系抽取研究與實(shí)現(xiàn)[D]. 武曉陽.北京郵電大學(xué) 2018
[2]海量互聯(lián)網(wǎng)文本中的實(shí)體關(guān)系抽取研究與實(shí)現(xiàn)[D]. 辛海明.北京郵電大學(xué) 2017
本文編號(hào):3092675
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:81 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
盈ScraPy爬蟲框架圖
段是計(jì)算輸入的Query與需要關(guān)注的重點(diǎn)部分Key的相關(guān)性,第二個(gè)階段把第一階??段得到的相關(guān)性結(jié)果做歸一化,最后第三個(gè)階段按照相關(guān)性的權(quán)重結(jié)果乘上該Key??對(duì)應(yīng)的Value并求和。??在第一個(gè)階段,對(duì)于輸入的Query與需要關(guān)注的重點(diǎn)部分Key的相關(guān)性計(jì)算,??最常見的方法包括:求兩者的向量點(diǎn)積、求兩者的向量余弦相似性或者通過再引入??額外的神經(jīng)網(wǎng)絡(luò)來求值。例如,求點(diǎn)積來計(jì)算相似性的公式如下:??Similarity(Query,Keyi)?—?Query?■?Keyi?(2-2)??第一階段產(chǎn)生的相關(guān)性結(jié)果通過Softmax函數(shù)進(jìn)行歸一化,一般采用如下公式??計(jì)算:??eSimt??ai?=?Softmax[Simi)?=?—r ̄—?(2-3)??L?=xeSimi??
2.4本章小結(jié)??本章首先定義了關(guān)系抽取的相關(guān)概念;然后,對(duì)遠(yuǎn)程監(jiān)督關(guān)系抽取流程中涉及??到的各項(xiàng)NLP工具進(jìn)行了介紹和描述;最后,介紹了文章中使用到的深度學(xué)習(xí)技術(shù)??包括詞向量,卷積神經(jīng)網(wǎng)絡(luò)CNN,門控循環(huán)神經(jīng)網(wǎng)絡(luò)GRU和注意力機(jī)制。??
【參考文獻(xiàn)】:
碩士論文
[1]面向海量互聯(lián)網(wǎng)中文文本的實(shí)體關(guān)系抽取研究與實(shí)現(xiàn)[D]. 武曉陽.北京郵電大學(xué) 2018
[2]海量互聯(lián)網(wǎng)文本中的實(shí)體關(guān)系抽取研究與實(shí)現(xiàn)[D]. 辛海明.北京郵電大學(xué) 2017
本文編號(hào):3092675
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3092675.html
最近更新
教材專著