基于PLSTM卷積神經(jīng)網(wǎng)絡(luò)和共享表示生成器的實(shí)體關(guān)系抽取的研究和實(shí)現(xiàn)
發(fā)布時(shí)間:2021-12-09 16:00
實(shí)體關(guān)系抽取是自然語(yǔ)言處理的一個(gè)重要任務(wù),由于傳統(tǒng)的有監(jiān)督分類方法往往需要大量的人工標(biāo)注工作,效率低下,基于遠(yuǎn)程監(jiān)督的關(guān)系抽取成為了新的研究熱點(diǎn)。遠(yuǎn)程監(jiān)督有一個(gè)強(qiáng)假設(shè)條件,如果兩個(gè)實(shí)體存在某種關(guān)系,那么所有同時(shí)包含這兩個(gè)實(shí)體的句子都在某種程度上表達(dá)了這種關(guān)系,因?yàn)檫@個(gè)假設(shè)實(shí)際中并不總是成立,導(dǎo)致自動(dòng)標(biāo)注的數(shù)據(jù)集中會(huì)引入較多的噪聲。如何緩解遠(yuǎn)程監(jiān)督中的噪聲問(wèn)題是當(dāng)前亟待解決的研究難點(diǎn)。本文結(jié)合多示例學(xué)習(xí),從句子向量表示和包向量表示兩個(gè)方面來(lái)改進(jìn)關(guān)系抽取的性能。在句子向量表示上,為了改進(jìn)傳統(tǒng)分段卷積神經(jīng)網(wǎng)絡(luò)忽略了段間語(yǔ)義關(guān)聯(lián)性的問(wèn)題,本文引入了BiLSTM序列化建模來(lái)學(xué)習(xí)更多關(guān)聯(lián)特征,并提出了基于分段LSTM卷積神經(jīng)網(wǎng)絡(luò)PLSTM-CNN進(jìn)行文本向量表示的方法。在包向量表示上,本文提出了新的共享表示生成器進(jìn)行特征空間轉(zhuǎn)換,將句子從原始語(yǔ)義空間映射到和目標(biāo)關(guān)系語(yǔ)義相關(guān)的特征空間,從而過(guò)濾掉無(wú)關(guān)噪聲的表達(dá)。和主流的注意力加權(quán)機(jī)制不同,本文提出的方法具有更強(qiáng)的非線性擬合能力,并且能提取更多的示例共同特征。此外本文還引入了額外的生成器損失來(lái)提高其性能。本文提出的改進(jìn)方法都具有良好的可擴(kuò)展性,其中共...
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1基于遠(yuǎn)程監(jiān)督的關(guān)系抽取方法流程圖??2.1.2監(jiān)
圖2-2神經(jīng)元模型示意圖??
圖2-3基于attention機(jī)制的encoder-decodei?翻譯模型??在該模型中,表示編碼端輸入,伙hT}是采用RNN模??
本文編號(hào):3530910
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1基于遠(yuǎn)程監(jiān)督的關(guān)系抽取方法流程圖??2.1.2監(jiān)
圖2-2神經(jīng)元模型示意圖??
圖2-3基于attention機(jī)制的encoder-decodei?翻譯模型??在該模型中,表示編碼端輸入,伙hT}是采用RNN模??
本文編號(hào):3530910
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3530910.html
最近更新
教材專著