遠(yuǎn)監(jiān)督關(guān)系抽取的降噪優(yōu)化處理
發(fā)布時間:2021-02-04 23:19
隨著互聯(lián)網(wǎng)時代的高速發(fā)展,越來越多的問題開始出現(xiàn),如何迅速、準(zhǔn)確處理在網(wǎng)絡(luò)上存在的海量非結(jié)構(gòu)化的數(shù)據(jù),吸引了越來越多的研究人員的關(guān)注。處理文本信息是自然語言處理的一項(xiàng)重要功能,而在處理文本信息中,信息抽取是極為重要的一項(xiàng)任務(wù),而本文使用的關(guān)系抽取是信息抽取的一項(xiàng)子任務(wù),目前存在有全監(jiān)督、半監(jiān)督、弱監(jiān)督以及無監(jiān)督關(guān)系抽取等大致幾種分類,這幾種分類方法的依據(jù)則是訓(xùn)練數(shù)據(jù)的來源。但在海量的非結(jié)構(gòu)數(shù)據(jù)的問題上,都存在著準(zhǔn)確率低或成本太高的問題。在2009年學(xué)者M(jìn)intz提出一種是在大數(shù)據(jù)環(huán)境下進(jìn)行關(guān)系抽取任務(wù)的方法——遠(yuǎn)監(jiān)督關(guān)系抽取,這項(xiàng)工作是通過將知識庫中的關(guān)系實(shí)例和文本集中的句子進(jìn)行對齊,在進(jìn)行知識對齊的過程中是基于這樣一條假設(shè)來對齊的,如果在文本集中的某條語句中,包含著知識庫中的某條實(shí)體對,則認(rèn)為這條句子表達(dá)了這個實(shí)體對在知識庫中表達(dá)的關(guān)系標(biāo)簽,然后運(yùn)用對齊后的數(shù)據(jù)在分類器中進(jìn)行大規(guī)模訓(xùn)練。本文在修改訓(xùn)練流程的同時,對傳統(tǒng)的訓(xùn)練方式進(jìn)行了兩點(diǎn)改進(jìn)。一是池化過程中采用了詞級別的注意力機(jī)制,解決句子中的異構(gòu)語句問題;二是在數(shù)據(jù)進(jìn)行初步訓(xùn)練后,對不完備的標(biāo)簽采用了基于SVD的標(biāo)簽補(bǔ)全的方法。這...
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:53 頁
【學(xué)位級別】:碩士
【部分圖文】:
神經(jīng)元的基本結(jié)構(gòu)
圖 2.3 經(jīng)典神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[26]如圖2.3便是一個經(jīng)典的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其中最左邊的起始的輸入信息叫做輸入層,輸入層的眾多神經(jīng)元接受大量輸入信息,也稱作輸入向量;中間的稱作隱藏層,是輸入層和輸出層之間的大量的神經(jīng)元和連接共同組成的各個層面,如果有多個隱藏層,則表明有多個激活函數(shù)。最右邊的就是輸出層,可能會有很多輸出神經(jīng)元,信息在神經(jīng)元中經(jīng)過傳輸,運(yùn)算,分析,最終形成了輸出的結(jié)果,稱作輸出向量。對于一些全連接的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——網(wǎng)絡(luò)中的神經(jīng)元與鄰層的各個神經(jīng)元都相互連接,由于輸入層的輸入是 word2vec,假設(shè)句子由 m 個詞
卷積神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]關(guān)系抽取中基于本體的遠(yuǎn)監(jiān)督樣本擴(kuò)充[J]. 歐陽丹彤,瞿劍峰,葉育鑫. 軟件學(xué)報(bào). 2014(09)
碩士論文
[1]基于截?cái)嗪朔稊?shù)矩陣填充的遠(yuǎn)監(jiān)督關(guān)系抽取[D]. 王燁.吉林大學(xué) 2018
[2]基于協(xié)同過濾模型與隱語義模型的推薦系統(tǒng)研究與實(shí)現(xiàn)[D]. 魯權(quán).湖南大學(xué) 2013
本文編號:3019098
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:53 頁
【學(xué)位級別】:碩士
【部分圖文】:
神經(jīng)元的基本結(jié)構(gòu)
圖 2.3 經(jīng)典神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[26]如圖2.3便是一個經(jīng)典的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其中最左邊的起始的輸入信息叫做輸入層,輸入層的眾多神經(jīng)元接受大量輸入信息,也稱作輸入向量;中間的稱作隱藏層,是輸入層和輸出層之間的大量的神經(jīng)元和連接共同組成的各個層面,如果有多個隱藏層,則表明有多個激活函數(shù)。最右邊的就是輸出層,可能會有很多輸出神經(jīng)元,信息在神經(jīng)元中經(jīng)過傳輸,運(yùn)算,分析,最終形成了輸出的結(jié)果,稱作輸出向量。對于一些全連接的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——網(wǎng)絡(luò)中的神經(jīng)元與鄰層的各個神經(jīng)元都相互連接,由于輸入層的輸入是 word2vec,假設(shè)句子由 m 個詞
卷積神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]關(guān)系抽取中基于本體的遠(yuǎn)監(jiān)督樣本擴(kuò)充[J]. 歐陽丹彤,瞿劍峰,葉育鑫. 軟件學(xué)報(bào). 2014(09)
碩士論文
[1]基于截?cái)嗪朔稊?shù)矩陣填充的遠(yuǎn)監(jiān)督關(guān)系抽取[D]. 王燁.吉林大學(xué) 2018
[2]基于協(xié)同過濾模型與隱語義模型的推薦系統(tǒng)研究與實(shí)現(xiàn)[D]. 魯權(quán).湖南大學(xué) 2013
本文編號:3019098
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3019098.html
最近更新
教材專著