基于記憶網(wǎng)絡(luò)的命名實(shí)體識(shí)別研究
發(fā)布時(shí)間:2021-01-30 16:22
神經(jīng)網(wǎng)絡(luò)憑借優(yōu)異的性能在很多領(lǐng)域上得到了研究和應(yīng)用,但現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型存在理論缺陷,無(wú)法有效把握知識(shí)之間的結(jié)構(gòu)化聯(lián)系,也不具有產(chǎn)生結(jié)構(gòu)化行為的能力,且可解釋性差。本課題對(duì)基于記憶網(wǎng)絡(luò)的命名實(shí)體識(shí)別進(jìn)行研究并推出命名實(shí)體神經(jīng)推理機(jī)框架,在命名實(shí)體識(shí)別領(lǐng)域?qū)θ绾卧谏疃葘W(xué)習(xí)結(jié)構(gòu)中支持關(guān)系推理和組合泛化,從而進(jìn)行更復(fù)雜、可解釋和更靈活的自動(dòng)化推理模式做出嘗試。本課題研究在序列任務(wù)上引入記憶網(wǎng)絡(luò)模塊對(duì)實(shí)體進(jìn)行存儲(chǔ)和整理,并對(duì)實(shí)體關(guān)系進(jìn)行人工設(shè)計(jì)的建模,在此基礎(chǔ)上利用推理模型實(shí)現(xiàn)不同局部決策間的聯(lián)系和借鑒,采用多輪解碼構(gòu)建深層結(jié)構(gòu),將實(shí)體上的推理信息逐層遞進(jìn)以學(xué)習(xí)到因果關(guān)系,從而在神經(jīng)網(wǎng)絡(luò)的框架內(nèi)完成對(duì)人類閱讀理解過(guò)程的模擬,充分理解實(shí)體并在文本序列的全局上保持實(shí)體的一致性。本課題研究的重點(diǎn)主要包括以下三個(gè)方面:1)在序列模型中引入記憶網(wǎng)絡(luò)模塊,并通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)運(yùn)算過(guò)程的分析得到實(shí)體的表示,對(duì)實(shí)體信息進(jìn)行有效存儲(chǔ);2)結(jié)合先驗(yàn)知識(shí),以可人工設(shè)計(jì)的形式將抽取出的實(shí)體進(jìn)行關(guān)系建模,促使神經(jīng)網(wǎng)絡(luò)通過(guò)簡(jiǎn)單的實(shí)體關(guān)系學(xué)習(xí)到整體復(fù)雜的因果關(guān)系;3)通過(guò)引入符號(hào)化操作和推理模型,以端到端的形式,在神經(jīng)網(wǎng)絡(luò)的框...
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-4用于序列標(biāo)注的CNN模型結(jié)構(gòu)圖??CNN用于命名實(shí)體識(shí)別等序列標(biāo)注任務(wù)時(shí)通過(guò)增加層數(shù)來(lái)增加對(duì)上文的掌??
寬度為詞向量的大小進(jìn)行一維滑動(dòng),保持不破壞詞語(yǔ)內(nèi)部的信息,即可利用CNN??模型對(duì)語(yǔ)序信息進(jìn)行掌握。??圖2-4用于序列標(biāo)注的CNN模型結(jié)構(gòu)圖??CNN用于命名實(shí)體識(shí)別等序列標(biāo)注任務(wù)時(shí)通過(guò)增加層數(shù)來(lái)增加對(duì)上文的掌??握能力,而由于卷積核的大小固定,通常需要較多層數(shù)才可以有效的掌握上下文,??參數(shù)的增加同時(shí)又會(huì)導(dǎo)致過(guò)擬合現(xiàn)象的發(fā)生。如圖2-4所示,一個(gè)卷積核大小為??3,層數(shù)為3層的CNN結(jié)構(gòu)僅掌握7個(gè)字的信息。在此基礎(chǔ)上所發(fā)展出的Dilated-??CNN通過(guò)逐層對(duì)卷積核進(jìn)行“膨脹”而獲得更強(qiáng)的上下文信息掌握能力。如圖??2-5所示,同樣為卷積核大小為3,層數(shù)為3層的結(jié)構(gòu),可以掌握15個(gè)字的信息。??O?O?O?G?C?OOJ^QO?O?O?O??〇?〇?o^oc?;?〇??@000000000000?0?0??圖2-5用于序列標(biāo)注的Dilated-CNN模型結(jié)構(gòu)圖[8】??然而對(duì)序列標(biāo)注任務(wù)來(lái)講,整個(gè)句子的每個(gè)字都有可能都會(huì)對(duì)當(dāng)前需要標(biāo)注??的字做出影響,CNN結(jié)構(gòu)仍然具有天然的劣勢(shì)而很少用于NER。但同時(shí)CNN也??具有運(yùn)算速度快的優(yōu)勢(shì),所以在不需要長(zhǎng)跨度信息依賴的場(chǎng)景常常需要CNN進(jìn)??行編碼
?輸出層??圖2-6循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖??如圖2-6所示,RNN的運(yùn)算過(guò)程非常簡(jiǎn)單,在t時(shí)刻,對(duì)于輸入xt,隱藏層??的隱含狀態(tài)&為:??ht?=?(p{Vxt?+?Wht^?+?b)?(2-6)??其中f/,州為權(quán)值參數(shù),6為偏置,0為激活函數(shù),該時(shí)刻的輸出為:??ot?=?Vht?+?c?(2?—?7)??其中F為權(quán)值參數(shù),c為偏置,最終模型的預(yù)測(cè)輸出&為:??yt?=?〇"(〇t)?(2-8)??其中C7為激活函數(shù)。可以看出RNN模型通過(guò)對(duì)隱含層的循環(huán)將整個(gè)序列信??息進(jìn)行計(jì)算,但在逐步的循環(huán)運(yùn)算中,梯度也隨著時(shí)間序列相乘,在訓(xùn)練時(shí)會(huì)導(dǎo)??致梯度消失(GradientVanish)的問(wèn)題,所以在實(shí)際任務(wù)中,更多地采用RNN的??改進(jìn)變種模型,LSTM模型便是其中最廣泛應(yīng)用的一種。??梯度消失問(wèn)題會(huì)讓梯度無(wú)法有效的傳導(dǎo)到距離較遠(yuǎn)的位置,從而導(dǎo)致模型對(duì)??長(zhǎng)距離的信息無(wú)法很好的掌握,LSTM引入門控機(jī)制,利用不同的門來(lái)控制信息??的傳導(dǎo)和接收
本文編號(hào):3009209
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-4用于序列標(biāo)注的CNN模型結(jié)構(gòu)圖??CNN用于命名實(shí)體識(shí)別等序列標(biāo)注任務(wù)時(shí)通過(guò)增加層數(shù)來(lái)增加對(duì)上文的掌??
寬度為詞向量的大小進(jìn)行一維滑動(dòng),保持不破壞詞語(yǔ)內(nèi)部的信息,即可利用CNN??模型對(duì)語(yǔ)序信息進(jìn)行掌握。??圖2-4用于序列標(biāo)注的CNN模型結(jié)構(gòu)圖??CNN用于命名實(shí)體識(shí)別等序列標(biāo)注任務(wù)時(shí)通過(guò)增加層數(shù)來(lái)增加對(duì)上文的掌??握能力,而由于卷積核的大小固定,通常需要較多層數(shù)才可以有效的掌握上下文,??參數(shù)的增加同時(shí)又會(huì)導(dǎo)致過(guò)擬合現(xiàn)象的發(fā)生。如圖2-4所示,一個(gè)卷積核大小為??3,層數(shù)為3層的CNN結(jié)構(gòu)僅掌握7個(gè)字的信息。在此基礎(chǔ)上所發(fā)展出的Dilated-??CNN通過(guò)逐層對(duì)卷積核進(jìn)行“膨脹”而獲得更強(qiáng)的上下文信息掌握能力。如圖??2-5所示,同樣為卷積核大小為3,層數(shù)為3層的結(jié)構(gòu),可以掌握15個(gè)字的信息。??O?O?O?G?C?OOJ^QO?O?O?O??〇?〇?o^oc?;?〇??@000000000000?0?0??圖2-5用于序列標(biāo)注的Dilated-CNN模型結(jié)構(gòu)圖[8】??然而對(duì)序列標(biāo)注任務(wù)來(lái)講,整個(gè)句子的每個(gè)字都有可能都會(huì)對(duì)當(dāng)前需要標(biāo)注??的字做出影響,CNN結(jié)構(gòu)仍然具有天然的劣勢(shì)而很少用于NER。但同時(shí)CNN也??具有運(yùn)算速度快的優(yōu)勢(shì),所以在不需要長(zhǎng)跨度信息依賴的場(chǎng)景常常需要CNN進(jìn)??行編碼
?輸出層??圖2-6循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖??如圖2-6所示,RNN的運(yùn)算過(guò)程非常簡(jiǎn)單,在t時(shí)刻,對(duì)于輸入xt,隱藏層??的隱含狀態(tài)&為:??ht?=?(p{Vxt?+?Wht^?+?b)?(2-6)??其中f/,州為權(quán)值參數(shù),6為偏置,0為激活函數(shù),該時(shí)刻的輸出為:??ot?=?Vht?+?c?(2?—?7)??其中F為權(quán)值參數(shù),c為偏置,最終模型的預(yù)測(cè)輸出&為:??yt?=?〇"(〇t)?(2-8)??其中C7為激活函數(shù)。可以看出RNN模型通過(guò)對(duì)隱含層的循環(huán)將整個(gè)序列信??息進(jìn)行計(jì)算,但在逐步的循環(huán)運(yùn)算中,梯度也隨著時(shí)間序列相乘,在訓(xùn)練時(shí)會(huì)導(dǎo)??致梯度消失(GradientVanish)的問(wèn)題,所以在實(shí)際任務(wù)中,更多地采用RNN的??改進(jìn)變種模型,LSTM模型便是其中最廣泛應(yīng)用的一種。??梯度消失問(wèn)題會(huì)讓梯度無(wú)法有效的傳導(dǎo)到距離較遠(yuǎn)的位置,從而導(dǎo)致模型對(duì)??長(zhǎng)距離的信息無(wú)法很好的掌握,LSTM引入門控機(jī)制,利用不同的門來(lái)控制信息??的傳導(dǎo)和接收
本文編號(hào):3009209
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3009209.html
最近更新
教材專著