端到端實體指代消解及相關(guān)技術(shù)研究
發(fā)布時間:2021-06-25 15:10
指代消解是自然語言處理領(lǐng)域的一項關(guān)鍵任務(wù),準(zhǔn)確無歧義的指代消解能促進對篇章語義的整體理解,對于信息抽取、自動摘要、問答系統(tǒng)以及機器翻譯等自然語言應(yīng)用有著極為重要的基礎(chǔ)支撐作用。近年來,隨著深度學(xué)習(xí)的興起和發(fā)展,越來越多的學(xué)者和研究人員開始使用深度學(xué)習(xí)進行指代消解。深度學(xué)習(xí)模型由于其強大的擬合能力,相對于傳統(tǒng)機器學(xué)習(xí)模型有著巨大優(yōu)勢。但現(xiàn)階段用于指代消解的深度學(xué)習(xí)模型大多只關(guān)注文本的線性表征,而大量的研究表明結(jié)構(gòu)信息對指代消解任務(wù)來說至關(guān)重要。因此,本文從結(jié)構(gòu)信息的角度對中英文實體指代消解展開了以下研究:(1)先進神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建。本文對目前在實體指代消解任務(wù)上表現(xiàn)最好的神經(jīng)網(wǎng)絡(luò)進行了重新構(gòu)建,對其中的耗時操作進行了改進。在使用相同設(shè)置的情況下,改進后的模型相比于原模型在訓(xùn)練時間與資源利用率上更具優(yōu)勢。在該模型的基礎(chǔ)上,提出了以下兩種結(jié)構(gòu)嵌入方式。(2)提出基于壓縮成分句法樹的結(jié)構(gòu)嵌入方式。針對原始成分句法樹結(jié)點眾多、結(jié)構(gòu)復(fù)雜,會存在大量與實體指代消解任務(wù)無關(guān)的冗余信息的問題,提出了一種針對成分句法樹的壓縮算法。該方法大大減少了原始句法樹中冗余結(jié)點的數(shù)量,精簡了樹的結(jié)構(gòu)。以深度與左右兄...
【文章來源】:蘇州大學(xué)江蘇省
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1中文指代示例??
端到端實體指代消解及相關(guān)技術(shù)研宄?第二章相關(guān)理論及方法??表述對表示??〇〇〇〇〇〇〇〇p〇〇〇〇〇〇〇??—隱藏層卜?|?ReLU〇?y?;+ft3)??〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇??.隱藏層A,?|?ReLU^/t.+ft,)??〇〇〇〇〇〇〇0>〇〇〇〇〇〇〇〇??-輸入層心?I?ReLUt^i/iu+ft。??[im?…mi?t〇a.?!〇a?[^o?in^?1??候選先行詞嵌入候選先行詞表述嵌入表述特征表述對特征??特征?及文檔特征??圖2-3表述對編碼器??實體對表示de;:)?〇〇〇〇?????^?I??“池化??lOOOO^^RI??表述對表示/Me:;)?[oooojcc^述對c,??丨〇〇〇〇K ̄^^??圖2-4實體對編碼器??同樣也需要汁算-個及述不存在先行詞的吋能性:??snaO^)?=?WNArm(NA,m)?+?bNA?(2.35)??基于&與^作者定義了兩種操作:“合并”(合并兩個部分實體)與“無操作”。推??理時,取得分最高的操作執(zhí)行。??4.?Clark?and?Manning?(2016b)??上文提到的表述排序模型通常使用啟發(fā)式的損失函數(shù)進行訓(xùn)練。假設(shè)對f-及??述m,,C(m,)表示m,?的候選先行詞集合,g卩m,之前的表述與NA構(gòu)成的集合;7 ̄(m,)表??示m,?正確的先行詞集合,當(dāng)m,■不存在任何先行詞時,T(m,.)?=?|M4}。類似?公式??is??
法樹的結(jié)構(gòu)嵌入?端到端實體指代消解及相關(guān)技術(shù)研宄??第四章基于壓縮成分句法樹的結(jié)構(gòu)嵌入??本文首先給出了結(jié)構(gòu)嵌入用于指代消解任務(wù)的研宄動機,然后介紹了成分句法??樹壓縮算法的定義及流程。最終將基于壓縮成分句法樹的結(jié)構(gòu)嵌入加入到模型中,??并通過實驗驗證算法的有效性。??4.1研究動機??大量的研宄表明結(jié)構(gòu)信息對于指代消解任務(wù)來說至關(guān)重要m561。同時語料中存??在的大量的表述間嵌套情況也能側(cè)面反映結(jié)構(gòu)信息的普遍性與研究意義。因此,如??何加入合適的結(jié)構(gòu)信息便成為了本章的目標(biāo)。圖4-1展示了CoNLL?2012語料集中出??現(xiàn)的一段表述間嵌套的情況。??|香港|,一肓以來被M以好萊塢的稱號。|香港|電影在過去百年的電影史上,??孕育出了不少國際知名的導(dǎo)演,演員和編劇,他們拉近了|香港丨和世界的距離,??|香港|電影更成為讓世界了解的一扇窗戶,令|香港j的大都會形象在國京間更為??彰顯。因此,二零零四年旅游發(fā)展局在這個本來只為觀賞香港島和維多利亞灣貴??色而建的海濱長廊卜.,又建造了這條印記著百年電影史的|星光大道|。游客??們可以在I這里I?了解I香港丨的電影史,也可以在I這里I近距離地接觸自己心目中的明??星。??圖4-1語料中出現(xiàn)的表述嵌套情況??加入結(jié)構(gòu)信息最直接的方式便是使用成分句法樹。但是原始的成分句法樹的結(jié)??點眾多,結(jié)構(gòu)復(fù)雜,對于指代消解任務(wù)來說可能過于冗余,我們或許只需要關(guān)鍵表??述間的結(jié)構(gòu)信息或者層次關(guān)系,亦如圖4-1所示;谶@個假設(shè),我們使用深度作為??結(jié)構(gòu)信息的一種反映,對CoNLL?2012中英文訓(xùn)練集的成分句法樹進行了統(tǒng)計,如表??4-1所示。??從表4-丨可知,葉結(jié)點的平均深度約
【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)的維吾爾語名詞短語指代消解[J]. 李敏,禹龍,田生偉,吐爾根·依布拉音,趙建國. 自動化學(xué)報. 2017(11)
[2]基于深度學(xué)習(xí)的維吾爾語人稱代詞指代消解[J]. 李冬白,田生偉,禹龍,吐爾根·依布拉音,馮冠軍. 中文信息學(xué)報. 2017(04)
[3]基于Deep Learning的代詞指代消解[J]. 奚雪峰,周國棟. 北京大學(xué)學(xué)報(自然科學(xué)版). 2014(01)
[4]基于樹核函數(shù)的中英文代詞消解[J]. 孔芳,周國棟. 軟件學(xué)報. 2012(05)
[5]指代消解綜述[J]. 孔芳,周國棟,朱巧明,錢培德. 計算機工程. 2010(08)
本文編號:3249433
【文章來源】:蘇州大學(xué)江蘇省
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1中文指代示例??
端到端實體指代消解及相關(guān)技術(shù)研宄?第二章相關(guān)理論及方法??表述對表示??〇〇〇〇〇〇〇〇p〇〇〇〇〇〇〇??—隱藏層卜?|?ReLU〇?y?;+ft3)??〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇〇??.隱藏層A,?|?ReLU^/t.+ft,)??〇〇〇〇〇〇〇0>〇〇〇〇〇〇〇〇??-輸入層心?I?ReLUt^i/iu+ft。??[im?…mi?t〇a.?!〇a?[^o?in^?1??候選先行詞嵌入候選先行詞表述嵌入表述特征表述對特征??特征?及文檔特征??圖2-3表述對編碼器??實體對表示de;:)?〇〇〇〇?????^?I??“池化??lOOOO^^RI??表述對表示/Me:;)?[oooojcc^述對c,??丨〇〇〇〇K ̄^^??圖2-4實體對編碼器??同樣也需要汁算-個及述不存在先行詞的吋能性:??snaO^)?=?WNArm(NA,m)?+?bNA?(2.35)??基于&與^作者定義了兩種操作:“合并”(合并兩個部分實體)與“無操作”。推??理時,取得分最高的操作執(zhí)行。??4.?Clark?and?Manning?(2016b)??上文提到的表述排序模型通常使用啟發(fā)式的損失函數(shù)進行訓(xùn)練。假設(shè)對f-及??述m,,C(m,)表示m,?的候選先行詞集合,g卩m,之前的表述與NA構(gòu)成的集合;7 ̄(m,)表??示m,?正確的先行詞集合,當(dāng)m,■不存在任何先行詞時,T(m,.)?=?|M4}。類似?公式??is??
法樹的結(jié)構(gòu)嵌入?端到端實體指代消解及相關(guān)技術(shù)研宄??第四章基于壓縮成分句法樹的結(jié)構(gòu)嵌入??本文首先給出了結(jié)構(gòu)嵌入用于指代消解任務(wù)的研宄動機,然后介紹了成分句法??樹壓縮算法的定義及流程。最終將基于壓縮成分句法樹的結(jié)構(gòu)嵌入加入到模型中,??并通過實驗驗證算法的有效性。??4.1研究動機??大量的研宄表明結(jié)構(gòu)信息對于指代消解任務(wù)來說至關(guān)重要m561。同時語料中存??在的大量的表述間嵌套情況也能側(cè)面反映結(jié)構(gòu)信息的普遍性與研究意義。因此,如??何加入合適的結(jié)構(gòu)信息便成為了本章的目標(biāo)。圖4-1展示了CoNLL?2012語料集中出??現(xiàn)的一段表述間嵌套的情況。??|香港|,一肓以來被M以好萊塢的稱號。|香港|電影在過去百年的電影史上,??孕育出了不少國際知名的導(dǎo)演,演員和編劇,他們拉近了|香港丨和世界的距離,??|香港|電影更成為讓世界了解的一扇窗戶,令|香港j的大都會形象在國京間更為??彰顯。因此,二零零四年旅游發(fā)展局在這個本來只為觀賞香港島和維多利亞灣貴??色而建的海濱長廊卜.,又建造了這條印記著百年電影史的|星光大道|。游客??們可以在I這里I?了解I香港丨的電影史,也可以在I這里I近距離地接觸自己心目中的明??星。??圖4-1語料中出現(xiàn)的表述嵌套情況??加入結(jié)構(gòu)信息最直接的方式便是使用成分句法樹。但是原始的成分句法樹的結(jié)??點眾多,結(jié)構(gòu)復(fù)雜,對于指代消解任務(wù)來說可能過于冗余,我們或許只需要關(guān)鍵表??述間的結(jié)構(gòu)信息或者層次關(guān)系,亦如圖4-1所示;谶@個假設(shè),我們使用深度作為??結(jié)構(gòu)信息的一種反映,對CoNLL?2012中英文訓(xùn)練集的成分句法樹進行了統(tǒng)計,如表??4-1所示。??從表4-丨可知,葉結(jié)點的平均深度約
【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)的維吾爾語名詞短語指代消解[J]. 李敏,禹龍,田生偉,吐爾根·依布拉音,趙建國. 自動化學(xué)報. 2017(11)
[2]基于深度學(xué)習(xí)的維吾爾語人稱代詞指代消解[J]. 李冬白,田生偉,禹龍,吐爾根·依布拉音,馮冠軍. 中文信息學(xué)報. 2017(04)
[3]基于Deep Learning的代詞指代消解[J]. 奚雪峰,周國棟. 北京大學(xué)學(xué)報(自然科學(xué)版). 2014(01)
[4]基于樹核函數(shù)的中英文代詞消解[J]. 孔芳,周國棟. 軟件學(xué)報. 2012(05)
[5]指代消解綜述[J]. 孔芳,周國棟,朱巧明,錢培德. 計算機工程. 2010(08)
本文編號:3249433
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3249433.html
最近更新
教材專著