基于知識(shí)擴(kuò)展與表示學(xué)習(xí)的隱式篇章關(guān)系識(shí)別方法研究
發(fā)布時(shí)間:2021-10-10 23:51
篇章關(guān)系識(shí)別旨在研究篇章內(nèi)部論述單元(簡稱為“論元”)的語義邏輯關(guān)系,是自然語言處理領(lǐng)域中的一項(xiàng)重要研究任務(wù)。賓州篇章樹庫語料庫是篇章關(guān)系識(shí)別領(lǐng)域的權(quán)威數(shù)據(jù)集,它根據(jù)論元間是否有連接詞,將篇章關(guān)系任務(wù)區(qū)分為顯式篇章關(guān)系和隱式篇章關(guān)系識(shí)別任務(wù)。目前,顯式篇章關(guān)系識(shí)別性能已達(dá)90%以上,而隱式篇章關(guān)系由于缺乏連接詞等線索,性能仍然較低。本文針對(duì)隱式篇章關(guān)系,提出一種基于知識(shí)擴(kuò)展與表示學(xué)習(xí)的隱式篇章關(guān)系識(shí)別方法。主要研究內(nèi)容包括以下三個(gè)方面:(1)基于主動(dòng)學(xué)習(xí)的隱式篇章語料擴(kuò)充方法現(xiàn)有篇章關(guān)系識(shí)別存在語言學(xué)資源規(guī)模有限、現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型依賴大量的訓(xùn)練樣本等問題,導(dǎo)致模型對(duì)樣本較少的關(guān)系類別的分類能力較差。因此通過增加訓(xùn)練語料來提升分類性能是一個(gè)有效的方法。針對(duì)篇章數(shù)據(jù)擴(kuò)展問題,前人研究通過連接詞模板匹配大量外部語料,將匹配到的顯式數(shù)據(jù)去掉連接詞,形成偽的隱式篇章樣本。由于去掉連接詞的樣本帶來一定的語義改變,并且外部數(shù)據(jù)存在噪音等問題,將這類偽數(shù)據(jù)直接加入訓(xùn)練集,反而導(dǎo)致性能有所下降。針對(duì)以上問題,本文使用主動(dòng)學(xué)習(xí)方法篩選訓(xùn)練數(shù)據(jù),選擇信息量高且低噪音的樣本加入訓(xùn)練集,從而提升模型的分類能力。...
【文章來源】:蘇州大學(xué)江蘇省 211工程院校
【文章頁數(shù)】:80 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3-1高信息樣本樣例??
第三章基于主動(dòng)學(xué)習(xí)的隱式篇章語料擴(kuò)充方法?基于知識(shí)擴(kuò)展與表示學(xué)習(xí)的隱式篇章關(guān)系識(shí)別方法研宄???基于分類結(jié)果,根據(jù)查詢函數(shù)2,篩選出其中的高信息量樣本送給專家^標(biāo)注;???將標(biāo)注好的樣本加入現(xiàn)有訓(xùn)練樣本中,繼續(xù)訓(xùn)練分類模型。??主動(dòng)學(xué)習(xí)是一個(gè)迭代過程,直到滿足預(yù)先設(shè)定的條件,如達(dá)到預(yù)設(shè)定好的迭代??次數(shù)或者當(dāng)性能變化很小時(shí),則停止該過程。具體的流程見圖3-2。??Model?Model?^??Training?—?Classification?Training?—?Classification??I?\?I?\??c:—^??Labeled?Unlabeled?Labeled?imp?Exp?Unlabeled??、、Data?一J?^—?Data?J??Data??L—?Data??\?i.?\?上?i??Expansion???Adoption?Expansion?w?Adoption??k?ifiBi?^?^?^???Experts?^?Exp2lmp??General?AL?workflow?Cooperating?AL?with?Exp2lmp??圖3-2主動(dòng)學(xué)習(xí)的流程圖??3.2.4融合主動(dòng)學(xué)習(xí)的顯式-隱式語料轉(zhuǎn)換方法??本小節(jié)主要介紹結(jié)合AL與顯式-隱式數(shù)據(jù)轉(zhuǎn)換(Exp2Imp)方法。具體的工作流??程見圖3-2。其中,標(biāo)注數(shù)據(jù)集是指現(xiàn)有的隱式篇章關(guān)系數(shù)據(jù)集,未標(biāo)注數(shù)據(jù)集則是??移除連接詞的顯式篇章關(guān)系數(shù)據(jù)集。在主動(dòng)學(xué)習(xí)的每次迭代中,基于現(xiàn)有的標(biāo)注數(shù)??據(jù)訓(xùn)練分類器,使用這個(gè)分類器對(duì)顯式篇章數(shù)據(jù)進(jìn)行預(yù)測(cè)。在此基礎(chǔ)上,我們需要??對(duì)每條未標(biāo)注數(shù)進(jìn)行信息量
?Macro-/7!??10(2015)?57.10?40.50??MNN?(2016)?I?57.27?44.98??MTN(2016)?-?42.50??DSWE?(2017)?I?58.85?44.84??MANN(2017)?I?57.39?47.80?? ̄?Ours?|?60.63? ̄?44.48??下,本章方法僅使用顯式篇章數(shù)據(jù),分類模型也是基于基礎(chǔ)的CNN模型。因此對(duì)于??其他方法,本方法的性能仍具有可比性。??(2)閾值對(duì)忡能的影響??圖3-3和圖3-4分別展示了閾值對(duì)Accuracy和Macro-F丨的影響。閾值6>若設(shè)定為0.8,??則會(huì)選擇過多的樣本加入訓(xùn)練集,這些樣本中會(huì)包含更多模型己能判定的樣本,帶??來一定的過擬合問題,同時(shí)會(huì)引入更多的噪聲數(shù)據(jù),最終導(dǎo)致性能較低。而閾值選??擇過高時(shí),選擇的樣本數(shù)減少,模型無法學(xué)習(xí)到分類邊界樣本的更多特征,從而影??響模型對(duì)這類樣本的泛化能力。??Accuracy?Macro-Fi??61?.?45??^?56?5^69?I?41???^?■??^?-?40?79?40?98??54?39??53?38??0.8?0.8?5?0.9?0.95?0.99?0.X?0.85?0.9?0.95?0.99??閾值??閾值0??圖3-3閾值對(duì)Accuracy的影響?圖3-4閾值對(duì)Macn??-?F|的影響??(2)信息量樣本分析??根據(jù)以上實(shí)驗(yàn)結(jié)果分析可知,基于主動(dòng)學(xué)習(xí)的隱式篇章語料擴(kuò)充方法能夠提升??模型分類性能。本小節(jié)結(jié)合實(shí)例,對(duì)高信息樣本及非高信息樣本進(jìn)行分析,從樣本??的角度分析為何
【參考文獻(xiàn)】:
期刊論文
[1]漢語篇章理解研究綜述[J]. 孔芳,王紅玲,周國棟. 軟件學(xué)報(bào). 2019(07)
[2]基于宏觀語義表示的宏觀篇章關(guān)系識(shí)別方法[J]. 周懿,褚曉敏,朱巧明,蔣峰,李培峰. 中文信息學(xué)報(bào). 2019(03)
[3]基于轉(zhuǎn)移的中文篇章結(jié)構(gòu)解析研究[J]. 孫成,孔芳. 中文信息學(xué)報(bào). 2018(12)
本文編號(hào):3429387
【文章來源】:蘇州大學(xué)江蘇省 211工程院校
【文章頁數(shù)】:80 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3-1高信息樣本樣例??
第三章基于主動(dòng)學(xué)習(xí)的隱式篇章語料擴(kuò)充方法?基于知識(shí)擴(kuò)展與表示學(xué)習(xí)的隱式篇章關(guān)系識(shí)別方法研宄???基于分類結(jié)果,根據(jù)查詢函數(shù)2,篩選出其中的高信息量樣本送給專家^標(biāo)注;???將標(biāo)注好的樣本加入現(xiàn)有訓(xùn)練樣本中,繼續(xù)訓(xùn)練分類模型。??主動(dòng)學(xué)習(xí)是一個(gè)迭代過程,直到滿足預(yù)先設(shè)定的條件,如達(dá)到預(yù)設(shè)定好的迭代??次數(shù)或者當(dāng)性能變化很小時(shí),則停止該過程。具體的流程見圖3-2。??Model?Model?^??Training?—?Classification?Training?—?Classification??I?\?I?\??c:—^??Labeled?Unlabeled?Labeled?imp?Exp?Unlabeled??、、Data?一J?^—?Data?J??Data??L—?Data??\?i.?\?上?i??Expansion???Adoption?Expansion?w?Adoption??k?ifiBi?^?^?^???Experts?^?Exp2lmp??General?AL?workflow?Cooperating?AL?with?Exp2lmp??圖3-2主動(dòng)學(xué)習(xí)的流程圖??3.2.4融合主動(dòng)學(xué)習(xí)的顯式-隱式語料轉(zhuǎn)換方法??本小節(jié)主要介紹結(jié)合AL與顯式-隱式數(shù)據(jù)轉(zhuǎn)換(Exp2Imp)方法。具體的工作流??程見圖3-2。其中,標(biāo)注數(shù)據(jù)集是指現(xiàn)有的隱式篇章關(guān)系數(shù)據(jù)集,未標(biāo)注數(shù)據(jù)集則是??移除連接詞的顯式篇章關(guān)系數(shù)據(jù)集。在主動(dòng)學(xué)習(xí)的每次迭代中,基于現(xiàn)有的標(biāo)注數(shù)??據(jù)訓(xùn)練分類器,使用這個(gè)分類器對(duì)顯式篇章數(shù)據(jù)進(jìn)行預(yù)測(cè)。在此基礎(chǔ)上,我們需要??對(duì)每條未標(biāo)注數(shù)進(jìn)行信息量
?Macro-/7!??10(2015)?57.10?40.50??MNN?(2016)?I?57.27?44.98??MTN(2016)?-?42.50??DSWE?(2017)?I?58.85?44.84??MANN(2017)?I?57.39?47.80?? ̄?Ours?|?60.63? ̄?44.48??下,本章方法僅使用顯式篇章數(shù)據(jù),分類模型也是基于基礎(chǔ)的CNN模型。因此對(duì)于??其他方法,本方法的性能仍具有可比性。??(2)閾值對(duì)忡能的影響??圖3-3和圖3-4分別展示了閾值對(duì)Accuracy和Macro-F丨的影響。閾值6>若設(shè)定為0.8,??則會(huì)選擇過多的樣本加入訓(xùn)練集,這些樣本中會(huì)包含更多模型己能判定的樣本,帶??來一定的過擬合問題,同時(shí)會(huì)引入更多的噪聲數(shù)據(jù),最終導(dǎo)致性能較低。而閾值選??擇過高時(shí),選擇的樣本數(shù)減少,模型無法學(xué)習(xí)到分類邊界樣本的更多特征,從而影??響模型對(duì)這類樣本的泛化能力。??Accuracy?Macro-Fi??61?.?45??^?56?5^69?I?41???^?■??^?-?40?79?40?98??54?39??53?38??0.8?0.8?5?0.9?0.95?0.99?0.X?0.85?0.9?0.95?0.99??閾值??閾值0??圖3-3閾值對(duì)Accuracy的影響?圖3-4閾值對(duì)Macn??-?F|的影響??(2)信息量樣本分析??根據(jù)以上實(shí)驗(yàn)結(jié)果分析可知,基于主動(dòng)學(xué)習(xí)的隱式篇章語料擴(kuò)充方法能夠提升??模型分類性能。本小節(jié)結(jié)合實(shí)例,對(duì)高信息樣本及非高信息樣本進(jìn)行分析,從樣本??的角度分析為何
【參考文獻(xiàn)】:
期刊論文
[1]漢語篇章理解研究綜述[J]. 孔芳,王紅玲,周國棟. 軟件學(xué)報(bào). 2019(07)
[2]基于宏觀語義表示的宏觀篇章關(guān)系識(shí)別方法[J]. 周懿,褚曉敏,朱巧明,蔣峰,李培峰. 中文信息學(xué)報(bào). 2019(03)
[3]基于轉(zhuǎn)移的中文篇章結(jié)構(gòu)解析研究[J]. 孫成,孔芳. 中文信息學(xué)報(bào). 2018(12)
本文編號(hào):3429387
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3429387.html
最近更新
教材專著