基于知識擴展與表示學習的隱式篇章關系識別方法研究
發(fā)布時間:2021-10-10 23:51
篇章關系識別旨在研究篇章內部論述單元(簡稱為“論元”)的語義邏輯關系,是自然語言處理領域中的一項重要研究任務。賓州篇章樹庫語料庫是篇章關系識別領域的權威數據集,它根據論元間是否有連接詞,將篇章關系任務區(qū)分為顯式篇章關系和隱式篇章關系識別任務。目前,顯式篇章關系識別性能已達90%以上,而隱式篇章關系由于缺乏連接詞等線索,性能仍然較低。本文針對隱式篇章關系,提出一種基于知識擴展與表示學習的隱式篇章關系識別方法。主要研究內容包括以下三個方面:(1)基于主動學習的隱式篇章語料擴充方法現有篇章關系識別存在語言學資源規(guī)模有限、現有神經網絡模型依賴大量的訓練樣本等問題,導致模型對樣本較少的關系類別的分類能力較差。因此通過增加訓練語料來提升分類性能是一個有效的方法。針對篇章數據擴展問題,前人研究通過連接詞模板匹配大量外部語料,將匹配到的顯式數據去掉連接詞,形成偽的隱式篇章樣本。由于去掉連接詞的樣本帶來一定的語義改變,并且外部數據存在噪音等問題,將這類偽數據直接加入訓練集,反而導致性能有所下降。針對以上問題,本文使用主動學習方法篩選訓練數據,選擇信息量高且低噪音的樣本加入訓練集,從而提升模型的分類能力。...
【文章來源】:蘇州大學江蘇省 211工程院校
【文章頁數】:80 頁
【學位級別】:碩士
【部分圖文】:
圖3-1高信息樣本樣例??
第三章基于主動學習的隱式篇章語料擴充方法?基于知識擴展與表示學習的隱式篇章關系識別方法研宄???基于分類結果,根據查詢函數2,篩選出其中的高信息量樣本送給專家^標注;???將標注好的樣本加入現有訓練樣本中,繼續(xù)訓練分類模型。??主動學習是一個迭代過程,直到滿足預先設定的條件,如達到預設定好的迭代??次數或者當性能變化很小時,則停止該過程。具體的流程見圖3-2。??Model?Model?^??Training?—?Classification?Training?—?Classification??I?\?I?\??c:—^??Labeled?Unlabeled?Labeled?imp?Exp?Unlabeled??、、Data?一J?^—?Data?J??Data??L—?Data??\?i.?\?上?i??Expansion???Adoption?Expansion?w?Adoption??k?ifiBi?^?^?^???Experts?^?Exp2lmp??General?AL?workflow?Cooperating?AL?with?Exp2lmp??圖3-2主動學習的流程圖??3.2.4融合主動學習的顯式-隱式語料轉換方法??本小節(jié)主要介紹結合AL與顯式-隱式數據轉換(Exp2Imp)方法。具體的工作流??程見圖3-2。其中,標注數據集是指現有的隱式篇章關系數據集,未標注數據集則是??移除連接詞的顯式篇章關系數據集。在主動學習的每次迭代中,基于現有的標注數??據訓練分類器,使用這個分類器對顯式篇章數據進行預測。在此基礎上,我們需要??對每條未標注數進行信息量
?Macro-/7!??10(2015)?57.10?40.50??MNN?(2016)?I?57.27?44.98??MTN(2016)?-?42.50??DSWE?(2017)?I?58.85?44.84??MANN(2017)?I?57.39?47.80?? ̄?Ours?|?60.63? ̄?44.48??下,本章方法僅使用顯式篇章數據,分類模型也是基于基礎的CNN模型。因此對于??其他方法,本方法的性能仍具有可比性。??(2)閾值對忡能的影響??圖3-3和圖3-4分別展示了閾值對Accuracy和Macro-F丨的影響。閾值6>若設定為0.8,??則會選擇過多的樣本加入訓練集,這些樣本中會包含更多模型己能判定的樣本,帶??來一定的過擬合問題,同時會引入更多的噪聲數據,最終導致性能較低。而閾值選??擇過高時,選擇的樣本數減少,模型無法學習到分類邊界樣本的更多特征,從而影??響模型對這類樣本的泛化能力。??Accuracy?Macro-Fi??61?.?45??^?56?5^69?I?41???^?■??^?-?40?79?40?98??54?39??53?38??0.8?0.8?5?0.9?0.95?0.99?0.X?0.85?0.9?0.95?0.99??閾值??閾值0??圖3-3閾值對Accuracy的影響?圖3-4閾值對Macn??-?F|的影響??(2)信息量樣本分析??根據以上實驗結果分析可知,基于主動學習的隱式篇章語料擴充方法能夠提升??模型分類性能。本小節(jié)結合實例,對高信息樣本及非高信息樣本進行分析,從樣本??的角度分析為何
【參考文獻】:
期刊論文
[1]漢語篇章理解研究綜述[J]. 孔芳,王紅玲,周國棟. 軟件學報. 2019(07)
[2]基于宏觀語義表示的宏觀篇章關系識別方法[J]. 周懿,褚曉敏,朱巧明,蔣峰,李培峰. 中文信息學報. 2019(03)
[3]基于轉移的中文篇章結構解析研究[J]. 孫成,孔芳. 中文信息學報. 2018(12)
本文編號:3429387
【文章來源】:蘇州大學江蘇省 211工程院校
【文章頁數】:80 頁
【學位級別】:碩士
【部分圖文】:
圖3-1高信息樣本樣例??
第三章基于主動學習的隱式篇章語料擴充方法?基于知識擴展與表示學習的隱式篇章關系識別方法研宄???基于分類結果,根據查詢函數2,篩選出其中的高信息量樣本送給專家^標注;???將標注好的樣本加入現有訓練樣本中,繼續(xù)訓練分類模型。??主動學習是一個迭代過程,直到滿足預先設定的條件,如達到預設定好的迭代??次數或者當性能變化很小時,則停止該過程。具體的流程見圖3-2。??Model?Model?^??Training?—?Classification?Training?—?Classification??I?\?I?\??c:—^??Labeled?Unlabeled?Labeled?imp?Exp?Unlabeled??、、Data?一J?^—?Data?J??Data??L—?Data??\?i.?\?上?i??Expansion???Adoption?Expansion?w?Adoption??k?ifiBi?^?^?^???Experts?^?Exp2lmp??General?AL?workflow?Cooperating?AL?with?Exp2lmp??圖3-2主動學習的流程圖??3.2.4融合主動學習的顯式-隱式語料轉換方法??本小節(jié)主要介紹結合AL與顯式-隱式數據轉換(Exp2Imp)方法。具體的工作流??程見圖3-2。其中,標注數據集是指現有的隱式篇章關系數據集,未標注數據集則是??移除連接詞的顯式篇章關系數據集。在主動學習的每次迭代中,基于現有的標注數??據訓練分類器,使用這個分類器對顯式篇章數據進行預測。在此基礎上,我們需要??對每條未標注數進行信息量
?Macro-/7!??10(2015)?57.10?40.50??MNN?(2016)?I?57.27?44.98??MTN(2016)?-?42.50??DSWE?(2017)?I?58.85?44.84??MANN(2017)?I?57.39?47.80?? ̄?Ours?|?60.63? ̄?44.48??下,本章方法僅使用顯式篇章數據,分類模型也是基于基礎的CNN模型。因此對于??其他方法,本方法的性能仍具有可比性。??(2)閾值對忡能的影響??圖3-3和圖3-4分別展示了閾值對Accuracy和Macro-F丨的影響。閾值6>若設定為0.8,??則會選擇過多的樣本加入訓練集,這些樣本中會包含更多模型己能判定的樣本,帶??來一定的過擬合問題,同時會引入更多的噪聲數據,最終導致性能較低。而閾值選??擇過高時,選擇的樣本數減少,模型無法學習到分類邊界樣本的更多特征,從而影??響模型對這類樣本的泛化能力。??Accuracy?Macro-Fi??61?.?45??^?56?5^69?I?41???^?■??^?-?40?79?40?98??54?39??53?38??0.8?0.8?5?0.9?0.95?0.99?0.X?0.85?0.9?0.95?0.99??閾值??閾值0??圖3-3閾值對Accuracy的影響?圖3-4閾值對Macn??-?F|的影響??(2)信息量樣本分析??根據以上實驗結果分析可知,基于主動學習的隱式篇章語料擴充方法能夠提升??模型分類性能。本小節(jié)結合實例,對高信息樣本及非高信息樣本進行分析,從樣本??的角度分析為何
【參考文獻】:
期刊論文
[1]漢語篇章理解研究綜述[J]. 孔芳,王紅玲,周國棟. 軟件學報. 2019(07)
[2]基于宏觀語義表示的宏觀篇章關系識別方法[J]. 周懿,褚曉敏,朱巧明,蔣峰,李培峰. 中文信息學報. 2019(03)
[3]基于轉移的中文篇章結構解析研究[J]. 孫成,孔芳. 中文信息學報. 2018(12)
本文編號:3429387
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3429387.html
最近更新
教材專著