當(dāng)前位置：主頁 > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

中文微觀篇章主次和關(guān)系識(shí)別方法研究

發(fā)布時(shí)間：2021-01-21 18:05

　　近年來,隨著自然語言處理的研究重點(diǎn)逐漸從詞語和句子轉(zhuǎn)向篇章,側(cè)重于理解文本整體語義的篇章分析任務(wù)正得到越來越多的關(guān)注。篇章主次識(shí)別和篇章關(guān)系識(shí)別是篇章分析中兩個(gè)重要的語義理解任務(wù),分別通過識(shí)別出篇章單元之間的語義邏輯關(guān)系和主次核性關(guān)系來幫助理解文章的語義脈絡(luò)。目前,絕大多數(shù)的篇章分析研究面向英文,中文篇章分析研究還處于初級階段。因此,本文主要針對中文篇章主次和篇章關(guān)系的識(shí)別方法展開深入研究,主要研究內(nèi)容包括以下三個(gè)方面:（1）基于文本匹配方法的篇章主次識(shí)別方法針對目前大部分工作沒有考慮篇章主次語言特性的問題,本文提出了一個(gè)文本匹配網(wǎng)絡(luò)用于識(shí)別中文篇章主次。首先,通過在編碼器中結(jié)合雙向長短時(shí)記憶網(wǎng)絡(luò)（Bi-LSTM）和卷積神經(jīng)網(wǎng)絡(luò)（CNN）來同時(shí)捕獲全局依賴信息和局部n-gram信息;然后,通過引入三種常見的文本匹配方法,即余弦相似度、雙線性模型和單層神經(jīng)網(wǎng)絡(luò)來計(jì)算單元之間的相似度和交互信息;最后,通過在篇章單元和段落之間進(jìn)行語義匹配來提供額外的高層語義線索。實(shí)驗(yàn)結(jié)果顯示本文提出模型的性能優(yōu)于多個(gè)基準(zhǔn)模型。（2）基于句子級表示的隱式篇章關(guān)系識(shí)別方法目前,神經(jīng)網(wǎng)絡(luò)方法大部分僅僅模擬了人類的...

【文章來源】：蘇州大學(xué)江蘇省

【文章頁數(shù)】：75 頁

【學(xué)位級別】：碩士

【部分圖文】：

圖２－２例２－４對應(yīng)的連接依存樹??

主次圖,篇章,文本,語義

）６ｕ＼ｍｅｍ＼－?ｚ：：／＾｛ｂ?＾＾＾＾５??１〇０（）Ｉ＃Ａ＃Ｉ?ＢＰ?Ｕ?Ｅ?ｓ?ａ??１?—－ｎ?Ｊ?／Ａ＼?ｒ＇￣＂ｃＴ?＾�。�?門?－ｙ??ｌｏＶｕｌｗＴｇｌ?帝Ｗ（目＝，??Ｐａｒａ?Ｉ?〇?Ｏ?Ｏ?Ｉ?＃?ｆ?ｇ］?－?Ｚ：：／Ｂ?￣、日丨〇〇〇Ｑｇｄ?｜?；丨一二?白??Ｋ＾ｎｎｉｍｍＷ］?Ｌ－－?」」＿?匕??｜?Ｉ?Ｉ?Ｉ??Ｔｅｘｔ?Ｅｎｃｏｄｉｎｇ?Ｔｅｘｔ?Ｍａｔｃｈｉｎｇ?Ｎｕｃｌｅａｒｉｔｙ?Ｃｌａｓｓｉｆｉｃａｔｉｏｎ??圖３－１文本匹配網(wǎng)絡(luò)的整體框架??本章提出的ＴＭＮ模型基于兩個(gè)假設(shè)：１）篇章主次和篇章單元之間的語義相似度??或者語義交互密切相關(guān)。通常情況下，具有相似語義的篇章單元之間存在多核關(guān)系，??而存在強(qiáng)語義交互的篇章單元之間存在單核關(guān)系；２）兩個(gè)篇章單元之間的主次與它??們所在的局部篇章（段落）的主題存在聯(lián)系。例如，在一個(gè)單核關(guān)系中，核心單元通??常在語義上與段落主題更加接近。因此ＴＭＮ模型不僅在篇章單元之間進(jìn)行語義匹配，??在篇章單元和單元所在段落之間也使用余弦、雙線性和單層神經(jīng)網(wǎng)絡(luò)這三種文本匹配??方法來捕獲交互特征。??３．３．１文本編碼模塊??受問答任務(wù)中卷積池（Ｃｏｎｖｏｌｕｔｉｏｎａｌ－ｐｏｏｌｉｎｇ）?ＬＳＴＭ模型［４°１的啟發(fā)，ＴＭＮ中的??文本編碼模塊同時(shí)結(jié)合了?Ｂｉ－ＬＳＴＭ和ＣＮＮ來編碼篇章單元和段落Ｐａｒａ。??文本單元或者段落Ｐａｒａ對應(yīng)的詞語序列是文本編碼模塊??的輸入，其中ｒ是篇章單元或者段落中詞語的數(shù)量。序列中的每一個(gè)詞語￣都通??過合并其對應(yīng)的詞向量和詞性標(biāo)簽向量ｐ；來表示，如式（３－５）所示：??＝?［ｅｉ，

模型圖,詞語,注意力,網(wǎng)絡(luò)模型

???—?——?—－—?一????、??，（ｉｍＨｌｆｎｎｎｎｌ?＇??｜?ｃ］｛）?ｃ２〇?；??ｆ?ｒ??Ｉ?Ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎ?Ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎ?Ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎ?｜??■??ｉ??ｉ???＿Ｚ＿?——Ｉ?ｒ—ｉ?ｒ＾ｉ?ｒ＾－ｉ?——Ｉ?ｒ——ｒ－＾?Ｉ??１?Ａｒｇｘ?ｘ＼?ｘ＼?ｘ；?ｘ＼?ｘ＼?ｘｆ?ｘ２ｎ?Ａｒｇ２?Ｊ??＼＿ＵＵＵＵ＿ＵＵ＿ＵＵ?ｙ??圖４－１三層注意力網(wǎng)絡(luò)模型的整體結(jié)構(gòu)??兩個(gè)論元ｄｒｇｌ和對應(yīng)的詞語序列是模型的輸入。ＴＬＡＮ首先通過自注意力??層對輸入詞語序列進(jìn)行初步編碼，使得輸出序列每一個(gè)位置的表示都包含論元自身的??上下文信息。然后，將初步編碼后的表示作為交互注意力層的輸入，通過度量兩個(gè)論??元詞語之間的語義聯(lián)系來重新編碼論元，使得編碼后論元每－個(gè)位置的輸出不僅包含??論元自身所有詞語的語義信息，還蘊(yùn)含了與另一個(gè)論元中對應(yīng)位置詞語的語義聯(lián)系，??并且進(jìn)一步通過平均池化操作獲得論元的中間表示和／＾。接著通過非線性變換??在中間表示的基礎(chǔ)上獲得論元對的外部記憶Ａｆ，并且和論元的初步編碼結(jié)果一起輸??入到一個(gè)注意力層中以生成論元的最終精煉表示丨，Ｋｆ。最后將精煉表示連接后先??進(jìn)行非線性變換，然后送入到ｓｏｆｔｍａｘ層完成篇章關(guān)系的識(shí)別。??４．３．１自注意力層??目前的工作大多采用Ｂｉ－ＬＳＴＭ或者ＩＤ?ＣＮＮ來對文本序列進(jìn)行編碼，但是Ｂｉ－??ＬＳＴＭ由于其循環(huán)結(jié)構(gòu)訓(xùn)練費(fèi)時(shí)，而ＣＮＮ由于卷積核視野有限，在捕獲全局信息方??面存在不足。因此最近的－些工作＿［４８］嘗試

【參考文獻(xiàn)】：
期刊論文
[1]基于轉(zhuǎn)移的中文篇章結(jié)構(gòu)解析研究[J]. 孫成,孔芳. 中文信息學(xué)報(bào). 2018(12)
[2]漢語隱式篇章關(guān)系識(shí)別[J]. 孫靜,李艷翠,周國棟,馮文賀. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2014(01)

博士論文
[1]漢語篇章結(jié)構(gòu)表示體系及資源構(gòu)建研究[D]. 李艷翠.蘇州大學(xué) 2015

本文編號：2991648

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/2991648.html

上一篇：基于視覺的農(nóng)作物病蟲害自主識(shí)別系統(tǒng)研究
下一篇：海量數(shù)據(jù)近似top-k查詢算法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文微觀篇章主次和關(guān)系識(shí)別方法研究