基于遞歸神經(jīng)網(wǎng)絡(luò)的篇章連貫性建模研究
發(fā)布時間:2021-03-03 06:14
銜接性和連貫性是句子構(gòu)成篇章的兩個最基本特性。一般而言,銜接性是連句成章的詞匯和語法方面的手段,而連貫是采用這些手段所產(chǎn)生的結(jié)果。銜接性指語篇中表層結(jié)構(gòu)上的粘著性,是語篇的有形網(wǎng)絡(luò);而連貫性指語篇中底層語義上的關(guān)聯(lián)性,是語篇的無形網(wǎng)絡(luò)。根據(jù)功能語言學家Halliday所述,一個連貫的語篇由語義上相關(guān)的相似成份連接起來。如果篇章缺乏這種相似成份,必將出現(xiàn)語篇銜接上的缺口,從而導致不連貫現(xiàn)象。篇章連貫性建模旨在對篇章中句子間的連貫性程度建立可計算模型,是自然語言處理的一個基礎(chǔ)研究問題,其可以被廣泛地應(yīng)用在許多與自然語言處理相關(guān)的應(yīng)用中,例如:情感分析、統(tǒng)計機器翻譯、篇章生成和文本摘要等。早期的篇章連貫性模型主要采用特征工程方法,從文本中提取出表示語義的各種特征,例如:篇章中的實體信息,句法路徑信息等,然后進行特征選擇,并訓練分類器;隨著深度學習在語音和圖像領(lǐng)域取得巨大成功后,有些學者開始利用神經(jīng)網(wǎng)絡(luò)方法構(gòu)建英文篇章的連貫性模型。但是,目前基于深度學習的篇章連貫性模型沒有和早期的基于實體信息的模型進行有效融合,以突顯篇章中實體在充當篇章銜接性的重要作用;同時,現(xiàn)有模型主要基于英文篇章,對中文...
【文章來源】:江西師范大學江西省
【文章頁數(shù)】:45 頁
【學位級別】:碩士
【部分圖文】:
標注好語法角色的語篇
圖 2-2 實體網(wǎng)格模型由圖中可以看出,實體網(wǎng)格是以句子作為其研究的基本單位,該模型用論的啟發(fā)用中心實體的語法角色來表示句子。借助了四個語法角色符號”,“X”,“-”來刻畫篇章中的實體主語,賓語,非主語和賓語,不體。并且規(guī)定了實體語法角色的優(yōu)先級:-<X<O<S。當一個句子中存在上相同的實體時,只標識優(yōu)先級最高的實體。實體網(wǎng)格的研究工作是圍繞著中心實體在相鄰行的語法角色轉(zhuǎn)換開展相鄰行間的語法角色轉(zhuǎn)換[O,-]出現(xiàn)了 7 次,相鄰行間語法角色轉(zhuǎn)換總,則該轉(zhuǎn)換在實體網(wǎng)格中的分布概率為 0.09,實體網(wǎng)格用相鄰句子間義角色轉(zhuǎn)換的頻率來隱式的模擬篇章連貫性。然后通過比較不同句子排篇章連貫性得分的大小對句子進行排序,將學習篇章的連貫性轉(zhuǎn)為句子,取得了不錯的成果。2.2.2 基于神經(jīng)網(wǎng)絡(luò)的模型
2014 年李紀為等人提出了分布式句子向量表示的神經(jīng)網(wǎng)絡(luò)模型,該模型用了兩種 RNN 生成句子的分布式表示。如圖 2-3 和 2-4 所示。從圖2-3中可以看出Recurrent Neural Network是按照輸入順序為句子生成分布式向量表示,對于句子 s,循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)利用子節(jié)點對應(yīng)的詞和詞向量來預(yù)測父節(jié)點的詞向量,最后得到節(jié)點的向量表示就是句子的向量表示,計算公式如公式(2-1)所示: 1tt Recurrent t Recurrent w Recurrenth f V h W e b (2-1)其中 WRecurrent和 VRecurrent是 K*K 維矩陣,bRecurrent是 k 維偏置矩陣,f 是激活函數(shù)。用遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network)得到的句子向量表示是依賴于句法樹結(jié)構(gòu)的,每個父節(jié)點的向量都是通過其直接子結(jié)點計算得到的,類似地,用遞歸得到的根節(jié)點向量表示句子,對于給定的父節(jié)點 p 和其兩個子節(jié)點 c1、c2
【參考文獻】:
期刊論文
[1]語篇連貫性研究綜述[J]. 殷習芳,劉明東. 湖南第一師范學報. 2006(03)
[2]篇章連貫性的定量分析[J]. 周光亞. 現(xiàn)代外語. 1986(04)
碩士論文
[1]中文自動分詞系統(tǒng)的研究與實現(xiàn)[D]. 周程遠.華東師范大學 2010
本文編號:3060772
【文章來源】:江西師范大學江西省
【文章頁數(shù)】:45 頁
【學位級別】:碩士
【部分圖文】:
標注好語法角色的語篇
圖 2-2 實體網(wǎng)格模型由圖中可以看出,實體網(wǎng)格是以句子作為其研究的基本單位,該模型用論的啟發(fā)用中心實體的語法角色來表示句子。借助了四個語法角色符號”,“X”,“-”來刻畫篇章中的實體主語,賓語,非主語和賓語,不體。并且規(guī)定了實體語法角色的優(yōu)先級:-<X<O<S。當一個句子中存在上相同的實體時,只標識優(yōu)先級最高的實體。實體網(wǎng)格的研究工作是圍繞著中心實體在相鄰行的語法角色轉(zhuǎn)換開展相鄰行間的語法角色轉(zhuǎn)換[O,-]出現(xiàn)了 7 次,相鄰行間語法角色轉(zhuǎn)換總,則該轉(zhuǎn)換在實體網(wǎng)格中的分布概率為 0.09,實體網(wǎng)格用相鄰句子間義角色轉(zhuǎn)換的頻率來隱式的模擬篇章連貫性。然后通過比較不同句子排篇章連貫性得分的大小對句子進行排序,將學習篇章的連貫性轉(zhuǎn)為句子,取得了不錯的成果。2.2.2 基于神經(jīng)網(wǎng)絡(luò)的模型
2014 年李紀為等人提出了分布式句子向量表示的神經(jīng)網(wǎng)絡(luò)模型,該模型用了兩種 RNN 生成句子的分布式表示。如圖 2-3 和 2-4 所示。從圖2-3中可以看出Recurrent Neural Network是按照輸入順序為句子生成分布式向量表示,對于句子 s,循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)利用子節(jié)點對應(yīng)的詞和詞向量來預(yù)測父節(jié)點的詞向量,最后得到節(jié)點的向量表示就是句子的向量表示,計算公式如公式(2-1)所示: 1tt Recurrent t Recurrent w Recurrenth f V h W e b (2-1)其中 WRecurrent和 VRecurrent是 K*K 維矩陣,bRecurrent是 k 維偏置矩陣,f 是激活函數(shù)。用遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network)得到的句子向量表示是依賴于句法樹結(jié)構(gòu)的,每個父節(jié)點的向量都是通過其直接子結(jié)點計算得到的,類似地,用遞歸得到的根節(jié)點向量表示句子,對于給定的父節(jié)點 p 和其兩個子節(jié)點 c1、c2
【參考文獻】:
期刊論文
[1]語篇連貫性研究綜述[J]. 殷習芳,劉明東. 湖南第一師范學報. 2006(03)
[2]篇章連貫性的定量分析[J]. 周光亞. 現(xiàn)代外語. 1986(04)
碩士論文
[1]中文自動分詞系統(tǒng)的研究與實現(xiàn)[D]. 周程遠.華東師范大學 2010
本文編號:3060772
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3060772.html
最近更新
教材專著