基于序列到序列模型的中文生成式自動(dòng)文摘研究
發(fā)布時(shí)間:2021-04-19 00:05
隨著近幾年文本數(shù)據(jù)的迅速增長(zhǎng),人們的生活充斥著海量的文本信息,如新聞、博客、郵件以及會(huì)議報(bào)告等。從大量的文本信息中提煉出重點(diǎn)內(nèi)容已成為解決信息過(guò)剩的迫切需求,而自動(dòng)文摘為此提供了一個(gè)解決方案。自動(dòng)文摘的主要目的是將原文檔的主要內(nèi)容濃縮成一個(gè)精簡(jiǎn)摘要,提高人類(lèi)快速獲取文檔信息的效率。早期自動(dòng)文摘領(lǐng)域的工作大多集中在基于統(tǒng)計(jì)學(xué)和圖排序算法的抽取式自動(dòng)文摘。近年來(lái),隨著大數(shù)據(jù)和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)自動(dòng)文摘研究正朝著從抽取式自動(dòng)文摘到生成式自動(dòng)文摘的方向演化,以達(dá)到生成更高質(zhì)量摘要的目的。本文的主要工作集中在基于序列到序列模型的生成式自動(dòng)文摘模型的研究,目前該方面的研究仍面臨著諸多挑戰(zhàn),例如基本序列到序列模型的常見(jiàn)問(wèn)題(詞表溢出和信息重復(fù))、獲取原文檔重點(diǎn)信息能力欠缺以及生成摘要不合理等問(wèn)題,針對(duì)這些問(wèn)題本文提出了相應(yīng)的解決方案,主要的研究工作如下:首先,本文采用Subword分詞算法處理序列到序列模型的詞表溢出問(wèn)題,該方法將詞分割成更細(xì)粒度的子詞單元,顯著減小了詞表長(zhǎng)度,緩解了詞表溢出。同時(shí),本文將已生成摘要的注意力機(jī)制嵌入序列到序列模型中以緩解信息重復(fù)問(wèn)題,該機(jī)制通過(guò)回顧已生成的摘...
【文章來(lái)源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.2?LSTM結(jié)構(gòu)圖??從圖2.2中可知,LSTM的信息輸入到輸出需要通過(guò)三種門(mén)控機(jī)制,分別為??
簡(jiǎn)單的門(mén)控機(jī)制的網(wǎng)絡(luò)GRU,該模型和LSTM的最主要的區(qū)別為:將遺忘門(mén)和輸??入門(mén)合成一個(gè)單一的更新門(mén),同時(shí)還混合了細(xì)胞狀態(tài)和隱狀態(tài)。因此GRU比標(biāo)準(zhǔn)??的LSTM簡(jiǎn)潔很多。具體的結(jié)構(gòu)信息如圖2.3所示。?????穿??>?■?v.:::..;,,.?1?1?nn?ar?nr??@?(5??圖2.3?GRU結(jié)構(gòu)圖??由圖2.3和圖2.2對(duì)比可以清晰的發(fā)現(xiàn),GRU將門(mén)控機(jī)制由三個(gè)縮減為兩個(gè),??同時(shí)去除了細(xì)胞狀態(tài)C。雖然GRU變得更簡(jiǎn)潔,但其效果與LSTM差別不大,因??此也是當(dāng)前非常流行的一種簡(jiǎn)潔而有效的網(wǎng)絡(luò)。具體的計(jì)算方式如公式2.3所示。??rt?=a(JVrh,_x+Urx,])??(公式?2.3)??z,=G(W:ht_^U.x,)??h,=(}-zl)*hl-l?+?zl*h,??其中,r,是重置門(mén),¥是候選記憶單元,由重置門(mén)r,對(duì)前一時(shí)間步的隱狀態(tài)進(jìn)行??重置并通過(guò)tanh激活函數(shù)激活而得到。是更新門(mén)
控RNN比普通的RNN更有效,如LSTM和GRU等,雙向的RNN比單向的RNN??更有效,因此本文的所有研宄的編碼器和解碼器均采用LSTM。序列到序列模型??的具體結(jié)構(gòu)如圖2.4所示。??編碼器?乃Vj?yh]??L?〇?A?〇?心〇??h%?〇?h%?〇??r^J?\?;脅獅聊麵*?下文向??X???????:二:、__■■■_■■?■丨■■丨__?二?量c??廣〇?廣〇?r?〇?〇?〇?〇??Xi-i?I???Xj?|???Xi+2?I???????????[???:??|??OOP?oil?OOP?oil?OOP?Ql?解碼器??圖2.4基本序列到序列模型??該模型目標(biāo)是優(yōu)化解碼器端生成詞的條件概率/I?W..A),其??中y?=?b^,3;2,.表示解碼器端的輸出序列,/表示解碼器序列的總長(zhǎng)度,??1?=?^1,\,...,\}表示編碼器端的輸入序列,/表示編碼器序列的總長(zhǎng)度,該條件??概率的具體計(jì)算方式如公式2.4所示。??i??々Ia七,.?”&)?=?(公式?2.4)??/=2??編碼器的用途是將輸入的原文檔由LSTM進(jìn)行重新加工并輸出一組隱狀態(tài),??其目標(biāo)是提取出原文檔的語(yǔ)義等信息。一個(gè)原文檔D是由一系列句子組成,句子??是由一系列詞組成,每個(gè)詞都被映射成分布式向量PF作為模型的輸入。該分布式??向量初始化有三種方式:第一
【參考文獻(xiàn)】:
期刊論文
[1]主題關(guān)鍵詞信息融合的中文生成式自動(dòng)摘要研究[J]. 侯麗微,胡珀,曹雯琳. 自動(dòng)化學(xué)報(bào). 2019(03)
[2]基于論文關(guān)鍵詞和篇章結(jié)構(gòu)的自動(dòng)文摘抽取方法[J]. 孫曉騰,李學(xué)明. 現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版). 2018(13)
[3]自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周?chē)?guó)棟,張麗. 軟件學(xué)報(bào). 2017(09)
[4]基于超圖的文本摘要與關(guān)鍵詞協(xié)同抽取研究[J]. 莫鵬,胡珀,黃湘冀,何婷婷. 中文信息學(xué)報(bào). 2015(06)
[5]基于動(dòng)態(tài)主題建模的Web論壇文檔摘要[J]. 任昭春,馬軍,陳竹敏. 計(jì)算機(jī)研究與發(fā)展. 2012(11)
[6]基于LDA主題特征的自動(dòng)文摘方法[J]. 張明慧,王紅玲,周?chē)?guó)棟. 計(jì)算機(jī)應(yīng)用與軟件. 2011(10)
[7]一種基于LexRank算法的改進(jìn)的自動(dòng)文摘系統(tǒng)[J]. 紀(jì)文倩,李舟軍,巢文涵,陳小明. 計(jì)算機(jī)科學(xué). 2010(05)
[8]OA中文文獻(xiàn)自動(dòng)摘要系統(tǒng)[J]. 王永成,許慧敏. 情報(bào)學(xué)報(bào). 1997(02)
[9]基于理解的自動(dòng)文摘系統(tǒng)設(shè)計(jì)[J]. 王開(kāi)鑄,吳巖,劉挺. 電腦學(xué)習(xí). 1996(02)
本文編號(hào):3146428
【文章來(lái)源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.2?LSTM結(jié)構(gòu)圖??從圖2.2中可知,LSTM的信息輸入到輸出需要通過(guò)三種門(mén)控機(jī)制,分別為??
簡(jiǎn)單的門(mén)控機(jī)制的網(wǎng)絡(luò)GRU,該模型和LSTM的最主要的區(qū)別為:將遺忘門(mén)和輸??入門(mén)合成一個(gè)單一的更新門(mén),同時(shí)還混合了細(xì)胞狀態(tài)和隱狀態(tài)。因此GRU比標(biāo)準(zhǔn)??的LSTM簡(jiǎn)潔很多。具體的結(jié)構(gòu)信息如圖2.3所示。?????穿??>?■?v.:::..;,,.?1?1?nn?ar?nr??@?(5??圖2.3?GRU結(jié)構(gòu)圖??由圖2.3和圖2.2對(duì)比可以清晰的發(fā)現(xiàn),GRU將門(mén)控機(jī)制由三個(gè)縮減為兩個(gè),??同時(shí)去除了細(xì)胞狀態(tài)C。雖然GRU變得更簡(jiǎn)潔,但其效果與LSTM差別不大,因??此也是當(dāng)前非常流行的一種簡(jiǎn)潔而有效的網(wǎng)絡(luò)。具體的計(jì)算方式如公式2.3所示。??rt?=a(JVrh,_x+Urx,])??(公式?2.3)??z,=G(W:ht_^U.x,)??h,=(}-zl)*hl-l?+?zl*h,??其中,r,是重置門(mén),¥是候選記憶單元,由重置門(mén)r,對(duì)前一時(shí)間步的隱狀態(tài)進(jìn)行??重置并通過(guò)tanh激活函數(shù)激活而得到。是更新門(mén)
控RNN比普通的RNN更有效,如LSTM和GRU等,雙向的RNN比單向的RNN??更有效,因此本文的所有研宄的編碼器和解碼器均采用LSTM。序列到序列模型??的具體結(jié)構(gòu)如圖2.4所示。??編碼器?乃Vj?yh]??L?〇?A?〇?心〇??h%?〇?h%?〇??r^J?\?;脅獅聊麵*?下文向??X???????:二:、__■■■_■■?■丨■■丨__?二?量c??廣〇?廣〇?r?〇?〇?〇?〇??Xi-i?I???Xj?|???Xi+2?I???????????[???:??|??OOP?oil?OOP?oil?OOP?Ql?解碼器??圖2.4基本序列到序列模型??該模型目標(biāo)是優(yōu)化解碼器端生成詞的條件概率/I?W..A),其??中y?=?b^,3;2,.表示解碼器端的輸出序列,/表示解碼器序列的總長(zhǎng)度,??1?=?^1,\,...,\}表示編碼器端的輸入序列,/表示編碼器序列的總長(zhǎng)度,該條件??概率的具體計(jì)算方式如公式2.4所示。??i??々Ia七,.?”&)?=?(公式?2.4)??/=2??編碼器的用途是將輸入的原文檔由LSTM進(jìn)行重新加工并輸出一組隱狀態(tài),??其目標(biāo)是提取出原文檔的語(yǔ)義等信息。一個(gè)原文檔D是由一系列句子組成,句子??是由一系列詞組成,每個(gè)詞都被映射成分布式向量PF作為模型的輸入。該分布式??向量初始化有三種方式:第一
【參考文獻(xiàn)】:
期刊論文
[1]主題關(guān)鍵詞信息融合的中文生成式自動(dòng)摘要研究[J]. 侯麗微,胡珀,曹雯琳. 自動(dòng)化學(xué)報(bào). 2019(03)
[2]基于論文關(guān)鍵詞和篇章結(jié)構(gòu)的自動(dòng)文摘抽取方法[J]. 孫曉騰,李學(xué)明. 現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版). 2018(13)
[3]自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周?chē)?guó)棟,張麗. 軟件學(xué)報(bào). 2017(09)
[4]基于超圖的文本摘要與關(guān)鍵詞協(xié)同抽取研究[J]. 莫鵬,胡珀,黃湘冀,何婷婷. 中文信息學(xué)報(bào). 2015(06)
[5]基于動(dòng)態(tài)主題建模的Web論壇文檔摘要[J]. 任昭春,馬軍,陳竹敏. 計(jì)算機(jī)研究與發(fā)展. 2012(11)
[6]基于LDA主題特征的自動(dòng)文摘方法[J]. 張明慧,王紅玲,周?chē)?guó)棟. 計(jì)算機(jī)應(yīng)用與軟件. 2011(10)
[7]一種基于LexRank算法的改進(jìn)的自動(dòng)文摘系統(tǒng)[J]. 紀(jì)文倩,李舟軍,巢文涵,陳小明. 計(jì)算機(jī)科學(xué). 2010(05)
[8]OA中文文獻(xiàn)自動(dòng)摘要系統(tǒng)[J]. 王永成,許慧敏. 情報(bào)學(xué)報(bào). 1997(02)
[9]基于理解的自動(dòng)文摘系統(tǒng)設(shè)計(jì)[J]. 王開(kāi)鑄,吳巖,劉挺. 電腦學(xué)習(xí). 1996(02)
本文編號(hào):3146428
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3146428.html
最近更新
教材專(zhuān)著