文本摘要自動提取技術(shù)在數(shù)字出版中的應(yīng)用
發(fā)布時間:2021-08-24 22:40
在信息爆炸的時代,“快閱讀”已經(jīng)成為一種時尚,文本摘要自動提取成為“快閱讀”的縮影。文本摘要自動提取一直是數(shù)字出版領(lǐng)域的研究熱點(diǎn)之一,將文本摘要自動提取技術(shù)應(yīng)用在數(shù)字出版中,可以快速的提煉出文章的主要內(nèi)容,能夠提升用戶的閱讀效率。而數(shù)字出版對于文字結(jié)構(gòu)具有嚴(yán)格的要求,基于該情況,本文設(shè)計(jì)了一個文本摘要提取系統(tǒng),包括三個部分,第一部分是中文文本分詞,第二部分是文本標(biāo)題的生成,第三部分是基于評論因子、題目因子和句子位置因子權(quán)重加權(quán)的摘要提取,用以保證數(shù)字出版語言的規(guī)范性,實(shí)現(xiàn)文本摘要自動提取技術(shù)在數(shù)字出版中的應(yīng)用。首先,本文設(shè)計(jì)了一種基于自注意力機(jī)制的雙向長短時記憶神經(jīng)網(wǎng)絡(luò)(SAt-BiLSTM)的文本分詞模型。通過SAt處理詞向量,對文本信息進(jìn)行逐句簡化,并結(jié)合BiLSTM將簡化后的句子用特征序列進(jìn)行表示,合成文本的特征向量,完成分詞。其次,本文根據(jù)需求設(shè)計(jì)了一個基于依存句法樹的自動標(biāo)題生成模型。該模型主要通過使用TF-IDF算法和Stanford Core NLP構(gòu)建了一種基于依存句法樹的自動標(biāo)題生成模型,并通過構(gòu)建一些句法樹裁剪的規(guī)則,保證最大的壓縮率,通過標(biāo)題生成結(jié)果對比分析,發(fā)現(xiàn)...
【文章來源】:北京印刷學(xué)院北京市
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
預(yù)處理步驟
1312(,)()Tababfyy=wσWy+Wy(3-1)1max((,))nbabaaselfattentionsoftfyyy==(3-2)SAt主要用于文本序列之間的關(guān)系表示,進(jìn)一步得到一個句子里單詞相互之間的句子特點(diǎn)或者通過語法特征表達(dá)句子的核心思想,例如句子中的副詞和形容詞等相對其他的此行來說,更容易得到句子相互照應(yīng)的特點(diǎn)。而選用LSTM,則要分步進(jìn)行,在面對遠(yuǎn)距離相互照應(yīng)這一問題,需要?dú)v經(jīng)時間較長的信息積攢,進(jìn)而將把二者關(guān)聯(lián)在一起,然而離的越遠(yuǎn),獲得成功的幾率越小,注意力體制在運(yùn)轉(zhuǎn)時,會把句子中的詞語關(guān)聯(lián)起來,讓遠(yuǎn)距離特征的間距被大程度縮短,這樣對于長距離關(guān)聯(lián)關(guān)系對于把詞語分開任務(wù)來說是非常重要的,它不單可以提升其準(zhǔn)確程度,還可以獲得文本中其他重要內(nèi)容。3.3BiLSTM模型為了使文本詞向量與主題詞向量的比較更有價值,本章使用BiLSTM模型。對于處理序列任務(wù),每個節(jié)點(diǎn)的信息都是很重要的。將文本和主題映射到相同的向量空間,標(biāo)準(zhǔn)的LSTM無法獲取到文本將來的信息。BiLSTM模型可以更好的獲取歷史信息和未來的信息,BiLSTM的模型結(jié)構(gòu)如圖3-1所示[61]。圖3-1BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)模型目前較為常用的是LSTM模型,通過固定輸入序列的編碼長度,并根據(jù)需要
15防止其結(jié)果過大,會除以一個尺度標(biāo)度kd。利用Softmax操作將其結(jié)果歸一化為概率分布。乘以矩陣v就得到權(quán)重求和,形成簡化后的句子特征序列。SAt層解決了忽視上下文語境中句法和語法變化的問題,縮短了對于文本分詞中遠(yuǎn)距離依賴的問題。圖3-2SAt-BiLSTM模型結(jié)構(gòu)4、BiLSTM層:經(jīng)BiLSTM處理簡化句子的特征序列,合成文本的特征向量。BiLSTM的隱藏層要保存正向和反向計(jì)算的兩個值。最后的輸出綜合了正向和反向的兩個值。正向計(jì)算時,隱藏層的ts與t1-s有關(guān);反向計(jì)算時,隱藏層的tSAt與t1SAt+有關(guān),公式如式(3-5)和式(3-6)所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于指針生成網(wǎng)絡(luò)的標(biāo)題生成方法[J]. 馮浩. 科學(xué)技術(shù)創(chuàng)新. 2019(29)
[2]基于注意力機(jī)制的LSTM語音情感主要特征選擇[J]. 胡婷婷,馮亞琴,沈凌潔,王蔚. 聲學(xué)技術(shù). 2019(04)
[3]中文分詞器對圖書評論和情感詞典匹配程度的影響[J]. 尤眾喜,華薇娜,潘雪蓮. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(07)
[4]基于用戶評論的商品特征提取及特征價格研究[J]. 文秀賢,徐健. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(07)
[5]基于神經(jīng)網(wǎng)絡(luò)的醫(yī)療診斷研究[J]. 歐明望,葉春楊. 海南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(03)
[6]基于注意力機(jī)制的雙向長短時記憶網(wǎng)絡(luò)模型突發(fā)事件演化關(guān)系抽取[J]. 聞暢,劉宇,顧進(jìn)廣. 計(jì)算機(jī)應(yīng)用. 2019(06)
[7]基于改進(jìn)正向最大匹配算法的股票資訊新聞自動標(biāo)注技術(shù)[J]. 朱鐘元,楊瑩,薛醒思,詹先銀,王家華,范淑娟,劉艷萍. 寶雞文理學(xué)院學(xué)報(bào)(自然科學(xué)版). 2019(01)
[8]一種基于信息熵的關(guān)鍵詞提取算法[J]. 吳華,羅順,孫偉晉. 計(jì)算機(jī)與數(shù)字工程. 2019(03)
[9]一種基于文本相似度的網(wǎng)頁新聞標(biāo)題自動抽取算法[J]. 何春輝. 湖南城市學(xué)院學(xué)報(bào)(自然科學(xué)版). 2019(01)
[10]基于深度學(xué)習(xí)的文本自動摘要方案[J]. 張克君,李偉男,錢榕,史泰猛,焦萌. 計(jì)算機(jī)應(yīng)用. 2019(02)
碩士論文
[1]基于深度語義挖掘的標(biāo)題生成技術(shù)研究與實(shí)現(xiàn)[D]. 池軍奇.北京郵電大學(xué) 2019
[2]基于深度學(xué)習(xí)的中文文檔自動摘要方法研究[D]. 賈曉婷.東北林業(yè)大學(xué) 2018
[3]基于優(yōu)化最大匹配的中文分詞方法研究[D]. 劉春輝.燕山大學(xué) 2009
本文編號:3360853
【文章來源】:北京印刷學(xué)院北京市
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
預(yù)處理步驟
1312(,)()Tababfyy=wσWy+Wy(3-1)1max((,))nbabaaselfattentionsoftfyyy==(3-2)SAt主要用于文本序列之間的關(guān)系表示,進(jìn)一步得到一個句子里單詞相互之間的句子特點(diǎn)或者通過語法特征表達(dá)句子的核心思想,例如句子中的副詞和形容詞等相對其他的此行來說,更容易得到句子相互照應(yīng)的特點(diǎn)。而選用LSTM,則要分步進(jìn)行,在面對遠(yuǎn)距離相互照應(yīng)這一問題,需要?dú)v經(jīng)時間較長的信息積攢,進(jìn)而將把二者關(guān)聯(lián)在一起,然而離的越遠(yuǎn),獲得成功的幾率越小,注意力體制在運(yùn)轉(zhuǎn)時,會把句子中的詞語關(guān)聯(lián)起來,讓遠(yuǎn)距離特征的間距被大程度縮短,這樣對于長距離關(guān)聯(lián)關(guān)系對于把詞語分開任務(wù)來說是非常重要的,它不單可以提升其準(zhǔn)確程度,還可以獲得文本中其他重要內(nèi)容。3.3BiLSTM模型為了使文本詞向量與主題詞向量的比較更有價值,本章使用BiLSTM模型。對于處理序列任務(wù),每個節(jié)點(diǎn)的信息都是很重要的。將文本和主題映射到相同的向量空間,標(biāo)準(zhǔn)的LSTM無法獲取到文本將來的信息。BiLSTM模型可以更好的獲取歷史信息和未來的信息,BiLSTM的模型結(jié)構(gòu)如圖3-1所示[61]。圖3-1BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)模型目前較為常用的是LSTM模型,通過固定輸入序列的編碼長度,并根據(jù)需要
15防止其結(jié)果過大,會除以一個尺度標(biāo)度kd。利用Softmax操作將其結(jié)果歸一化為概率分布。乘以矩陣v就得到權(quán)重求和,形成簡化后的句子特征序列。SAt層解決了忽視上下文語境中句法和語法變化的問題,縮短了對于文本分詞中遠(yuǎn)距離依賴的問題。圖3-2SAt-BiLSTM模型結(jié)構(gòu)4、BiLSTM層:經(jīng)BiLSTM處理簡化句子的特征序列,合成文本的特征向量。BiLSTM的隱藏層要保存正向和反向計(jì)算的兩個值。最后的輸出綜合了正向和反向的兩個值。正向計(jì)算時,隱藏層的ts與t1-s有關(guān);反向計(jì)算時,隱藏層的tSAt與t1SAt+有關(guān),公式如式(3-5)和式(3-6)所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于指針生成網(wǎng)絡(luò)的標(biāo)題生成方法[J]. 馮浩. 科學(xué)技術(shù)創(chuàng)新. 2019(29)
[2]基于注意力機(jī)制的LSTM語音情感主要特征選擇[J]. 胡婷婷,馮亞琴,沈凌潔,王蔚. 聲學(xué)技術(shù). 2019(04)
[3]中文分詞器對圖書評論和情感詞典匹配程度的影響[J]. 尤眾喜,華薇娜,潘雪蓮. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(07)
[4]基于用戶評論的商品特征提取及特征價格研究[J]. 文秀賢,徐健. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(07)
[5]基于神經(jīng)網(wǎng)絡(luò)的醫(yī)療診斷研究[J]. 歐明望,葉春楊. 海南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(03)
[6]基于注意力機(jī)制的雙向長短時記憶網(wǎng)絡(luò)模型突發(fā)事件演化關(guān)系抽取[J]. 聞暢,劉宇,顧進(jìn)廣. 計(jì)算機(jī)應(yīng)用. 2019(06)
[7]基于改進(jìn)正向最大匹配算法的股票資訊新聞自動標(biāo)注技術(shù)[J]. 朱鐘元,楊瑩,薛醒思,詹先銀,王家華,范淑娟,劉艷萍. 寶雞文理學(xué)院學(xué)報(bào)(自然科學(xué)版). 2019(01)
[8]一種基于信息熵的關(guān)鍵詞提取算法[J]. 吳華,羅順,孫偉晉. 計(jì)算機(jī)與數(shù)字工程. 2019(03)
[9]一種基于文本相似度的網(wǎng)頁新聞標(biāo)題自動抽取算法[J]. 何春輝. 湖南城市學(xué)院學(xué)報(bào)(自然科學(xué)版). 2019(01)
[10]基于深度學(xué)習(xí)的文本自動摘要方案[J]. 張克君,李偉男,錢榕,史泰猛,焦萌. 計(jì)算機(jī)應(yīng)用. 2019(02)
碩士論文
[1]基于深度語義挖掘的標(biāo)題生成技術(shù)研究與實(shí)現(xiàn)[D]. 池軍奇.北京郵電大學(xué) 2019
[2]基于深度學(xué)習(xí)的中文文檔自動摘要方法研究[D]. 賈曉婷.東北林業(yè)大學(xué) 2018
[3]基于優(yōu)化最大匹配的中文分詞方法研究[D]. 劉春輝.燕山大學(xué) 2009
本文編號:3360853
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3360853.html
最近更新
教材專著