天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的政府公文摘要生成算法研究

發(fā)布時間:2022-01-23 06:08
  隨著智慧城市和電子政務(wù)等新興信息產(chǎn)物得到國家層面的充分重視,國家組成的電子政務(wù)領(lǐng)導(dǎo)指揮小組強(qiáng)調(diào)各級政府利用創(chuàng)新手段優(yōu)化公共服務(wù)方式和提升政府辦公效率。公文處理作為政府機(jī)關(guān)的主要的政務(wù)工作之一,傳統(tǒng)的公文處理需要人為通讀公文,然后從中提取出重要信息點(diǎn),最后執(zhí)行或公文傳達(dá)。傳統(tǒng)的公文處理方式依靠人工公文處理方式,導(dǎo)致政府公文處理過程緩慢且占用較大的政府人力資源。因?yàn)椴恍枰科亩甲屑?xì)閱讀,很多公文只需要大致理解主要信息點(diǎn),就可以進(jìn)行公文傳達(dá)。自然語言處理中的文本自動摘要技術(shù)通過對指定文檔的信息進(jìn)行壓縮和匯總,從而提供一篇短小且信息覆蓋全面的摘要。將文本自動摘要技術(shù)應(yīng)用到政府公文中能夠有效的緩解政府公文處理中的問題,提升政府辦公效率,節(jié)約政府人力資源。本文是基于實(shí)驗(yàn)室的政府公文智能摘要項(xiàng)目展開的,主要工作是對基于深度學(xué)習(xí)的文本自動摘要技術(shù)在政府公文中的應(yīng)用算法進(jìn)行調(diào)研,然后通過多種手段的混合使得方案能夠達(dá)到項(xiàng)目的驗(yàn)收指標(biāo),主要分為以下幾方面展開:1、改進(jìn)了基于圖排序算法的方法和有監(jiān)督抽取式摘要生成算法。首先通過對抽取式文本自動摘要算法的調(diào)研,在政府公文數(shù)據(jù)集上分別對基于圖排序算法的方法和有... 

【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:74 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于深度學(xué)習(xí)的政府公文摘要生成算法研究


NNLM語言模型圖[27]

模型圖,模型,向量,詞匯


電子科技大學(xué)碩士學(xué)位論文10量。深度學(xué)習(xí)的相關(guān)思想首次被應(yīng)用到語言模型領(lǐng)域,通過模型對語言模型的訓(xùn)練,發(fā)現(xiàn)取訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型的第一層參數(shù)作為詞向量時,可以表示詞語間的相似度。這里可以把NNLM模型劃分為三個模塊:輸入層,利用個詞匯的onehot編碼與詞向量矩陣相乘,從而得到每個詞的詞向量,將得到的詞向量首尾連接起來組成新的詞向量,即形成維的向量;隱藏層,將維向量經(jīng)過線性層轉(zhuǎn)換成維向量;輸出層,再把維的向量經(jīng)過線性層,轉(zhuǎn)換成詞典大小維度的向量,利用Softmax函數(shù)得到每一個詞的概率。2013年Gge提出Wd2Vec[28]方法,并在文獻(xiàn)[29]中進(jìn)一步提出了幾種優(yōu)化策略,包括層級Sfa,負(fù)采樣和子采樣技術(shù)。相比于NNLM,Wd2Vec主要做了這樣幾點(diǎn)改進(jìn):模型精簡和優(yōu)化訓(xùn)練。使得Wd2Vec模型更加簡單,同時訓(xùn)練速度更快。Wd2Vec包含Ski-ga模型和CBOW模型。圖2-2CBOW模型和Ski-ga模型CBOW模型利用中心詞匯的上下文詞匯來推斷中心詞匯。模型開始訓(xùn)練前,設(shè)置詞向量的維度,通過隨機(jī)方式,對詞向量進(jìn)行初始化設(shè)置。輸入層輸入目標(biāo)詞匯的窗口詞匯的編碼向量,Oe-h編碼向量與初始化的詞向量相乘得到上下文詞匯的詞向量。CBOW沒有中間層,這里的隱藏層的實(shí)質(zhì)是詞袋模型,將上下文的

模型圖,模型圖,句子


電子科技大學(xué)碩士學(xué)位論文14否屬于自動摘要,通過神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)句子及其標(biāo)簽之間的對應(yīng)關(guān)系。目前比較常見的方法包括R2N2[36],NeaS[37],SaRNNe以及BeS[38]。1、R2N2這個模型使用遞歸神經(jīng)網(wǎng)絡(luò)對多文檔摘要進(jìn)行排序,它將句子排序任務(wù)劃分成為一個層次回歸問題,一邊分析樹種一邊計(jì)算句子及其組成部分的重要性。作者使用了包含詞級、短語級和句子級在內(nèi)人工定義的14個特征。在模型中使用遞歸神經(jīng)網(wǎng)絡(luò)來建模句子向量與其標(biāo)簽之間的映射關(guān)系,在模型前向傳播中,其子節(jié)點(diǎn)用于遞歸計(jì)算父節(jié)點(diǎn)的表示形式。通過遞歸神經(jīng)網(wǎng)絡(luò)來模擬句子內(nèi)部各元素之間的語義依存關(guān)系,使得模型能夠更好的學(xué)習(xí)語義特征,從而對于排序提供更好的支持。模型框架圖2-3所示:圖2-3R2N2模型圖2、NeaS該文章提出了基于句子抽取的模型NN-SE,在之前通常依托人工抽取出的特征來判別某個句子是否最終文摘中的句子。而在這里,研究人員提出了一種以數(shù)據(jù)為主要驅(qū)動的方法,這種方法利用了神經(jīng)網(wǎng)絡(luò)以及連續(xù)句子的特征。這種方法的中心就是編碼器-解碼器框架,編碼器讀取輸入語句并將其編碼成一個連續(xù)向量,然后解碼器部分將其解碼成目標(biāo)序列。利用卷積神經(jīng)網(wǎng)絡(luò)和最大化池化操作得到句子向量,利用傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)來獲取文檔的向量化表示。模型如圖2-4。首先將輸入文章分成句子,將每句話分開送入卷積神經(jīng)網(wǎng)絡(luò),至此可以獲得這句話對應(yīng)的表示。從CNN層獲得的向量組合成向量序列輸入RNN網(wǎng)絡(luò)來獲取文檔的表示,最終通過解碼單元解碼獲得每句話的標(biāo)記輸出。在每個卷積核上都使用了多個Feae-Ma獲取特征,將多種特征作為句子表示。相比于R2N2,NeaS采用了卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)配合提取句子

【參考文獻(xiàn)】:
期刊論文
[1]基于層次結(jié)構(gòu)的生成式自動文摘[J]. 吳仁守,張宜飛,王紅玲,張迎.  中文信息學(xué)報(bào). 2019(10)



本文編號:3603755

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3603755.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6c300***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com