基于深度學(xué)習(xí)的政府公文智能分類技術(shù)研究

發(fā)布時間：2021-09-23 16:42

　　政府公文智能分類技術(shù)在提高政務(wù)辦公效率方面有著極大的的實際應(yīng)用意義,是政府政務(wù)智能化需要突破的重點方向之一。本文的選題來自于政府智能公文項目,首次將以深度學(xué)習(xí)為主的自然語言處理技術(shù)應(yīng)用到政府公文分類領(lǐng)域中,以提高模型準(zhǔn)確率為目標(biāo),為實際政府公文智能處理應(yīng)用系統(tǒng)提供符合應(yīng)用標(biāo)準(zhǔn)的算法方案。政府公文任務(wù)是一個典型的多標(biāo)簽文本分類任務(wù),同時有其自身的語料特點。本文從詞向量表示和文本特征提取以及挖掘公文標(biāo)簽之間的相關(guān)性三個方向入手,綜合提出對標(biāo)簽相關(guān)性進(jìn)行高階建模的多標(biāo)簽預(yù)測模型作為最終的公文多標(biāo)簽分類算法方案。本文主要完成以下工作內(nèi)容:（1）針對公文數(shù)據(jù)集領(lǐng)域詞匯多,語料庫較小等問題提出了兩個詞向量表示優(yōu)化方法。首先是基于Word2Vec的詞向量融合方法,用大型公共語料庫的預(yù)訓(xùn)練詞向量來擴(kuò)展公文領(lǐng)域中的詞向量,一可以擴(kuò)展公文域中的詞匯量,二在其自己的域中保留上下文語義的同時豐富原始詞向量的語義特征信息。第二個是直接抽取應(yīng)用Bert預(yù)訓(xùn)練的詞向量來深度挖掘文檔字段中的上下文語義信息。兩種方法對模型性能均有不錯的提升。（2）設(shè)計了一種引入標(biāo)題與正文協(xié)同注意力的特征提取結(jié)構(gòu)。政府文件標(biāo)題結(jié)構(gòu)清晰。...

【文章來源】：電子科技大學(xué)四川省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：81 頁

【學(xué)位級別】：碩士

【部分圖文】：

多標(biāo)簽數(shù)據(jù)樣本

結(jié)構(gòu)圖,結(jié)構(gòu)圖,狀態(tài),遞歸神經(jīng)網(wǎng)絡(luò)

電子科技大學(xué)碩士學(xué)位論文10圖2-3展示了如何向遞歸神經(jīng)網(wǎng)絡(luò)提供數(shù)據(jù)流。首先，它拿出輸入序列中的值0，然后通過計算得到0，0和1均是下一時間步的輸入。類似地，0同樣是下一步的2的隱狀態(tài)輸入，以此類推。這樣，當(dāng)前隱狀態(tài)依賴于上一個時間步的輸出來進(jìn)行計算，它在訓(xùn)練時就能不斷地記住上下文。圖2-3展開循環(huán)神經(jīng)單元這種類似于鏈的特性說明，遞歸神經(jīng)網(wǎng)絡(luò)對與時間或其他序列相關(guān)的數(shù)據(jù)建模有獨特優(yōu)勢。正由于RNN的這一特性，在它面世以來就在自然語言處理的各個任務(wù)中。當(dāng)然，RNN也有其局限性，隨著序列長度的增加，長距離的文本依賴很難往后傳遞，此時傳統(tǒng)神經(jīng)循環(huán)網(wǎng)絡(luò)無法對歷史信息進(jìn)行有效應(yīng)用。為了克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的缺陷，許多變體被研究出來，其中最典型的算法就是長短期記憶網(wǎng)絡(luò)（Longshort-termMemory）[19]。2.3.1.2LSTM圖2-4LSTM內(nèi)部結(jié)構(gòu)圖LSTM在傳統(tǒng)RNN的基礎(chǔ)上增加了一個狀態(tài)“c”用以保存長期狀態(tài)，這個狀態(tài)被稱為單元狀態(tài)（cellstate），另外使用三個“門”來控制信息的傳遞，幫助網(wǎng)絡(luò)學(xué)習(xí)更多的長期依賴關(guān)系，緩解RNN中常見的梯度爆炸和梯度消失的問題。門控單元實際上是一個全連接層，將輸入向量映射為0-1區(qū)間內(nèi)的實數(shù)值，將輸

神經(jīng),單元

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3406059.html

上一篇：TiO 2 納米管電離式傳感器及其伏安特性研究
下一篇：基于卷積神經(jīng)網(wǎng)絡(luò)的葫蘆烙畫風(fēng)格模擬

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的政府公文智能分類技術(shù)研究