基于深度學習的政府公文智能分類技術(shù)研究
發(fā)布時間:2021-09-23 16:42
政府公文智能分類技術(shù)在提高政務(wù)辦公效率方面有著極大的的實際應(yīng)用意義,是政府政務(wù)智能化需要突破的重點方向之一。本文的選題來自于政府智能公文項目,首次將以深度學習為主的自然語言處理技術(shù)應(yīng)用到政府公文分類領(lǐng)域中,以提高模型準確率為目標,為實際政府公文智能處理應(yīng)用系統(tǒng)提供符合應(yīng)用標準的算法方案。政府公文任務(wù)是一個典型的多標簽文本分類任務(wù),同時有其自身的語料特點。本文從詞向量表示和文本特征提取以及挖掘公文標簽之間的相關(guān)性三個方向入手,綜合提出對標簽相關(guān)性進行高階建模的多標簽預(yù)測模型作為最終的公文多標簽分類算法方案。本文主要完成以下工作內(nèi)容:(1)針對公文數(shù)據(jù)集領(lǐng)域詞匯多,語料庫較小等問題提出了兩個詞向量表示優(yōu)化方法。首先是基于Word2Vec的詞向量融合方法,用大型公共語料庫的預(yù)訓練詞向量來擴展公文領(lǐng)域中的詞向量,一可以擴展公文域中的詞匯量,二在其自己的域中保留上下文語義的同時豐富原始詞向量的語義特征信息。第二個是直接抽取應(yīng)用Bert預(yù)訓練的詞向量來深度挖掘文檔字段中的上下文語義信息。兩種方法對模型性能均有不錯的提升。(2)設(shè)計了一種引入標題與正文協(xié)同注意力的特征提取結(jié)構(gòu)。政府文件標題結(jié)構(gòu)清晰。...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:81 頁
【學位級別】:碩士
【部分圖文】:
多標簽數(shù)據(jù)樣本
電子科技大學碩士學位論文10圖2-3展示了如何向遞歸神經(jīng)網(wǎng)絡(luò)提供數(shù)據(jù)流。首先,它拿出輸入序列中的值0,然后通過計算得到0,0和1均是下一時間步的輸入。類似地,0同樣是下一步的2的隱狀態(tài)輸入,以此類推。這樣,當前隱狀態(tài)依賴于上一個時間步的輸出來進行計算,它在訓練時就能不斷地記住上下文。圖2-3展開循環(huán)神經(jīng)單元這種類似于鏈的特性說明,遞歸神經(jīng)網(wǎng)絡(luò)對與時間或其他序列相關(guān)的數(shù)據(jù)建模有獨特優(yōu)勢。正由于RNN的這一特性,在它面世以來就在自然語言處理的各個任務(wù)中。當然,RNN也有其局限性,隨著序列長度的增加,長距離的文本依賴很難往后傳遞,此時傳統(tǒng)神經(jīng)循環(huán)網(wǎng)絡(luò)無法對歷史信息進行有效應(yīng)用。為了克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的缺陷,許多變體被研究出來,其中最典型的算法就是長短期記憶網(wǎng)絡(luò)(Longshort-termMemory)[19]。2.3.1.2LSTM圖2-4LSTM內(nèi)部結(jié)構(gòu)圖LSTM在傳統(tǒng)RNN的基礎(chǔ)上增加了一個狀態(tài)“c”用以保存長期狀態(tài),這個狀態(tài)被稱為單元狀態(tài)(cellstate),另外使用三個“門”來控制信息的傳遞,幫助網(wǎng)絡(luò)學習更多的長期依賴關(guān)系,緩解RNN中常見的梯度爆炸和梯度消失的問題。門控單元實際上是一個全連接層,將輸入向量映射為0-1區(qū)間內(nèi)的實數(shù)值,將輸
電子科技大學碩士學位論文10圖2-3展示了如何向遞歸神經(jīng)網(wǎng)絡(luò)提供數(shù)據(jù)流。首先,它拿出輸入序列中的值0,然后通過計算得到0,0和1均是下一時間步的輸入。類似地,0同樣是下一步的2的隱狀態(tài)輸入,以此類推。這樣,當前隱狀態(tài)依賴于上一個時間步的輸出來進行計算,它在訓練時就能不斷地記住上下文。圖2-3展開循環(huán)神經(jīng)單元這種類似于鏈的特性說明,遞歸神經(jīng)網(wǎng)絡(luò)對與時間或其他序列相關(guān)的數(shù)據(jù)建模有獨特優(yōu)勢。正由于RNN的這一特性,在它面世以來就在自然語言處理的各個任務(wù)中。當然,RNN也有其局限性,隨著序列長度的增加,長距離的文本依賴很難往后傳遞,此時傳統(tǒng)神經(jīng)循環(huán)網(wǎng)絡(luò)無法對歷史信息進行有效應(yīng)用。為了克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的缺陷,許多變體被研究出來,其中最典型的算法就是長短期記憶網(wǎng)絡(luò)(Longshort-termMemory)[19]。2.3.1.2LSTM圖2-4LSTM內(nèi)部結(jié)構(gòu)圖LSTM在傳統(tǒng)RNN的基礎(chǔ)上增加了一個狀態(tài)“c”用以保存長期狀態(tài),這個狀態(tài)被稱為單元狀態(tài)(cellstate),另外使用三個“門”來控制信息的傳遞,幫助網(wǎng)絡(luò)學習更多的長期依賴關(guān)系,緩解RNN中常見的梯度爆炸和梯度消失的問題。門控單元實際上是一個全連接層,將輸入向量映射為0-1區(qū)間內(nèi)的實數(shù)值,將輸
本文編號:3406059
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:81 頁
【學位級別】:碩士
【部分圖文】:
多標簽數(shù)據(jù)樣本
電子科技大學碩士學位論文10圖2-3展示了如何向遞歸神經(jīng)網(wǎng)絡(luò)提供數(shù)據(jù)流。首先,它拿出輸入序列中的值0,然后通過計算得到0,0和1均是下一時間步的輸入。類似地,0同樣是下一步的2的隱狀態(tài)輸入,以此類推。這樣,當前隱狀態(tài)依賴于上一個時間步的輸出來進行計算,它在訓練時就能不斷地記住上下文。圖2-3展開循環(huán)神經(jīng)單元這種類似于鏈的特性說明,遞歸神經(jīng)網(wǎng)絡(luò)對與時間或其他序列相關(guān)的數(shù)據(jù)建模有獨特優(yōu)勢。正由于RNN的這一特性,在它面世以來就在自然語言處理的各個任務(wù)中。當然,RNN也有其局限性,隨著序列長度的增加,長距離的文本依賴很難往后傳遞,此時傳統(tǒng)神經(jīng)循環(huán)網(wǎng)絡(luò)無法對歷史信息進行有效應(yīng)用。為了克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的缺陷,許多變體被研究出來,其中最典型的算法就是長短期記憶網(wǎng)絡(luò)(Longshort-termMemory)[19]。2.3.1.2LSTM圖2-4LSTM內(nèi)部結(jié)構(gòu)圖LSTM在傳統(tǒng)RNN的基礎(chǔ)上增加了一個狀態(tài)“c”用以保存長期狀態(tài),這個狀態(tài)被稱為單元狀態(tài)(cellstate),另外使用三個“門”來控制信息的傳遞,幫助網(wǎng)絡(luò)學習更多的長期依賴關(guān)系,緩解RNN中常見的梯度爆炸和梯度消失的問題。門控單元實際上是一個全連接層,將輸入向量映射為0-1區(qū)間內(nèi)的實數(shù)值,將輸
電子科技大學碩士學位論文10圖2-3展示了如何向遞歸神經(jīng)網(wǎng)絡(luò)提供數(shù)據(jù)流。首先,它拿出輸入序列中的值0,然后通過計算得到0,0和1均是下一時間步的輸入。類似地,0同樣是下一步的2的隱狀態(tài)輸入,以此類推。這樣,當前隱狀態(tài)依賴于上一個時間步的輸出來進行計算,它在訓練時就能不斷地記住上下文。圖2-3展開循環(huán)神經(jīng)單元這種類似于鏈的特性說明,遞歸神經(jīng)網(wǎng)絡(luò)對與時間或其他序列相關(guān)的數(shù)據(jù)建模有獨特優(yōu)勢。正由于RNN的這一特性,在它面世以來就在自然語言處理的各個任務(wù)中。當然,RNN也有其局限性,隨著序列長度的增加,長距離的文本依賴很難往后傳遞,此時傳統(tǒng)神經(jīng)循環(huán)網(wǎng)絡(luò)無法對歷史信息進行有效應(yīng)用。為了克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的缺陷,許多變體被研究出來,其中最典型的算法就是長短期記憶網(wǎng)絡(luò)(Longshort-termMemory)[19]。2.3.1.2LSTM圖2-4LSTM內(nèi)部結(jié)構(gòu)圖LSTM在傳統(tǒng)RNN的基礎(chǔ)上增加了一個狀態(tài)“c”用以保存長期狀態(tài),這個狀態(tài)被稱為單元狀態(tài)(cellstate),另外使用三個“門”來控制信息的傳遞,幫助網(wǎng)絡(luò)學習更多的長期依賴關(guān)系,緩解RNN中常見的梯度爆炸和梯度消失的問題。門控單元實際上是一個全連接層,將輸入向量映射為0-1區(qū)間內(nèi)的實數(shù)值,將輸
本文編號:3406059
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3406059.html
最近更新
教材專著