基于深度學(xué)習和注意力機制的文本分類方法研究
發(fā)布時間:2021-11-04 23:18
隨著計算機信息技術(shù)、移動互聯(lián)網(wǎng)的快速發(fā)展,每天都會產(chǎn)生大量的文本數(shù)據(jù)。面對海量數(shù)據(jù),高效獲取有價值的信息變得尤為必要。為滿足人們對信息的個性化需求,需使用相應(yīng)的處理技術(shù)對海量文本數(shù)據(jù)進行加工與處理,而文本分類技術(shù)正是這些技術(shù)的基石。文本分類是自然語言處理領(lǐng)域的經(jīng)典主題。傳統(tǒng)文本分類方法通常采用淺層機器學(xué)習算法,通過人工設(shè)計特征選擇方法對特征進行提取,此類方法人工成本高、耗時長、訓(xùn)練難,對海量數(shù)據(jù)的處理加工場景適應(yīng)性差;谏疃葘W(xué)習的文本分類方法,能從海量文本數(shù)據(jù)中自動進行特征學(xué)習與特征提取,大幅降低人工成本且易于訓(xùn)練,算法領(lǐng)域遷移性得到增強。詞向量作為一種特殊的文本表示形式,能夠?qū)φZ義相近的詞進行表示,避免傳統(tǒng)方法存在的語義鴻溝。在文本分類任務(wù)中使用自注意力機制,能夠充分學(xué)習文本特征,發(fā)現(xiàn)重要特征忽略次要特征捕獲文本中關(guān)鍵的信息。基于上述特點,本文結(jié)合深度學(xué)習與自注意力機制,針對不同類型的文本分類任務(wù)進行研究,主要研究工作如下:(1)使用詞嵌入機制解決傳統(tǒng)文本分類模型中數(shù)據(jù)表示的高維度、語義鴻溝問題。詞嵌入將文本數(shù)據(jù)映射到低維的實數(shù)向量中,避免高維度輸入導(dǎo)致的維數(shù)災(zāi)難,使用詞嵌入機制訓(xùn)...
【文章來源】:江西師范大學(xué)江西省
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究及發(fā)展現(xiàn)狀
1.2.1 文本分類研究現(xiàn)狀
1.2.2 深度學(xué)習研究現(xiàn)狀
1.2.3 注意力機制研究現(xiàn)狀
1.3 主要工作
1.4 論文結(jié)構(gòu)
2 相關(guān)基礎(chǔ)理論介紹
2.1 文本表示
2.1.1 分布式表示
2.1.2 Word2vec
2.2 深度神經(jīng)網(wǎng)絡(luò)模型
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)
2.2.2 GRU網(wǎng)絡(luò)
2.3 注意力機制
2.4 評價指標
2.5 本章小節(jié)
3 基于自注意力機制的單標簽文本分類方法
3.1 問題描述
3.2 DSA-CNN模型
3.2.1 架構(gòu)
3.2.2 算法流程描述
3.3 實驗與結(jié)果分析
3.3.1 實驗設(shè)置
3.3.2 結(jié)果分析
3.4 本章小節(jié)
4 基于自注意力機制的多標簽文本分類方法
4.1 問題描述
4.2 SA-GRU模型
4.2.1 架構(gòu)
4.2.2 算法流程描述
4.3 實驗與結(jié)果分析
4.3.1 實驗設(shè)置
4.3.2 結(jié)果分析
4.4 本章小節(jié)
5 總結(jié)與展望
5.1 本文總結(jié)
5.2 展望
參考文獻
致謝
在讀期間公開發(fā)表論文(著)及科研情況
【參考文獻】:
期刊論文
[1]池化和注意力相結(jié)合的新聞文本分類方法[J]. 陶永才,楊朝陽,石磊,衛(wèi)琳. 小型微型計算機系統(tǒng). 2019(11)
[2]圖卷積神經(jīng)網(wǎng)絡(luò)綜述[J]. 徐冰冰,岑科廷,黃俊杰,沈華偉,程學(xué)旗. 計算機學(xué)報. 2020(05)
[3]基于獨熱編碼和卷積神經(jīng)網(wǎng)絡(luò)的異常檢測[J]. 梁杰,陳嘉豪,張雪芹,周悅,林家駿. 清華大學(xué)學(xué)報(自然科學(xué)版). 2019(07)
[4]基于混合卡方統(tǒng)計量與邏輯回歸的文本情感分析[J]. 李平,戴月明,王艷. 計算機工程. 2017(12)
[5]一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J]. 黃承慧,印鑒,侯昉. 計算機學(xué)報. 2011(05)
[6]基于SVM決策樹的文本分類器[J]. 朱遠平,戴汝為. 模式識別與人工智能. 2005(04)
碩士論文
[1]基于布爾模型的網(wǎng)頁查重算法研究[D]. 連浩.中國科學(xué)院研究生院(計算技術(shù)研究所) 2006
本文編號:3476599
【文章來源】:江西師范大學(xué)江西省
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究及發(fā)展現(xiàn)狀
1.2.1 文本分類研究現(xiàn)狀
1.2.2 深度學(xué)習研究現(xiàn)狀
1.2.3 注意力機制研究現(xiàn)狀
1.3 主要工作
1.4 論文結(jié)構(gòu)
2 相關(guān)基礎(chǔ)理論介紹
2.1 文本表示
2.1.1 分布式表示
2.1.2 Word2vec
2.2 深度神經(jīng)網(wǎng)絡(luò)模型
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)
2.2.2 GRU網(wǎng)絡(luò)
2.3 注意力機制
2.4 評價指標
2.5 本章小節(jié)
3 基于自注意力機制的單標簽文本分類方法
3.1 問題描述
3.2 DSA-CNN模型
3.2.1 架構(gòu)
3.2.2 算法流程描述
3.3 實驗與結(jié)果分析
3.3.1 實驗設(shè)置
3.3.2 結(jié)果分析
3.4 本章小節(jié)
4 基于自注意力機制的多標簽文本分類方法
4.1 問題描述
4.2 SA-GRU模型
4.2.1 架構(gòu)
4.2.2 算法流程描述
4.3 實驗與結(jié)果分析
4.3.1 實驗設(shè)置
4.3.2 結(jié)果分析
4.4 本章小節(jié)
5 總結(jié)與展望
5.1 本文總結(jié)
5.2 展望
參考文獻
致謝
在讀期間公開發(fā)表論文(著)及科研情況
【參考文獻】:
期刊論文
[1]池化和注意力相結(jié)合的新聞文本分類方法[J]. 陶永才,楊朝陽,石磊,衛(wèi)琳. 小型微型計算機系統(tǒng). 2019(11)
[2]圖卷積神經(jīng)網(wǎng)絡(luò)綜述[J]. 徐冰冰,岑科廷,黃俊杰,沈華偉,程學(xué)旗. 計算機學(xué)報. 2020(05)
[3]基于獨熱編碼和卷積神經(jīng)網(wǎng)絡(luò)的異常檢測[J]. 梁杰,陳嘉豪,張雪芹,周悅,林家駿. 清華大學(xué)學(xué)報(自然科學(xué)版). 2019(07)
[4]基于混合卡方統(tǒng)計量與邏輯回歸的文本情感分析[J]. 李平,戴月明,王艷. 計算機工程. 2017(12)
[5]一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J]. 黃承慧,印鑒,侯昉. 計算機學(xué)報. 2011(05)
[6]基于SVM決策樹的文本分類器[J]. 朱遠平,戴汝為. 模式識別與人工智能. 2005(04)
碩士論文
[1]基于布爾模型的網(wǎng)頁查重算法研究[D]. 連浩.中國科學(xué)院研究生院(計算技術(shù)研究所) 2006
本文編號:3476599
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3476599.html
最近更新
教材專著