基于語料特征的文本分類算法研究
發(fā)布時間:2022-10-21 13:23
互聯(lián)網(wǎng)的快速發(fā)展使得文本信息大量增加,如何對有價值的文本信息進行精確分類是自然語言處理領域研究的熱點之一。在進行文本分類時,由于傳統(tǒng)方法容易忽略語料特征對分類效果的影響,因此考慮語料本身特征會對文本分類產(chǎn)生積極影響。該文采用有監(jiān)督機器學習和深度學習分類算法,基于語料特征對文本分類進行了以下研究。首先,針對情感語料情感特征不明顯問題,改進了詞頻逆文檔(Term Frequency-Inverse Document Frequency,TF-IDF)特征權重算法。通過構建語料專用情感詞典,匹配情感語料,實現(xiàn)了情感語料的特征增強和冗余信息去除,優(yōu)化了用于情感語料分類的詞頻逆文檔向量空間模型。實驗結果證明,針對情感語料,該模型在多種分類器上提高了分類性能。其次,針對文本語料長度不平衡問題,基于卷積神經(jīng)網(wǎng)絡和長短期記憶網(wǎng)絡分類模型,改進了模型處理語料數(shù)據(jù)的方法。在模型數(shù)據(jù)輸入上,采用語句自循環(huán)方式對文本語料進行等長化處理,以達到調(diào)動全局神經(jīng)單元提取特征的目的。實驗結果表明,該方法加快了模型的收斂速度,提高了不等長語料分類的性能表現(xiàn)。最后,針對特定語料主題性強、上下文語義聯(lián)系緊密的特點,設計了一種...
【文章頁數(shù)】:65 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題背景及研究的目的和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文主要研究內(nèi)容
1.4 論文組織結構
第2章 文本分類基本流程
2.1 文本數(shù)據(jù)預處理
2.2 文本空間表示和特征選擇
2.2.1 文本空間表示
2.2.2 文本的特征選擇
2.3 文本分類模型
2.3.1 樸素貝葉斯
2.3.2 支持向量機
2.3.3 卷積神經(jīng)網(wǎng)絡
2.3.4 循環(huán)神經(jīng)網(wǎng)絡
2.4 本章小結
第3章 基于情感語料的特征權重分類模型研究
3.1 傳統(tǒng)特征權重模型
3.2 情感分類向量空間模型
3.2.1 自構建情感詞典
3.2.2 情感特征增強模型
3.2.3 冗余信息去除模型
3.3 實驗數(shù)據(jù)處理
3.3.1 實驗環(huán)境
3.3.2 數(shù)據(jù)獲取及處理
3.4 實驗結果及分析
3.4.1 情感特征增強模型實驗
3.4.2 冗余信息去除模型實驗
3.5 本章小結
第4章 基于語料長度的神經(jīng)網(wǎng)絡分類模型研究
4.1 詞向量及其訓練模型
4.2 不等長語料的神經(jīng)網(wǎng)絡分類模型
4.2.1 文本自循環(huán)等長化
4.2.2 自循環(huán)卷積神經(jīng)網(wǎng)絡模型
4.2.3 自循環(huán)長短期記憶網(wǎng)絡模型
4.3 兩種分類模型實驗及對比
4.3.1 數(shù)據(jù)處理及實驗環(huán)境
4.3.2 自循環(huán)卷積神經(jīng)網(wǎng)絡模型實驗設置
4.3.3 自循環(huán)長短期記憶網(wǎng)絡模型實驗設置
4.3.4 兩種分類模型實驗結果及分析
4.4 本章小結
第5章 基于主題語料的卷積門控網(wǎng)絡分類模型研究
5.1 用于特定主題語料的卷積門控網(wǎng)絡模型
5.1.1 模型思想
5.1.2 自訓練主題詞向量
5.1.3 模型總體架構
5.2 卷積門控網(wǎng)絡原理
5.2.1 雙向門控循環(huán)神經(jīng)網(wǎng)絡
5.2.2 卷積門控網(wǎng)絡結構
5.3 模型實驗
5.3.1 實驗數(shù)據(jù)及模型設置
5.3.2 實驗結果分析
5.4 本章小結
結論
參考文獻
致謝
【參考文獻】:
期刊論文
[1]A Text Sentiment Classification Modeling Method Based on Coordinated CNN-LSTM-Attention Model[J]. ZHANG Yangsen,ZHENG Jia,JIANG Yuru,HUANG Gaijuan,CHEN Ruoyu. Chinese Journal of Electronics. 2019(01)
[2]基于LSTM-Attention的中文新聞文本分類[J]. 藍雯飛,徐蔚,汪敦志,潘鵬程. 中南民族大學學報(自然科學版). 2018(03)
[3]基于文本特征提取方法的文本分類研究[J]. 文嶠. 電腦知識與技術. 2018(18)
[4]基于深度學習的文本分類研究進展[J]. 劉婷婷,朱文東,劉廣一. 電力信息與通信技術. 2018(03)
[5]基于遞歸神經(jīng)網(wǎng)絡的文本分類研究[J]. 黃磊,杜昌順. 北京化工大學學報(自然科學版). 2017(01)
[6]基于機器學習的中文微博情感分類實證研究[J]. 劉志明,劉魯. 計算機工程與應用. 2012(01)
[7]基于Web的新聞文本分類技術的研究[J]. 胡凌云,胡桂蘭,徐勇,李龍澍. 安徽大學學報(自然科學版). 2010(06)
[8]基于機器學習的文本分類技術研究進展[J]. 蘇金樹,張博鋒,徐昕. 軟件學報. 2006(09)
本文編號:3695730
【文章頁數(shù)】:65 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題背景及研究的目的和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文主要研究內(nèi)容
1.4 論文組織結構
第2章 文本分類基本流程
2.1 文本數(shù)據(jù)預處理
2.2 文本空間表示和特征選擇
2.2.1 文本空間表示
2.2.2 文本的特征選擇
2.3 文本分類模型
2.3.1 樸素貝葉斯
2.3.2 支持向量機
2.3.3 卷積神經(jīng)網(wǎng)絡
2.3.4 循環(huán)神經(jīng)網(wǎng)絡
2.4 本章小結
第3章 基于情感語料的特征權重分類模型研究
3.1 傳統(tǒng)特征權重模型
3.2 情感分類向量空間模型
3.2.1 自構建情感詞典
3.2.2 情感特征增強模型
3.2.3 冗余信息去除模型
3.3 實驗數(shù)據(jù)處理
3.3.1 實驗環(huán)境
3.3.2 數(shù)據(jù)獲取及處理
3.4 實驗結果及分析
3.4.1 情感特征增強模型實驗
3.4.2 冗余信息去除模型實驗
3.5 本章小結
第4章 基于語料長度的神經(jīng)網(wǎng)絡分類模型研究
4.1 詞向量及其訓練模型
4.2 不等長語料的神經(jīng)網(wǎng)絡分類模型
4.2.1 文本自循環(huán)等長化
4.2.2 自循環(huán)卷積神經(jīng)網(wǎng)絡模型
4.2.3 自循環(huán)長短期記憶網(wǎng)絡模型
4.3 兩種分類模型實驗及對比
4.3.1 數(shù)據(jù)處理及實驗環(huán)境
4.3.2 自循環(huán)卷積神經(jīng)網(wǎng)絡模型實驗設置
4.3.3 自循環(huán)長短期記憶網(wǎng)絡模型實驗設置
4.3.4 兩種分類模型實驗結果及分析
4.4 本章小結
第5章 基于主題語料的卷積門控網(wǎng)絡分類模型研究
5.1 用于特定主題語料的卷積門控網(wǎng)絡模型
5.1.1 模型思想
5.1.2 自訓練主題詞向量
5.1.3 模型總體架構
5.2 卷積門控網(wǎng)絡原理
5.2.1 雙向門控循環(huán)神經(jīng)網(wǎng)絡
5.2.2 卷積門控網(wǎng)絡結構
5.3 模型實驗
5.3.1 實驗數(shù)據(jù)及模型設置
5.3.2 實驗結果分析
5.4 本章小結
結論
參考文獻
致謝
【參考文獻】:
期刊論文
[1]A Text Sentiment Classification Modeling Method Based on Coordinated CNN-LSTM-Attention Model[J]. ZHANG Yangsen,ZHENG Jia,JIANG Yuru,HUANG Gaijuan,CHEN Ruoyu. Chinese Journal of Electronics. 2019(01)
[2]基于LSTM-Attention的中文新聞文本分類[J]. 藍雯飛,徐蔚,汪敦志,潘鵬程. 中南民族大學學報(自然科學版). 2018(03)
[3]基于文本特征提取方法的文本分類研究[J]. 文嶠. 電腦知識與技術. 2018(18)
[4]基于深度學習的文本分類研究進展[J]. 劉婷婷,朱文東,劉廣一. 電力信息與通信技術. 2018(03)
[5]基于遞歸神經(jīng)網(wǎng)絡的文本分類研究[J]. 黃磊,杜昌順. 北京化工大學學報(自然科學版). 2017(01)
[6]基于機器學習的中文微博情感分類實證研究[J]. 劉志明,劉魯. 計算機工程與應用. 2012(01)
[7]基于Web的新聞文本分類技術的研究[J]. 胡凌云,胡桂蘭,徐勇,李龍澍. 安徽大學學報(自然科學版). 2010(06)
[8]基于機器學習的文本分類技術研究進展[J]. 蘇金樹,張博鋒,徐昕. 軟件學報. 2006(09)
本文編號:3695730
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3695730.html
最近更新
教材專著