基于特征選擇方法的新聞文本分類研究
發(fā)布時間:2021-05-14 02:04
當前,隨著計算機技術(shù)的不斷普及以及互聯(lián)網(wǎng)的快速發(fā)展,人們可以接觸到不同行業(yè)的各種信息,這些戶預(yù)先定義的不同類別中,進而幫助人們快捷、高效地找到所需要的信息。本文對新聞文本經(jīng)過分詞,去停用詞后,得到一個詞語集合,該集合包含5萬多個詞語。詞語集合中詞語數(shù)目太多會導致向量空間維數(shù)太高,以至于影響分類器的性能和效率,因此需要對詞語進行特征選擇,即選取對分類性能影響較大的詞語。本文對特征選擇方法進行了改進,第一種是對卡方統(tǒng)計特征選擇方法進行了改進。該方法只考慮了特征詞出現(xiàn)的文本數(shù),而沒有考慮特征詞的詞頻,并且對于高詞頻的詞語,需要考慮其在文本集中普遍出現(xiàn)的現(xiàn)象,因此本文引入特征詞的TF-IDF權(quán)重對CHI進行了改進。第二種是對XGBoost重要性評估思想進行了研究,該思想一般用在風控領(lǐng)域,對屬性重要性進行解釋及屬性選擇。在風控領(lǐng)域迭代地選擇屬性進行模型訓練,但是在文本分類中,文本中包含的特征詞的數(shù)量很多,不可能一一進行選擇。針對這種不足,本文提出了適合于文本分類的XGBoost特征選擇方法。針對效率低的缺點,本文提出了采用XGBoost進行特征選擇前,采用詞語的權(quán)重進行篩選。其中重要性值的計算,...
【文章來源】:山西大學山西省
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【文章目錄】:
中文摘要
ABSTRACT
第一章 緒論
1.1 研究的背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容
1.4 結(jié)構(gòu)安排
第二章 相關(guān)理論
2.1 文本預(yù)處理
2.2 文本表示模型
2.3 分類算法
2.3.1 支持向量機
2.3.2 樸素貝葉斯
2.3.3 神經(jīng)網(wǎng)絡(luò)
2.4 模型評價標準
2.5 本章小結(jié)
第三章 特征選擇方法的研究
3.1 卡方特征選擇方法的研究
3.2 基于XGBoost的特征選擇方法
3.2.1 XGBoost原理
3.2.2 基于TF-IDF權(quán)重的特征選擇方法
3.2.3 混合特征選擇方法
3.3 本章小結(jié)
第四章 實驗的結(jié)果及分析
4.1 數(shù)據(jù)集
4.2 實驗設(shè)計
4.3 SVM實驗結(jié)果
4.4 樸素貝葉斯實驗結(jié)果
4.5 神經(jīng)網(wǎng)絡(luò)實驗結(jié)果
4.6 綜合分析
4.7 本章小結(jié)
第五章 總結(jié)與展望
參考文獻
攻讀學位期間取得的研究成果
致謝
個人簡況及聯(lián)系方式
【參考文獻】:
期刊論文
[1]詞間相關(guān)性在貝葉斯文本分類中的應(yīng)用研究[J]. 章舜仲,王樹梅,黃河燕,陳肇雄. 計算機工程與應(yīng)用. 2009(16)
[2]基于Labeled-LDA模型的文本分類新算法[J]. 李文波,孫樂,張大鯤. 計算機學報. 2008(04)
[3]三種分類算法的實驗比較[J]. 蔡巍,王永成,李偉,尹中航. 上海交通大學學報. 2004(04)
[4]中文文檔自動分類系統(tǒng)的設(shè)計與實現(xiàn)[J]. 鄒濤,王繼成,黃源,張福炎. 中文信息學報. 1999(03)
[5]分類法的發(fā)展趨勢簡論[J]. 侯漢清. 情報科學. 1981(01)
[6]K-NN與SVM相融合的文本分類技術(shù)研究[J]. 王強,王曉龍,關(guān)毅,徐志明. 高技術(shù)通訊. 2005 (05)
本文編號:3185058
【文章來源】:山西大學山西省
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【文章目錄】:
中文摘要
ABSTRACT
第一章 緒論
1.1 研究的背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容
1.4 結(jié)構(gòu)安排
第二章 相關(guān)理論
2.1 文本預(yù)處理
2.2 文本表示模型
2.3 分類算法
2.3.1 支持向量機
2.3.2 樸素貝葉斯
2.3.3 神經(jīng)網(wǎng)絡(luò)
2.4 模型評價標準
2.5 本章小結(jié)
第三章 特征選擇方法的研究
3.1 卡方特征選擇方法的研究
3.2 基于XGBoost的特征選擇方法
3.2.1 XGBoost原理
3.2.2 基于TF-IDF權(quán)重的特征選擇方法
3.2.3 混合特征選擇方法
3.3 本章小結(jié)
第四章 實驗的結(jié)果及分析
4.1 數(shù)據(jù)集
4.2 實驗設(shè)計
4.3 SVM實驗結(jié)果
4.4 樸素貝葉斯實驗結(jié)果
4.5 神經(jīng)網(wǎng)絡(luò)實驗結(jié)果
4.6 綜合分析
4.7 本章小結(jié)
第五章 總結(jié)與展望
參考文獻
攻讀學位期間取得的研究成果
致謝
個人簡況及聯(lián)系方式
【參考文獻】:
期刊論文
[1]詞間相關(guān)性在貝葉斯文本分類中的應(yīng)用研究[J]. 章舜仲,王樹梅,黃河燕,陳肇雄. 計算機工程與應(yīng)用. 2009(16)
[2]基于Labeled-LDA模型的文本分類新算法[J]. 李文波,孫樂,張大鯤. 計算機學報. 2008(04)
[3]三種分類算法的實驗比較[J]. 蔡巍,王永成,李偉,尹中航. 上海交通大學學報. 2004(04)
[4]中文文檔自動分類系統(tǒng)的設(shè)計與實現(xiàn)[J]. 鄒濤,王繼成,黃源,張福炎. 中文信息學報. 1999(03)
[5]分類法的發(fā)展趨勢簡論[J]. 侯漢清. 情報科學. 1981(01)
[6]K-NN與SVM相融合的文本分類技術(shù)研究[J]. 王強,王曉龍,關(guān)毅,徐志明. 高技術(shù)通訊. 2005 (05)
本文編號:3185058
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3185058.html
最近更新
教材專著