基于機器學習的文本分類算法研究
發(fā)布時間:2023-02-26 19:15
隨著互聯(lián)網(wǎng)技術的迅速發(fā)展,文本數(shù)據(jù)被數(shù)以萬計的特征充實。而面對如此海量的文本資源,想要高效地從這些文本中獲取有價值的信息,僅僅依靠傳統(tǒng)的人工文本分類方法已經(jīng)無法應對。近年來,隨著機器學習技術的不斷成熟,利用機器學習算法對文本進行自動分類,成為了當今學術界研究的熱點和難點。文本分類技術作為數(shù)據(jù)挖掘技術的主要分支,可以有效地滿足大數(shù)據(jù)發(fā)展下,文本自動分類的需求。然而在大量的數(shù)據(jù)中,將文本進行高效準確地分類并不像想象中的那么簡單。一般需要經(jīng)過文本預處理、特征選擇、特征加權、分類算法的選擇等步驟來實現(xiàn)。而這些步驟中,每一個環(huán)節(jié)所使用的相關算法,仍然存在著許多的不足。其中,特征選擇算法和文本分類算法是文本分類過程最為關鍵的兩個部分,直接影響著分類器最終的分類性能。因此本文分別針對這兩個部分進行了研究,主要工作如下:1、本文對文本分類的整個流程進行了深入研究,由于特征提取在整個分類過程中尤其重要,所以本文針對常用的四種特征選擇算法的優(yōu)缺點做了詳細的總結和分析。并且在英文數(shù)據(jù)集20NewsGroup和Reuters上使用不同的分類器進行實驗驗證,實驗結果表明卡方校驗算法特征提取效果最好,所以本文最后...
【文章頁數(shù)】:61 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 國內外研究現(xiàn)狀
1.2.1 文本分類研究現(xiàn)狀
1.2.2 特征選擇算法研究現(xiàn)狀
1.2.3 特征加權算法研究現(xiàn)狀
1.3 本文研究內容
1.4 章節(jié)安排
第二章 文本分類
2.1 基礎算法研究
2.2 文本分類算法實現(xiàn)過程
2.3 文本預處理
2.3.1 文本標記處理
2.3.2 分詞處理算法
2.3.3 詞干提取算法
2.3.4 去除停用詞
2.4 文本表示模型
2.4.1 布爾模型
2.4.2 概率模型
2.4.3 向量空間模型
2.5 特征選擇算法概述
2.6 特征加權算法
2.6.1 布爾權重算法
2.6.2 TF-IDF權重算法
2.6.3 基于熵概念的權重算法
2.7 文本分類算法
2.7.1 K--最近鄰算法
2.7.2 支持向量機(SVM)
2.7.3 樸素貝葉斯分類算法
2.8 分類性能評價指標
2.9 本章小結
第三章 本文對樸素貝葉斯分類算法的改進
3.1 特征選擇算法的選擇
3.1.1 TF-IDF特征選擇算法
3.1.2 信息增益特征選擇算法
3.1.3 互信息特征選擇算法
3.1.4 卡方檢驗特征選擇算法
3.2 樸素貝葉斯分類算法相關理論
3.3 樸素貝葉斯分類算法的不足
3.4 傳統(tǒng)的基于TF-IDF加權的樸素貝葉斯分類算法
3.5 改進的基于TF-IDF*IGD加權的樸素貝葉斯算法
3.5.1 TF-IDF*IGD加權算法
3.5.2 改進算法合理性驗證
3.6 改進的基于IGDC加權的改進的樸素貝葉斯算法
3.6.1 IGDC加權算法
3.6.2 改進算法合理性驗證
3.7 本章小結
第四章 實驗對比與驗證
4.1 實驗平臺說明
4.1.1 硬件與軟件
4.1.2 Python文本處理技術
4.1.3 數(shù)據(jù)集選擇
4.1.4 分詞處理
4.2 特征選擇算法實驗對比
4.2.1 KNN分類器實驗結果分析
4.2.2 SVM分類器實驗結果分析
4.2.3 NB分類器實驗結果分析
4.3 改進的TFIDF*IGD加權算法實驗
4.3.1 分類指標評估
4.3.2 不同特征數(shù)量宏F1對比分析
4.4 改進的IGDC加權算法實驗
4.4.1 分類指標評估
4.4.2 不同特征數(shù)量宏F1對比分析
4.5 本章小結
第五章 總結與展望
5.1 工作總結
5.2 工作展望
參考文獻
作者在讀期間科研成果簡介
致謝
本文編號:3750740
【文章頁數(shù)】:61 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 國內外研究現(xiàn)狀
1.2.1 文本分類研究現(xiàn)狀
1.2.2 特征選擇算法研究現(xiàn)狀
1.2.3 特征加權算法研究現(xiàn)狀
1.3 本文研究內容
1.4 章節(jié)安排
第二章 文本分類
2.1 基礎算法研究
2.2 文本分類算法實現(xiàn)過程
2.3 文本預處理
2.3.1 文本標記處理
2.3.2 分詞處理算法
2.3.3 詞干提取算法
2.3.4 去除停用詞
2.4 文本表示模型
2.4.1 布爾模型
2.4.2 概率模型
2.4.3 向量空間模型
2.5 特征選擇算法概述
2.6 特征加權算法
2.6.1 布爾權重算法
2.6.2 TF-IDF權重算法
2.6.3 基于熵概念的權重算法
2.7 文本分類算法
2.7.1 K--最近鄰算法
2.7.2 支持向量機(SVM)
2.7.3 樸素貝葉斯分類算法
2.8 分類性能評價指標
2.9 本章小結
第三章 本文對樸素貝葉斯分類算法的改進
3.1 特征選擇算法的選擇
3.1.1 TF-IDF特征選擇算法
3.1.2 信息增益特征選擇算法
3.1.3 互信息特征選擇算法
3.1.4 卡方檢驗特征選擇算法
3.2 樸素貝葉斯分類算法相關理論
3.3 樸素貝葉斯分類算法的不足
3.4 傳統(tǒng)的基于TF-IDF加權的樸素貝葉斯分類算法
3.5 改進的基于TF-IDF*IGD加權的樸素貝葉斯算法
3.5.1 TF-IDF*IGD加權算法
3.5.2 改進算法合理性驗證
3.6 改進的基于IGDC加權的改進的樸素貝葉斯算法
3.6.1 IGDC加權算法
3.6.2 改進算法合理性驗證
3.7 本章小結
第四章 實驗對比與驗證
4.1 實驗平臺說明
4.1.1 硬件與軟件
4.1.2 Python文本處理技術
4.1.3 數(shù)據(jù)集選擇
4.1.4 分詞處理
4.2 特征選擇算法實驗對比
4.2.1 KNN分類器實驗結果分析
4.2.2 SVM分類器實驗結果分析
4.2.3 NB分類器實驗結果分析
4.3 改進的TFIDF*IGD加權算法實驗
4.3.1 分類指標評估
4.3.2 不同特征數(shù)量宏F1對比分析
4.4 改進的IGDC加權算法實驗
4.4.1 分類指標評估
4.4.2 不同特征數(shù)量宏F1對比分析
4.5 本章小結
第五章 總結與展望
5.1 工作總結
5.2 工作展望
參考文獻
作者在讀期間科研成果簡介
致謝
本文編號:3750740
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3750740.html
最近更新
教材專著