文本分類特征提取算法的研究

發(fā)布時間：2017-04-15 23:00

本文關(guān)鍵詞：文本分類特征提取算法的研究，由筆耕文化傳播整理發(fā)布。

【摘要】：文本分類是一種分析與使用海量文本數(shù)據(jù)信息的有效手段。其技術(shù)難點(diǎn)之一是處理特征向量空間的高維性,這種高維性使得文本分類變得十分低效,因此特征降維成為文本分類工作首先需要解決的問題。作為特征向量空間降維常用的技術(shù),特征提取方法的性能高低直接影響到文本分類的效果。許多研究表明,信息增益是一種性能相對較好的特征提取方法。然而,信息增益算法在文本分類的問題上仍有其局限和優(yōu)化空間,本文從以下三個方面對其進(jìn)行了改進(jìn):(1)為了平衡每個特征詞在信息增益公式中出現(xiàn)與否對信息增益評分的影響能力,借鑒sigmoid的函數(shù)思想,提出了基于詞頻的γ調(diào)節(jié)因子的信息增益改進(jìn)算法。(2)為了體現(xiàn)特征詞在各個類別分布均勻程度與區(qū)分能力的關(guān)聯(lián),確保在各個類別之間分布不均勻的特征詞具有較強(qiáng)的區(qū)分能力,著眼于特征詞在類別分布情況,對信息增益的評分結(jié)果進(jìn)行進(jìn)一步優(yōu)化。(3)考慮到現(xiàn)實(shí)文本集中非均衡文本大量存在,倘若算法沒有顧及各類別包含的文檔數(shù)大小,則會使其優(yōu)先選擇趨向大類的特征詞,而忽視小類的特征詞。為此,本文借鑒了統(tǒng)計學(xué)中卡方檢驗(yàn)的思想,針對非均衡文檔類別評分排序優(yōu)化的方法,使得在特征維度較小的情況下,仍能保持不錯的性能。對比實(shí)驗(yàn)結(jié)果表明:本文的改進(jìn)算法所得到的文本分類結(jié)果,在各個類別上的準(zhǔn)確率、召回率以及F1值都取得較理想的性能提升,從而驗(yàn)證了本文所提出的信息增益改進(jìn)算法的可行性與有效性。
【關(guān)鍵詞】：文本分類 特征提取 信息增益 調(diào)節(jié)因子 卡方檢驗(yàn)
【學(xué)位授予單位】：吉林大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2016
【分類號】：TP391.1
【目錄】：

摘要4-5
Abstract5-8
第1章緒論8-11
1.1 研究背景及意義8-9
1.2 國內(nèi)外研究現(xiàn)狀9-10
1.3 本文的組織結(jié)構(gòu)10-11
第2章文本分類相關(guān)技術(shù)11-28
2.1 文本分類概述11-13
2.1.1 文本分類定義11
2.1.2 文本分類問題與其他分類問題的比較11-12
2.1.3 文本分類流程12-13
2.2 文本預(yù)處理13-15
2.2.1 去除格式標(biāo)記13-14
2.2.2 中文分詞14-15
2.2.3 去停用詞15
2.3 文本表示模型15-17
2.3.1 布爾模型15-16
2.3.2 概率模型16
2.3.3 向量空間模型16-17
2.4 特征提取17-18
2.5 特征權(quán)重計算18-19
2.5.1 布爾權(quán)重18
2.5.2 詞頻權(quán)重18-19
2.5.3 逆文檔頻率權(quán)（InverseDocument Frequency , IDF）19
2.5.4 TF-IDF權(quán)重19
2.6 分類算法19-24
2.6.1 K-最近鄰算法20
2.6.2 決策樹算法20-21
2.6.3 樸素貝葉斯算法21-22
2.6.4 ROCCHIO算法22
2.6.5 支持向量機(jī)算法22-24
2.6.6 邏輯回歸算法24
2.7 分類性能評估24-27
2.7.1 評估方法24-25
2.7.2 評估指標(biāo)25-27
2.8 本章小結(jié)27-28
第3章文本分類特征提取算法的分析及改進(jìn)28-39
3.1 特征提取的意義28
3.2 特征提取的一般步驟28
3.3 傳統(tǒng)的特征提取算法28-33
3.3.1 文檔頻率29
3.3.2 互信息29-30
3.3.3 統(tǒng)計30-31
3.3.4 信息增益31-33
3.4 信息增益算法的分析與改進(jìn)33-38
3.4.1 信息增益算法分析33-35
3.4.2 基于詞頻的 Γ 調(diào)節(jié)因子的信息增益算法的改進(jìn)35-36
3.4.3 基于特征詞的類別分布情況優(yōu)化增益評分36-37
3.4.4 針對非均衡文檔集評分排序優(yōu)化37-38
3.5 本章小結(jié)38-39
第4章實(shí)驗(yàn)過程及結(jié)果分析39-51
4.1 實(shí)驗(yàn)環(huán)境39-41
4.1.1 語料庫39-40
4.1.2 實(shí)驗(yàn)工具40-41
4.2 實(shí)驗(yàn)?zāi)K41
4.3 實(shí)驗(yàn)步驟41-47
4.3.1 去停用詞41-43
4.3.2 數(shù)據(jù)結(jié)構(gòu)表示43
4.3.3 特征提取43-44
4.3.4 權(quán)值分配44-46
4.3.5 分類算法選擇46
4.3.6 性能評估方法選擇46-47
4.4 實(shí)驗(yàn)結(jié)果分析47-50
4.4.1 相同特征維度不同類別之間的實(shí)驗(yàn)結(jié)果47-49
4.4.2 不同特征維度F1加權(quán)結(jié)果49-50
4.5 本章小結(jié)50-51
第5章總結(jié)與展望51-53
5.1 總結(jié)51-52
5.2 展望52-53
參考文獻(xiàn)53-56
致謝56

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 余成波;秦華鋒;;手指靜脈圖像特征提取算法的研究[J];計算機(jī)工程與應(yīng)用;2008年24期

2 周嬌;李端明;曹泰峰;;導(dǎo)彈圖像特征提取算法及系統(tǒng)架構(gòu)[J];兵工自動化;2011年03期

3 毛建鑫;劉煒;侯秋華;孫紅彬;;一種改進(jìn)的水果特征提取算法[J];計算機(jī)工程與應(yīng)用;2013年06期

4 張向群;張旭;;基于二維判別局部排列的特征提取算法[J];計算機(jī)工程;2013年08期

5 王化U，

本文編號：309432

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/309432.html

上一篇：智能數(shù)據(jù)可視化系統(tǒng)中自動化圖表推導(dǎo)技術(shù)的設(shè)計與實(shí)現(xiàn)
下一篇：腦血管病醫(yī)療論壇的主題與文本情感分析研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

文本分類特征提取算法的研究