文本分類特征提取算法的研究
發(fā)布時(shí)間:2017-04-15 23:00
本文關(guān)鍵詞:文本分類特征提取算法的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:文本分類是一種分析與使用海量文本數(shù)據(jù)信息的有效手段。其技術(shù)難點(diǎn)之一是處理特征向量空間的高維性,這種高維性使得文本分類變得十分低效,因此特征降維成為文本分類工作首先需要解決的問題。作為特征向量空間降維常用的技術(shù),特征提取方法的性能高低直接影響到文本分類的效果。許多研究表明,信息增益是一種性能相對(duì)較好的特征提取方法。然而,信息增益算法在文本分類的問題上仍有其局限和優(yōu)化空間,本文從以下三個(gè)方面對(duì)其進(jìn)行了改進(jìn):(1)為了平衡每個(gè)特征詞在信息增益公式中出現(xiàn)與否對(duì)信息增益評(píng)分的影響能力,借鑒sigmoid的函數(shù)思想,提出了基于詞頻的γ調(diào)節(jié)因子的信息增益改進(jìn)算法。(2)為了體現(xiàn)特征詞在各個(gè)類別分布均勻程度與區(qū)分能力的關(guān)聯(lián),確保在各個(gè)類別之間分布不均勻的特征詞具有較強(qiáng)的區(qū)分能力,著眼于特征詞在類別分布情況,對(duì)信息增益的評(píng)分結(jié)果進(jìn)行進(jìn)一步優(yōu)化。(3)考慮到現(xiàn)實(shí)文本集中非均衡文本大量存在,倘若算法沒有顧及各類別包含的文檔數(shù)大小,則會(huì)使其優(yōu)先選擇趨向大類的特征詞,而忽視小類的特征詞。為此,本文借鑒了統(tǒng)計(jì)學(xué)中卡方檢驗(yàn)的思想,針對(duì)非均衡文檔類別評(píng)分排序優(yōu)化的方法,使得在特征維度較小的情況下,仍能保持不錯(cuò)的性能。對(duì)比實(shí)驗(yàn)結(jié)果表明:本文的改進(jìn)算法所得到的文本分類結(jié)果,在各個(gè)類別上的準(zhǔn)確率、召回率以及F1值都取得較理想的性能提升,從而驗(yàn)證了本文所提出的信息增益改進(jìn)算法的可行性與有效性。
【關(guān)鍵詞】:文本分類 特征提取 信息增益 調(diào)節(jié)因子 卡方檢驗(yàn)
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-8
- 第1章 緒論8-11
- 1.1 研究背景及意義8-9
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-10
- 1.3 本文的組織結(jié)構(gòu)10-11
- 第2章 文本分類相關(guān)技術(shù)11-28
- 2.1 文本分類概述11-13
- 2.1.1 文本分類定義11
- 2.1.2 文本分類問題與其他分類問題的比較11-12
- 2.1.3 文本分類流程12-13
- 2.2 文本預(yù)處理13-15
- 2.2.1 去除格式標(biāo)記13-14
- 2.2.2 中文分詞14-15
- 2.2.3 去停用詞15
- 2.3 文本表示模型15-17
- 2.3.1 布爾模型15-16
- 2.3.2 概率模型16
- 2.3.3 向量空間模型16-17
- 2.4 特征提取17-18
- 2.5 特征權(quán)重計(jì)算18-19
- 2.5.1 布爾權(quán)重18
- 2.5.2 詞頻權(quán)重18-19
- 2.5.3 逆文檔頻率權(quán)(InverseDocument Frequency , IDF)19
- 2.5.4 TF-IDF權(quán)重19
- 2.6 分類算法19-24
- 2.6.1 K-最近鄰算法20
- 2.6.2 決策樹算法20-21
- 2.6.3 樸素貝葉斯算法21-22
- 2.6.4 ROCCHIO算法22
- 2.6.5 支持向量機(jī)算法22-24
- 2.6.6 邏輯回歸算法24
- 2.7 分類性能評(píng)估24-27
- 2.7.1 評(píng)估方法24-25
- 2.7.2 評(píng)估指標(biāo)25-27
- 2.8 本章小結(jié)27-28
- 第3章 文本分類特征提取算法的分析及改進(jìn)28-39
- 3.1 特征提取的意義28
- 3.2 特征提取的一般步驟28
- 3.3 傳統(tǒng)的特征提取算法28-33
- 3.3.1 文檔頻率29
- 3.3.2 互信息29-30
- 3.3.3 統(tǒng)計(jì)30-31
- 3.3.4 信息增益31-33
- 3.4 信息增益算法的分析與改進(jìn)33-38
- 3.4.1 信息增益算法分析33-35
- 3.4.2 基于詞頻的 Γ 調(diào)節(jié)因子的信息增益算法的改進(jìn)35-36
- 3.4.3 基于特征詞的類別分布情況優(yōu)化增益評(píng)分36-37
- 3.4.4 針對(duì)非均衡文檔集評(píng)分排序優(yōu)化37-38
- 3.5 本章小結(jié)38-39
- 第4章 實(shí)驗(yàn)過程及結(jié)果分析39-51
- 4.1 實(shí)驗(yàn)環(huán)境39-41
- 4.1.1 語(yǔ)料庫(kù)39-40
- 4.1.2 實(shí)驗(yàn)工具40-41
- 4.2 實(shí)驗(yàn)?zāi)K41
- 4.3 實(shí)驗(yàn)步驟41-47
- 4.3.1 去停用詞41-43
- 4.3.2 數(shù)據(jù)結(jié)構(gòu)表示43
- 4.3.3 特征提取43-44
- 4.3.4 權(quán)值分配44-46
- 4.3.5 分類算法選擇46
- 4.3.6 性能評(píng)估方法選擇46-47
- 4.4 實(shí)驗(yàn)結(jié)果分析47-50
- 4.4.1 相同特征維度不同類別之間的實(shí)驗(yàn)結(jié)果47-49
- 4.4.2 不同特征維度F1加權(quán)結(jié)果49-50
- 4.5 本章小結(jié)50-51
- 第5章 總結(jié)與展望51-53
- 5.1 總結(jié)51-52
- 5.2 展望52-53
- 參考文獻(xiàn)53-56
- 致謝56
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 余成波;秦華鋒;;手指靜脈圖像特征提取算法的研究[J];計(jì)算機(jī)工程與應(yīng)用;2008年24期
2 周嬌;李端明;曹泰峰;;導(dǎo)彈圖像特征提取算法及系統(tǒng)架構(gòu)[J];兵工自動(dòng)化;2011年03期
3 毛建鑫;劉煒;侯秋華;孫紅彬;;一種改進(jìn)的水果特征提取算法[J];計(jì)算機(jī)工程與應(yīng)用;2013年06期
4 張向群;張旭;;基于二維判別局部排列的特征提取算法[J];計(jì)算機(jī)工程;2013年08期
5 王化U,
本文編號(hào):309432
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/309432.html
最近更新
教材專著