天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

文本分類特征提取算法的研究

發(fā)布時(shí)間:2017-04-15 23:00

  本文關(guān)鍵詞:文本分類特征提取算法的研究,由筆耕文化傳播整理發(fā)布。


【摘要】:文本分類是一種分析與使用海量文本數(shù)據(jù)信息的有效手段。其技術(shù)難點(diǎn)之一是處理特征向量空間的高維性,這種高維性使得文本分類變得十分低效,因此特征降維成為文本分類工作首先需要解決的問題。作為特征向量空間降維常用的技術(shù),特征提取方法的性能高低直接影響到文本分類的效果。許多研究表明,信息增益是一種性能相對(duì)較好的特征提取方法。然而,信息增益算法在文本分類的問題上仍有其局限和優(yōu)化空間,本文從以下三個(gè)方面對(duì)其進(jìn)行了改進(jìn):(1)為了平衡每個(gè)特征詞在信息增益公式中出現(xiàn)與否對(duì)信息增益評(píng)分的影響能力,借鑒sigmoid的函數(shù)思想,提出了基于詞頻的γ調(diào)節(jié)因子的信息增益改進(jìn)算法。(2)為了體現(xiàn)特征詞在各個(gè)類別分布均勻程度與區(qū)分能力的關(guān)聯(lián),確保在各個(gè)類別之間分布不均勻的特征詞具有較強(qiáng)的區(qū)分能力,著眼于特征詞在類別分布情況,對(duì)信息增益的評(píng)分結(jié)果進(jìn)行進(jìn)一步優(yōu)化。(3)考慮到現(xiàn)實(shí)文本集中非均衡文本大量存在,倘若算法沒有顧及各類別包含的文檔數(shù)大小,則會(huì)使其優(yōu)先選擇趨向大類的特征詞,而忽視小類的特征詞。為此,本文借鑒了統(tǒng)計(jì)學(xué)中卡方檢驗(yàn)的思想,針對(duì)非均衡文檔類別評(píng)分排序優(yōu)化的方法,使得在特征維度較小的情況下,仍能保持不錯(cuò)的性能。對(duì)比實(shí)驗(yàn)結(jié)果表明:本文的改進(jìn)算法所得到的文本分類結(jié)果,在各個(gè)類別上的準(zhǔn)確率、召回率以及F1值都取得較理想的性能提升,從而驗(yàn)證了本文所提出的信息增益改進(jìn)算法的可行性與有效性。
【關(guān)鍵詞】:文本分類 特征提取 信息增益 調(diào)節(jié)因子 卡方檢驗(yàn)
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要4-5
  • Abstract5-8
  • 第1章 緒論8-11
  • 1.1 研究背景及意義8-9
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-10
  • 1.3 本文的組織結(jié)構(gòu)10-11
  • 第2章 文本分類相關(guān)技術(shù)11-28
  • 2.1 文本分類概述11-13
  • 2.1.1 文本分類定義11
  • 2.1.2 文本分類問題與其他分類問題的比較11-12
  • 2.1.3 文本分類流程12-13
  • 2.2 文本預(yù)處理13-15
  • 2.2.1 去除格式標(biāo)記13-14
  • 2.2.2 中文分詞14-15
  • 2.2.3 去停用詞15
  • 2.3 文本表示模型15-17
  • 2.3.1 布爾模型15-16
  • 2.3.2 概率模型16
  • 2.3.3 向量空間模型16-17
  • 2.4 特征提取17-18
  • 2.5 特征權(quán)重計(jì)算18-19
  • 2.5.1 布爾權(quán)重18
  • 2.5.2 詞頻權(quán)重18-19
  • 2.5.3 逆文檔頻率權(quán)(InverseDocument Frequency , IDF)19
  • 2.5.4 TF-IDF權(quán)重19
  • 2.6 分類算法19-24
  • 2.6.1 K-最近鄰算法20
  • 2.6.2 決策樹算法20-21
  • 2.6.3 樸素貝葉斯算法21-22
  • 2.6.4 ROCCHIO算法22
  • 2.6.5 支持向量機(jī)算法22-24
  • 2.6.6 邏輯回歸算法24
  • 2.7 分類性能評(píng)估24-27
  • 2.7.1 評(píng)估方法24-25
  • 2.7.2 評(píng)估指標(biāo)25-27
  • 2.8 本章小結(jié)27-28
  • 第3章 文本分類特征提取算法的分析及改進(jìn)28-39
  • 3.1 特征提取的意義28
  • 3.2 特征提取的一般步驟28
  • 3.3 傳統(tǒng)的特征提取算法28-33
  • 3.3.1 文檔頻率29
  • 3.3.2 互信息29-30
  • 3.3.3 統(tǒng)計(jì)30-31
  • 3.3.4 信息增益31-33
  • 3.4 信息增益算法的分析與改進(jìn)33-38
  • 3.4.1 信息增益算法分析33-35
  • 3.4.2 基于詞頻的 Γ 調(diào)節(jié)因子的信息增益算法的改進(jìn)35-36
  • 3.4.3 基于特征詞的類別分布情況優(yōu)化增益評(píng)分36-37
  • 3.4.4 針對(duì)非均衡文檔集評(píng)分排序優(yōu)化37-38
  • 3.5 本章小結(jié)38-39
  • 第4章 實(shí)驗(yàn)過程及結(jié)果分析39-51
  • 4.1 實(shí)驗(yàn)環(huán)境39-41
  • 4.1.1 語(yǔ)料庫(kù)39-40
  • 4.1.2 實(shí)驗(yàn)工具40-41
  • 4.2 實(shí)驗(yàn)?zāi)K41
  • 4.3 實(shí)驗(yàn)步驟41-47
  • 4.3.1 去停用詞41-43
  • 4.3.2 數(shù)據(jù)結(jié)構(gòu)表示43
  • 4.3.3 特征提取43-44
  • 4.3.4 權(quán)值分配44-46
  • 4.3.5 分類算法選擇46
  • 4.3.6 性能評(píng)估方法選擇46-47
  • 4.4 實(shí)驗(yàn)結(jié)果分析47-50
  • 4.4.1 相同特征維度不同類別之間的實(shí)驗(yàn)結(jié)果47-49
  • 4.4.2 不同特征維度F1加權(quán)結(jié)果49-50
  • 4.5 本章小結(jié)50-51
  • 第5章 總結(jié)與展望51-53
  • 5.1 總結(jié)51-52
  • 5.2 展望52-53
  • 參考文獻(xiàn)53-56
  • 致謝56

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 余成波;秦華鋒;;手指靜脈圖像特征提取算法的研究[J];計(jì)算機(jī)工程與應(yīng)用;2008年24期

2 周嬌;李端明;曹泰峰;;導(dǎo)彈圖像特征提取算法及系統(tǒng)架構(gòu)[J];兵工自動(dòng)化;2011年03期

3 毛建鑫;劉煒;侯秋華;孫紅彬;;一種改進(jìn)的水果特征提取算法[J];計(jì)算機(jī)工程與應(yīng)用;2013年06期

4 張向群;張旭;;基于二維判別局部排列的特征提取算法[J];計(jì)算機(jī)工程;2013年08期

5 王化U,

本文編號(hào):309432


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/309432.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4364c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com