基于特征選擇及LDA模型的中文文本分類研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于特征選擇及LDA模型的中文文本分類研究與實(shí)現(xiàn)
更多相關(guān)文章: 文本分類 特征選擇 LDA模型 互信息 信息增益
【摘要】:當(dāng)前,科學(xué)技術(shù)突飛猛進(jìn),信息化進(jìn)程不斷加快,互聯(lián)網(wǎng)日益普及,人們也因此有了越多越多的傳播、獲取、共享信息的渠道。但是,與此同時(shí),人們也面臨著巨大的挑戰(zhàn)------“信息爆炸”。因此,人們急需找到一種方法,通過(guò)這種方法正確、方便地從海量信息中篩選真正對(duì)自己有用的信息。在這種情況下,文本分類應(yīng)運(yùn)而生。作為數(shù)據(jù)分析的一種重要形式,文本分類可對(duì)信息進(jìn)行高效地管理,如今已被廣泛應(yīng)用于搜索引擎、數(shù)字圖書館、電子政務(wù)、郵件過(guò)濾等多個(gè)領(lǐng)域。 作為文本處理的有效手段,文本分類包含了預(yù)處理、特征選擇、文本表示、分類器選擇、分類器訓(xùn)練、分類器測(cè)試以及分類效果的評(píng)估等步驟。簡(jiǎn)單來(lái)說(shuō),文本分類的作用是為文本預(yù)測(cè)類別標(biāo)號(hào)。在文本分類的整個(gè)體系中,每一個(gè)環(huán)節(jié)都直接影響到最終的分類效果。預(yù)處理的作用是初步降維以減少冗余,這是為后面使用分類器所做的準(zhǔn)備之一;特征選擇能夠去除噪聲特征,同時(shí)也是文本降維的核心;文本表示能夠?qū)⒎歉袷交奈谋巨D(zhuǎn)換為格式化的數(shù)據(jù)形式,以便計(jì)算機(jī)能高效地對(duì)其識(shí)別、處理;分類器擔(dān)任判別類別標(biāo)號(hào)的角色,通過(guò)訓(xùn)練使分類器學(xué)習(xí)到某個(gè)分類函數(shù),這個(gè)分類函數(shù)能夠?qū)⑽谋居成涞侥硞(gè)類別,之后,使用訓(xùn)練得到的分類器對(duì)測(cè)試集進(jìn)行預(yù)測(cè),以檢驗(yàn)分類器在新數(shù)據(jù)上的分類效果;分類效果評(píng)估則能夠?qū)φ麄(gè)分類體系作出全面、客觀地評(píng)價(jià)。 本文選取特征選擇、文本表示作為研究重點(diǎn),針對(duì)傳統(tǒng)特征選擇方法存在的不足,進(jìn)行多方面的改進(jìn),并提出將特征選擇方法和LDA模型相結(jié)合以彌補(bǔ)單獨(dú)使用LDA存在的缺陷,從而進(jìn)一步提高分類效果。 首先,針對(duì)傳統(tǒng)互信息特征選擇方法忽視詞頻因素而存在的若干問(wèn)題,本文提出了相對(duì)詞頻率、分散度以及絕對(duì)值最大因子。通過(guò)這三者改進(jìn)傳統(tǒng)互信息方法,以彌補(bǔ)其不足。 其次,針對(duì)傳統(tǒng)信息增益特征選擇方法應(yīng)用于不平衡數(shù)據(jù)集時(shí),分類效果顯著下降的情況,本文提出“最大詞頻率比”因子,得到一種改進(jìn)的信息增益方法,其在平衡、傾斜數(shù)據(jù)集上均能獲得較好的效果。 最后,針對(duì)單獨(dú)使用LDA主題模型所存在的分類精度不高的問(wèn)題,本文提出將特征選擇方法與此主題模型相結(jié)合進(jìn)而進(jìn)行文本分類的方法。作為主題模型,LDA不僅能夠得到文本的主題概率表示,還能起到和特征選擇方法類似的降維效果。但是單獨(dú)使用LDA,分類精度并不高。因此,對(duì)于LDA,本文重點(diǎn)將其作為一種文本表示方法,在此之前,使用特征選擇方法對(duì)文本進(jìn)行處理,從而進(jìn)一步提高分類效果。 以上即為本文的主要研究工作。實(shí)驗(yàn)結(jié)果表明:本文所提出的改進(jìn)的互信息特征選擇方法、改進(jìn)的信息增益特征選擇方法能夠彌補(bǔ)傳統(tǒng)方法存在的不足。而且,與單獨(dú)使用LDA相比,將改進(jìn)的特征選擇方法與LDA相結(jié)合能夠得到更好的文本分類效果。
【關(guān)鍵詞】:文本分類 特征選擇 LDA模型 互信息 信息增益
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1
【目錄】:
- 摘要3-5
- Abstract5-7
- 目錄7-10
- 第一章 緒論10-17
- 1.1 課題研究背景及意義10-12
- 1.2 文本分類研究現(xiàn)狀12-14
- 1.2.1 國(guó)外研究現(xiàn)狀12-13
- 1.2.2 國(guó)內(nèi)研究現(xiàn)狀13-14
- 1.3 論文的主要研究?jī)?nèi)容14-15
- 1.4 論文的組織15-17
- 第二章 中文文本分類技術(shù)綜述17-46
- 2.1 文本分類流程概述17-18
- 2.2 預(yù)處理18-20
- 2.3 特征選擇20-24
- 2.3.1 詞頻20-21
- 2.3.2 信息21-22
- 2.3.3 信息增益22-23
- 2.3.4 CHI統(tǒng)計(jì)量23-24
- 2.3.5 期望交叉熵24
- 2.3.6 文本證據(jù)權(quán)24
- 2.4 文本表示24-34
- 2.4.1 向量空間模型25-26
- 2.4.2 概率模型26-27
- 2.4.3 主題模型27-34
- 2.4.3.1 PLSA27-31
- 2.4.3.1.1 LSI27-29
- 2.4.3.1.2 pLSA29-31
- 2.4.3.2 LDA31-34
- 2.4.3.2.1 LDA模型的訓(xùn)練33
- 2.4.3.2.2 LDA模型的推斷33-34
- 2.5 常用文本分類算法34-45
- 2.5.1 樸素貝葉斯分類34-36
- 2.5.2 Rocchio36
- 2.5.3 kNN36-37
- 2.5.4 決策樹37-38
- 2.5.5 支持向量機(jī)38-45
- 2.5.5.1 統(tǒng)計(jì)學(xué)習(xí)理論38-40
- 2.5.5.2 SVM基本思想40-44
- 2.5.5.3 支持向量機(jī)多分類問(wèn)題44-45
- 2.6 本章小結(jié)45-46
- 第三章 改進(jìn)的特征選擇方法與LDA結(jié)合46-53
- 3.1 互信息特征選擇方法46-50
- 3.1.1 傳統(tǒng)互信息特征選擇方法的不足46-47
- 3.1.2 傳統(tǒng)互信息特征選擇方法的改進(jìn)47-50
- 3.2 信息增益特征選擇方法50-51
- 3.2.1 傳統(tǒng)信息增益特征選擇方法的不足50-51
- 3.2.2 傳統(tǒng)信息增益特征選擇方法的改進(jìn)51
- 3.3 改進(jìn)的特征選擇方法與LDA模型結(jié)合51-52
- 3.4 本章小結(jié)52-53
- 第四章 實(shí)驗(yàn)與結(jié)果分析53-73
- 4.1 基于特征選擇及LDA的中文文本分類流程53
- 4.2 軟硬件環(huán)境53-54
- 4.3 實(shí)驗(yàn)語(yǔ)料庫(kù)和結(jié)果評(píng)估指標(biāo)54-55
- 4.3.1 實(shí)驗(yàn)語(yǔ)料庫(kù)54
- 4.3.2 實(shí)驗(yàn)結(jié)果評(píng)估指標(biāo)54-55
- 4.4 文本預(yù)處理55-57
- 4.5 特征選擇57-60
- 4.5.1 改進(jìn)的特征選擇核心代碼57-59
- 4.5.2 特征詞典大小的確定59-60
- 4.6 LDA建模60-64
- 4.6.1 LDA相關(guān)變量的初始化60-62
- 4.6.2 LDA模型62-64
- 4.7 SVM文本分類和結(jié)果分析64-72
- 4.7.1 輸入處理及參數(shù)尋優(yōu)64-66
- 4.7.2 實(shí)驗(yàn)結(jié)果及分析66-72
- 4.7.2.1 平衡語(yǔ)料集上實(shí)驗(yàn)結(jié)果及分析66-69
- 4.7.2.2 不平衡數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果與分析69-72
- 4.8 本章小結(jié)72-73
- 第五章 總結(jié)與展望73-75
- 5.1 工作總結(jié)73-74
- 5.2 展望74-75
- 參考文獻(xiàn)75-80
- 致謝80
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 劉斌,曾立波,劉生浩;血液細(xì)胞圖像自動(dòng)識(shí)別系統(tǒng)的研究[J];計(jì)算機(jī)工程;2003年01期
2 任江濤;孫婧昊;黃煥宇;印鑒;;一種基于信息增益及遺傳算法的特征選擇算法[J];計(jì)算機(jī)科學(xué);2006年10期
3 張惠春;;基于最大熵模型的中文名詞短語(yǔ)識(shí)別[J];電腦知識(shí)與技術(shù);2009年08期
4 王衛(wèi)玲;孔波;初建崇;楊玫;;一種新的用于文本分類的特征選擇算法[J];信息技術(shù)與信息化;2009年06期
5 孫雷,王新;一種基于遺傳操作和類內(nèi)類間距離判據(jù)理論的特征選擇方法[J];計(jì)算機(jī)工程與應(yīng)用;2004年21期
6 張向榮,焦李成;基于免疫克隆選擇算法的特征選擇[J];復(fù)旦學(xué)報(bào)(自然科學(xué)版);2004年05期
7 閆相國(guó),明利強(qiáng);分支定界算法在白細(xì)胞特征選擇中的應(yīng)用研究[J];天津職業(yè)技術(shù)師范學(xué)院學(xué)報(bào);2004年03期
8 張莉,孫鋼,郭軍;基于K-均值聚類的無(wú)監(jiān)督的特征選擇方法[J];計(jì)算機(jī)應(yīng)用研究;2005年03期
9 張維東;朱宏明;周聞鈞;;特征選擇算法在故障檢測(cè)中的應(yīng)用研究[J];無(wú)線電通信技術(shù);2006年03期
10 徐峻嶺;徐寶文;張衛(wèi)豐;崔自峰;;一種啟發(fā)式聚類特征選擇方法(英文)[J];東南大學(xué)學(xué)報(bào)(英文版);2006年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 李娜;曾向陽(yáng);;目標(biāo)識(shí)別中的樣本選擇和特征選擇聯(lián)合算法研究[A];2009年西安-上海聲學(xué)學(xué)術(shù)會(huì)議論文集[C];2009年
2 張永;陳思睿;楊志勇;;一種改進(jìn)的文本分類方法的研究[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
3 王強(qiáng);曾向陽(yáng);王曙光;李娜;;主元分析在水下目標(biāo)特征選擇中的應(yīng)用[A];中國(guó)聲學(xué)學(xué)會(huì)水聲學(xué)分會(huì)2011年全國(guó)水聲學(xué)學(xué)術(shù)會(huì)議論文集[C];2011年
4 高硯軍;徐華平;;基于窗口自適應(yīng)灰度共生矩陣的SAR圖像分類[A];第六屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集(1)[C];2008年
5 李曉麗;王彤;杜振龍;;基于粗糙集理論的流數(shù)據(jù)最優(yōu)特征選擇[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年
6 徐燕;孫春明;王斌;李錦濤;;基于詞條頻率的特征選擇算法研究[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
7 李愛(ài)新;孫鐵;郭炎峰;;基于人工神經(jīng)網(wǎng)絡(luò)的腦電信號(hào)模式分類[A];自動(dòng)化技術(shù)與冶金流程節(jié)能減排——全國(guó)冶金自動(dòng)化信息網(wǎng)2008年會(huì)論文集[C];2008年
8 靖紅芳;王斌;楊雅輝;;基于類別分布的特征選擇框架[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
9 周志紅;周新聰;嚴(yán)新平;袁成清;;磨粒特征參數(shù)的評(píng)價(jià)與優(yōu)化方法研究[A];2006全國(guó)摩擦學(xué)學(xué)術(shù)會(huì)議論文集(一)[C];2006年
10 李占潮;陳超;周喜斌;鄒小勇;;基于遺傳算法和支持向量機(jī)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)類[A];第九屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2007年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 周曉娟;TD已過(guò)分水嶺[N];通信產(chǎn)業(yè)報(bào);2008年
2 天相投顧 聞群邋王聃聃;選基金需考慮風(fēng)險(xiǎn)承受力[N];中國(guó)證券報(bào);2007年
3 孫志偉;劉剛檢查城防林建設(shè)[N];齊齊哈爾日?qǐng)?bào);2008年
4 鄭衛(wèi)東;高產(chǎn)鵝選種方法和標(biāo)準(zhǔn)[N];中國(guó)畜牧獸醫(yī)報(bào);2007年
5 海通證券 婁靜邋吳先興;把握風(fēng)險(xiǎn)收益特征選擇最適合自己的基金[N];上海證券報(bào);2007年
6 張小東;促銷之十大常見誤區(qū)(一)[N];黑龍江經(jīng)濟(jì)報(bào);2006年
7 華泰證券 吳t,
本文編號(hào):773026
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/773026.html