基于特征選擇及LDA模型的中文文本分類研究與實(shí)現(xiàn)

發(fā)布時(shí)間：2017-09-01 16:02

本文關(guān)鍵詞：基于特征選擇及LDA模型的中文文本分類研究與實(shí)現(xiàn)

更多相關(guān)文章： 文本分類 特征選擇 LDA模型 互信息 信息增益

【摘要】：當(dāng)前,科學(xué)技術(shù)突飛猛進(jìn),信息化進(jìn)程不斷加快,互聯(lián)網(wǎng)日益普及,人們也因此有了越多越多的傳播、獲取、共享信息的渠道。但是,與此同時(shí),人們也面臨著巨大的挑戰(zhàn)------“信息爆炸”。因此,人們急需找到一種方法,通過(guò)這種方法正確、方便地從海量信息中篩選真正對(duì)自己有用的信息。在這種情況下,文本分類應(yīng)運(yùn)而生。作為數(shù)據(jù)分析的一種重要形式,文本分類可對(duì)信息進(jìn)行高效地管理,如今已被廣泛應(yīng)用于搜索引擎、數(shù)字圖書館、電子政務(wù)、郵件過(guò)濾等多個(gè)領(lǐng)域。作為文本處理的有效手段,文本分類包含了預(yù)處理、特征選擇、文本表示、分類器選擇、分類器訓(xùn)練、分類器測(cè)試以及分類效果的評(píng)估等步驟。簡(jiǎn)單來(lái)說(shuō),文本分類的作用是為文本預(yù)測(cè)類別標(biāo)號(hào)。在文本分類的整個(gè)體系中,每一個(gè)環(huán)節(jié)都直接影響到最終的分類效果。預(yù)處理的作用是初步降維以減少冗余,這是為后面使用分類器所做的準(zhǔn)備之一；特征選擇能夠去除噪聲特征,同時(shí)也是文本降維的核心；文本表示能夠?qū)⒎歉袷交奈谋巨D(zhuǎn)換為格式化的數(shù)據(jù)形式,以便計(jì)算機(jī)能高效地對(duì)其識(shí)別、處理；分類器擔(dān)任判別類別標(biāo)號(hào)的角色,通過(guò)訓(xùn)練使分類器學(xué)習(xí)到某個(gè)分類函數(shù),這個(gè)分類函數(shù)能夠?qū)⑽谋居成涞侥硞€(gè)類別,之后,使用訓(xùn)練得到的分類器對(duì)測(cè)試集進(jìn)行預(yù)測(cè),以檢驗(yàn)分類器在新數(shù)據(jù)上的分類效果；分類效果評(píng)估則能夠?qū)φ麄€(gè)分類體系作出全面、客觀地評(píng)價(jià)。本文選取特征選擇、文本表示作為研究重點(diǎn),針對(duì)傳統(tǒng)特征選擇方法存在的不足,進(jìn)行多方面的改進(jìn),并提出將特征選擇方法和LDA模型相結(jié)合以彌補(bǔ)單獨(dú)使用LDA存在的缺陷,從而進(jìn)一步提高分類效果。首先,針對(duì)傳統(tǒng)互信息特征選擇方法忽視詞頻因素而存在的若干問(wèn)題,本文提出了相對(duì)詞頻率、分散度以及絕對(duì)值最大因子。通過(guò)這三者改進(jìn)傳統(tǒng)互信息方法,以彌補(bǔ)其不足。其次,針對(duì)傳統(tǒng)信息增益特征選擇方法應(yīng)用于不平衡數(shù)據(jù)集時(shí),分類效果顯著下降的情況,本文提出“最大詞頻率比”因子,得到一種改進(jìn)的信息增益方法,其在平衡、傾斜數(shù)據(jù)集上均能獲得較好的效果。最后,針對(duì)單獨(dú)使用LDA主題模型所存在的分類精度不高的問(wèn)題,本文提出將特征選擇方法與此主題模型相結(jié)合進(jìn)而進(jìn)行文本分類的方法。作為主題模型,LDA不僅能夠得到文本的主題概率表示,還能起到和特征選擇方法類似的降維效果。但是單獨(dú)使用LDA,分類精度并不高。因此,對(duì)于LDA,本文重點(diǎn)將其作為一種文本表示方法,在此之前,使用特征選擇方法對(duì)文本進(jìn)行處理,從而進(jìn)一步提高分類效果。以上即為本文的主要研究工作。實(shí)驗(yàn)結(jié)果表明：本文所提出的改進(jìn)的互信息特征選擇方法、改進(jìn)的信息增益特征選擇方法能夠彌補(bǔ)傳統(tǒng)方法存在的不足。而且,與單獨(dú)使用LDA相比,將改進(jìn)的特征選擇方法與LDA相結(jié)合能夠得到更好的文本分類效果。
【關(guān)鍵詞】：文本分類 特征選擇 LDA模型 互信息 信息增益
【學(xué)位授予單位】：安徽大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2014
【分類號(hào)】：TP391.1
【目錄】：

摘要3-5
Abstract5-7
目錄7-10
第一章緒論10-17
1.1 課題研究背景及意義10-12
1.2 文本分類研究現(xiàn)狀12-14
1.2.1 國(guó)外研究現(xiàn)狀12-13
1.2.2 國(guó)內(nèi)研究現(xiàn)狀13-14
1.3 論文的主要研究?jī)?nèi)容14-15
1.4 論文的組織15-17
第二章中文文本分類技術(shù)綜述17-46
2.1 文本分類流程概述17-18
2.2 預(yù)處理18-20
2.3 特征選擇20-24
2.3.1 詞頻20-21
2.3.2 信息21-22
2.3.3 信息增益22-23
2.3.4 CHI統(tǒng)計(jì)量23-24
2.3.5 期望交叉熵24
2.3.6 文本證據(jù)權(quán)24
2.4 文本表示24-34
2.4.1 向量空間模型25-26
2.4.2 概率模型26-27
2.4.3 主題模型27-34
2.4.3.1 PLSA27-31
2.4.3.1.1 LSI27-29
2.4.3.1.2 pLSA29-31
2.4.3.2 LDA31-34
2.4.3.2.1 LDA模型的訓(xùn)練33
2.4.3.2.2 LDA模型的推斷33-34
2.5 常用文本分類算法34-45
2.5.1 樸素貝葉斯分類34-36
2.5.2 Rocchio36
2.5.3 kNN36-37
2.5.4 決策樹37-38
2.5.5 支持向量機(jī)38-45
2.5.5.1 統(tǒng)計(jì)學(xué)習(xí)理論38-40
2.5.5.2 SVM基本思想40-44
2.5.5.3 支持向量機(jī)多分類問(wèn)題44-45
2.6 本章小結(jié)45-46
第三章改進(jìn)的特征選擇方法與LDA結(jié)合46-53
3.1 互信息特征選擇方法46-50
3.1.1 傳統(tǒng)互信息特征選擇方法的不足46-47
3.1.2 傳統(tǒng)互信息特征選擇方法的改進(jìn)47-50
3.2 信息增益特征選擇方法50-51
3.2.1 傳統(tǒng)信息增益特征選擇方法的不足50-51
3.2.2 傳統(tǒng)信息增益特征選擇方法的改進(jìn)51
3.3 改進(jìn)的特征選擇方法與LDA模型結(jié)合51-52
3.4 本章小結(jié)52-53
第四章實(shí)驗(yàn)與結(jié)果分析53-73
4.1 基于特征選擇及LDA的中文文本分類流程53
4.2 軟硬件環(huán)境53-54
4.3 實(shí)驗(yàn)語(yǔ)料庫(kù)和結(jié)果評(píng)估指標(biāo)54-55
4.3.1 實(shí)驗(yàn)語(yǔ)料庫(kù)54
4.3.2 實(shí)驗(yàn)結(jié)果評(píng)估指標(biāo)54-55
4.4 文本預(yù)處理55-57
4.5 特征選擇57-60
4.5.1 改進(jìn)的特征選擇核心代碼57-59
4.5.2 特征詞典大小的確定59-60
4.6 LDA建模60-64
4.6.1 LDA相關(guān)變量的初始化60-62
4.6.2 LDA模型62-64
4.7 SVM文本分類和結(jié)果分析64-72
4.7.1 輸入處理及參數(shù)尋優(yōu)64-66
4.7.2 實(shí)驗(yàn)結(jié)果及分析66-72
4.7.2.1 平衡語(yǔ)料集上實(shí)驗(yàn)結(jié)果及分析66-69
4.7.2.2 不平衡數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果與分析69-72
4.8 本章小結(jié)72-73
第五章總結(jié)與展望73-75
5.1 工作總結(jié)73-74
5.2 展望74-75
參考文獻(xiàn)75-80
致謝80

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 劉斌,曾立波,劉生浩;血液細(xì)胞圖像自動(dòng)識(shí)別系統(tǒng)的研究[J];計(jì)算機(jī)工程;2003年01期

2 任江濤;孫婧昊;黃煥宇;印鑒;;一種基于信息增益及遺傳算法的特征選擇算法[J];計(jì)算機(jī)科學(xué);2006年10期

3 張惠春;;基于最大熵模型的中文名詞短語(yǔ)識(shí)別[J];電腦知識(shí)與技術(shù);2009年08期

4 王衛(wèi)玲;孔波;初建崇;楊玫;;一種新的用于文本分類的特征選擇算法[J];信息技術(shù)與信息化;2009年06期

5 孫雷,王新;一種基于遺傳操作和類內(nèi)類間距離判據(jù)理論的特征選擇方法[J];計(jì)算機(jī)工程與應(yīng)用;2004年21期

6 張向榮,焦李成;基于免疫克隆選擇算法的特征選擇[J];復(fù)旦學(xué)報(bào)(自然科學(xué)版);2004年05期

7 閆相國(guó),明利強(qiáng);分支定界算法在白細(xì)胞特征選擇中的應(yīng)用研究[J];天津職業(yè)技術(shù)師范學(xué)院學(xué)報(bào);2004年03期

8 張莉,孫鋼,郭軍;基于K-均值聚類的無(wú)監(jiān)督的特征選擇方法[J];計(jì)算機(jī)應(yīng)用研究;2005年03期

9 張維東;朱宏明;周聞鈞;;特征選擇算法在故障檢測(cè)中的應(yīng)用研究[J];無(wú)線電通信技術(shù);2006年03期

10 徐峻嶺;徐寶文;張衛(wèi)豐;崔自峰;;一種啟發(fā)式聚類特征選擇方法(英文)[J];東南大學(xué)學(xué)報(bào)(英文版);2006年02期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 李娜;曾向陽(yáng);;目標(biāo)識(shí)別中的樣本選擇和特征選擇聯(lián)合算法研究[A];2009年西安-上海聲學(xué)學(xué)術(shù)會(huì)議論文集[C];2009年

2 張永;陳思睿;楊志勇;;一種改進(jìn)的文本分類方法的研究[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議（NCIRCS-2005）論文集[C];2005年

3 王強(qiáng);曾向陽(yáng);王曙光;李娜;;主元分析在水下目標(biāo)特征選擇中的應(yīng)用[A];中國(guó)聲學(xué)學(xué)會(huì)水聲學(xué)分會(huì)2011年全國(guó)水聲學(xué)學(xué)術(shù)會(huì)議論文集[C];2011年

4 高硯軍;徐華平;;基于窗口自適應(yīng)灰度共生矩陣的SAR圖像分類[A];第六屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集（1）[C];2008年

5 李曉麗;王彤;杜振龍;;基于粗糙集理論的流數(shù)據(jù)最優(yōu)特征選擇[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集（研究報(bào)告篇）[C];2005年

6 徐燕;孫春明;王斌;李錦濤;;基于詞條頻率的特征選擇算法研究[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

7 李愛(ài)新;孫鐵;郭炎峰;;基于人工神經(jīng)網(wǎng)絡(luò)的腦電信號(hào)模式分類[A];自動(dòng)化技術(shù)與冶金流程節(jié)能減排——全國(guó)冶金自動(dòng)化信息網(wǎng)2008年會(huì)論文集[C];2008年

8 靖紅芳;王斌;楊雅輝;;基于類別分布的特征選擇框架[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集（上）[C];2008年

9 周志紅;周新聰;嚴(yán)新平;袁成清;;磨粒特征參數(shù)的評(píng)價(jià)與優(yōu)化方法研究[A];2006全國(guó)摩擦學(xué)學(xué)術(shù)會(huì)議論文集（一）[C];2006年

10 李占潮;陳超;周喜斌;鄒小勇;;基于遺傳算法和支持向量機(jī)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)類[A];第九屆全國(guó)計(jì)算（機(jī)）化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2007年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

1 周曉娟;TD已過(guò)分水嶺[N];通信產(chǎn)業(yè)報(bào);2008年

2 天相投顧聞群邋王聃聃;選基金需考慮風(fēng)險(xiǎn)承受力[N];中國(guó)證券報(bào);2007年

3 孫志偉;劉剛檢查城防林建設(shè)[N];齊齊哈爾日?qǐng)?bào);2008年

4 鄭衛(wèi)東;高產(chǎn)鵝選種方法和標(biāo)準(zhǔn)[N];中國(guó)畜牧獸醫(yī)報(bào);2007年

5 海通證券婁靜邋吳先興;把握風(fēng)險(xiǎn)收益特征選擇最適合自己的基金[N];上海證券報(bào);2007年

6 張小東;促銷之十大常見誤區(qū)（一）[N];黑龍江經(jīng)濟(jì)報(bào);2006年

7 華泰證券吳t，

本文編號(hào)：773026

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/773026.html

上一篇：自媒體時(shí)代的隱私權(quán)保護(hù)——以人肉搜索為視角
下一篇：聊聊死鏈對(duì)網(wǎng)站的影響

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于特征選擇及LDA模型的中文文本分類研究與實(shí)現(xiàn)