基于特征選擇及LDA模型的中文文本分類研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于特征選擇及LDA模型的中文文本分類研究與實(shí)現(xiàn)
更多相關(guān)文章: 文本分類 特征選擇 LDA模型 互信息 信息增益
【摘要】:當(dāng)前,科學(xué)技術(shù)突飛猛進(jìn),信息化進(jìn)程不斷加快,互聯(lián)網(wǎng)日益普及,人們也因此有了越多越多的傳播、獲取、共享信息的渠道。但是,與此同時,人們也面臨著巨大的挑戰(zhàn)------“信息爆炸”。因此,人們急需找到一種方法,通過這種方法正確、方便地從海量信息中篩選真正對自己有用的信息。在這種情況下,文本分類應(yīng)運(yùn)而生。作為數(shù)據(jù)分析的一種重要形式,文本分類可對信息進(jìn)行高效地管理,如今已被廣泛應(yīng)用于搜索引擎、數(shù)字圖書館、電子政務(wù)、郵件過濾等多個領(lǐng)域。 作為文本處理的有效手段,文本分類包含了預(yù)處理、特征選擇、文本表示、分類器選擇、分類器訓(xùn)練、分類器測試以及分類效果的評估等步驟。簡單來說,文本分類的作用是為文本預(yù)測類別標(biāo)號。在文本分類的整個體系中,每一個環(huán)節(jié)都直接影響到最終的分類效果。預(yù)處理的作用是初步降維以減少冗余,這是為后面使用分類器所做的準(zhǔn)備之一;特征選擇能夠去除噪聲特征,同時也是文本降維的核心;文本表示能夠?qū)⒎歉袷交奈谋巨D(zhuǎn)換為格式化的數(shù)據(jù)形式,以便計算機(jī)能高效地對其識別、處理;分類器擔(dān)任判別類別標(biāo)號的角色,通過訓(xùn)練使分類器學(xué)習(xí)到某個分類函數(shù),這個分類函數(shù)能夠?qū)⑽谋居成涞侥硞類別,之后,使用訓(xùn)練得到的分類器對測試集進(jìn)行預(yù)測,以檢驗分類器在新數(shù)據(jù)上的分類效果;分類效果評估則能夠?qū)φ麄分類體系作出全面、客觀地評價。 本文選取特征選擇、文本表示作為研究重點(diǎn),針對傳統(tǒng)特征選擇方法存在的不足,進(jìn)行多方面的改進(jìn),并提出將特征選擇方法和LDA模型相結(jié)合以彌補(bǔ)單獨(dú)使用LDA存在的缺陷,從而進(jìn)一步提高分類效果。 首先,針對傳統(tǒng)互信息特征選擇方法忽視詞頻因素而存在的若干問題,本文提出了相對詞頻率、分散度以及絕對值最大因子。通過這三者改進(jìn)傳統(tǒng)互信息方法,以彌補(bǔ)其不足。 其次,針對傳統(tǒng)信息增益特征選擇方法應(yīng)用于不平衡數(shù)據(jù)集時,分類效果顯著下降的情況,本文提出“最大詞頻率比”因子,得到一種改進(jìn)的信息增益方法,其在平衡、傾斜數(shù)據(jù)集上均能獲得較好的效果。 最后,針對單獨(dú)使用LDA主題模型所存在的分類精度不高的問題,本文提出將特征選擇方法與此主題模型相結(jié)合進(jìn)而進(jìn)行文本分類的方法。作為主題模型,LDA不僅能夠得到文本的主題概率表示,還能起到和特征選擇方法類似的降維效果。但是單獨(dú)使用LDA,分類精度并不高。因此,對于LDA,本文重點(diǎn)將其作為一種文本表示方法,在此之前,使用特征選擇方法對文本進(jìn)行處理,從而進(jìn)一步提高分類效果。 以上即為本文的主要研究工作。實(shí)驗結(jié)果表明:本文所提出的改進(jìn)的互信息特征選擇方法、改進(jìn)的信息增益特征選擇方法能夠彌補(bǔ)傳統(tǒng)方法存在的不足。而且,與單獨(dú)使用LDA相比,將改進(jìn)的特征選擇方法與LDA相結(jié)合能夠得到更好的文本分類效果。
【關(guān)鍵詞】:文本分類 特征選擇 LDA模型 互信息 信息增益
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
- 摘要3-5
- Abstract5-7
- 目錄7-10
- 第一章 緒論10-17
- 1.1 課題研究背景及意義10-12
- 1.2 文本分類研究現(xiàn)狀12-14
- 1.2.1 國外研究現(xiàn)狀12-13
- 1.2.2 國內(nèi)研究現(xiàn)狀13-14
- 1.3 論文的主要研究內(nèi)容14-15
- 1.4 論文的組織15-17
- 第二章 中文文本分類技術(shù)綜述17-46
- 2.1 文本分類流程概述17-18
- 2.2 預(yù)處理18-20
- 2.3 特征選擇20-24
- 2.3.1 詞頻20-21
- 2.3.2 信息21-22
- 2.3.3 信息增益22-23
- 2.3.4 CHI統(tǒng)計量23-24
- 2.3.5 期望交叉熵24
- 2.3.6 文本證據(jù)權(quán)24
- 2.4 文本表示24-34
- 2.4.1 向量空間模型25-26
- 2.4.2 概率模型26-27
- 2.4.3 主題模型27-34
- 2.4.3.1 PLSA27-31
- 2.4.3.1.1 LSI27-29
- 2.4.3.1.2 pLSA29-31
- 2.4.3.2 LDA31-34
- 2.4.3.2.1 LDA模型的訓(xùn)練33
- 2.4.3.2.2 LDA模型的推斷33-34
- 2.5 常用文本分類算法34-45
- 2.5.1 樸素貝葉斯分類34-36
- 2.5.2 Rocchio36
- 2.5.3 kNN36-37
- 2.5.4 決策樹37-38
- 2.5.5 支持向量機(jī)38-45
- 2.5.5.1 統(tǒng)計學(xué)習(xí)理論38-40
- 2.5.5.2 SVM基本思想40-44
- 2.5.5.3 支持向量機(jī)多分類問題44-45
- 2.6 本章小結(jié)45-46
- 第三章 改進(jìn)的特征選擇方法與LDA結(jié)合46-53
- 3.1 互信息特征選擇方法46-50
- 3.1.1 傳統(tǒng)互信息特征選擇方法的不足46-47
- 3.1.2 傳統(tǒng)互信息特征選擇方法的改進(jìn)47-50
- 3.2 信息增益特征選擇方法50-51
- 3.2.1 傳統(tǒng)信息增益特征選擇方法的不足50-51
- 3.2.2 傳統(tǒng)信息增益特征選擇方法的改進(jìn)51
- 3.3 改進(jìn)的特征選擇方法與LDA模型結(jié)合51-52
- 3.4 本章小結(jié)52-53
- 第四章 實(shí)驗與結(jié)果分析53-73
- 4.1 基于特征選擇及LDA的中文文本分類流程53
- 4.2 軟硬件環(huán)境53-54
- 4.3 實(shí)驗語料庫和結(jié)果評估指標(biāo)54-55
- 4.3.1 實(shí)驗語料庫54
- 4.3.2 實(shí)驗結(jié)果評估指標(biāo)54-55
- 4.4 文本預(yù)處理55-57
- 4.5 特征選擇57-60
- 4.5.1 改進(jìn)的特征選擇核心代碼57-59
- 4.5.2 特征詞典大小的確定59-60
- 4.6 LDA建模60-64
- 4.6.1 LDA相關(guān)變量的初始化60-62
- 4.6.2 LDA模型62-64
- 4.7 SVM文本分類和結(jié)果分析64-72
- 4.7.1 輸入處理及參數(shù)尋優(yōu)64-66
- 4.7.2 實(shí)驗結(jié)果及分析66-72
- 4.7.2.1 平衡語料集上實(shí)驗結(jié)果及分析66-69
- 4.7.2.2 不平衡數(shù)據(jù)集上實(shí)驗結(jié)果與分析69-72
- 4.8 本章小結(jié)72-73
- 第五章 總結(jié)與展望73-75
- 5.1 工作總結(jié)73-74
- 5.2 展望74-75
- 參考文獻(xiàn)75-80
- 致謝80
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉斌,曾立波,劉生浩;血液細(xì)胞圖像自動識別系統(tǒng)的研究[J];計算機(jī)工程;2003年01期
2 任江濤;孫婧昊;黃煥宇;印鑒;;一種基于信息增益及遺傳算法的特征選擇算法[J];計算機(jī)科學(xué);2006年10期
3 張惠春;;基于最大熵模型的中文名詞短語識別[J];電腦知識與技術(shù);2009年08期
4 王衛(wèi)玲;孔波;初建崇;楊玫;;一種新的用于文本分類的特征選擇算法[J];信息技術(shù)與信息化;2009年06期
5 孫雷,王新;一種基于遺傳操作和類內(nèi)類間距離判據(jù)理論的特征選擇方法[J];計算機(jī)工程與應(yīng)用;2004年21期
6 張向榮,焦李成;基于免疫克隆選擇算法的特征選擇[J];復(fù)旦學(xué)報(自然科學(xué)版);2004年05期
7 閆相國,明利強(qiáng);分支定界算法在白細(xì)胞特征選擇中的應(yīng)用研究[J];天津職業(yè)技術(shù)師范學(xué)院學(xué)報;2004年03期
8 張莉,孫鋼,郭軍;基于K-均值聚類的無監(jiān)督的特征選擇方法[J];計算機(jī)應(yīng)用研究;2005年03期
9 張維東;朱宏明;周聞鈞;;特征選擇算法在故障檢測中的應(yīng)用研究[J];無線電通信技術(shù);2006年03期
10 徐峻嶺;徐寶文;張衛(wèi)豐;崔自峰;;一種啟發(fā)式聚類特征選擇方法(英文)[J];東南大學(xué)學(xué)報(英文版);2006年02期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 李娜;曾向陽;;目標(biāo)識別中的樣本選擇和特征選擇聯(lián)合算法研究[A];2009年西安-上海聲學(xué)學(xué)術(shù)會議論文集[C];2009年
2 張永;陳思睿;楊志勇;;一種改進(jìn)的文本分類方法的研究[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
3 王強(qiáng);曾向陽;王曙光;李娜;;主元分析在水下目標(biāo)特征選擇中的應(yīng)用[A];中國聲學(xué)學(xué)會水聲學(xué)分會2011年全國水聲學(xué)學(xué)術(shù)會議論文集[C];2011年
4 高硯軍;徐華平;;基于窗口自適應(yīng)灰度共生矩陣的SAR圖像分類[A];第六屆全國信息獲取與處理學(xué)術(shù)會議論文集(1)[C];2008年
5 李曉麗;王彤;杜振龍;;基于粗糙集理論的流數(shù)據(jù)最優(yōu)特征選擇[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2005年
6 徐燕;孫春明;王斌;李錦濤;;基于詞條頻率的特征選擇算法研究[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
7 李愛新;孫鐵;郭炎峰;;基于人工神經(jīng)網(wǎng)絡(luò)的腦電信號模式分類[A];自動化技術(shù)與冶金流程節(jié)能減排——全國冶金自動化信息網(wǎng)2008年會論文集[C];2008年
8 靖紅芳;王斌;楊雅輝;;基于類別分布的特征選擇框架[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
9 周志紅;周新聰;嚴(yán)新平;袁成清;;磨粒特征參數(shù)的評價與優(yōu)化方法研究[A];2006全國摩擦學(xué)學(xué)術(shù)會議論文集(一)[C];2006年
10 李占潮;陳超;周喜斌;鄒小勇;;基于遺傳算法和支持向量機(jī)預(yù)測蛋白質(zhì)結(jié)構(gòu)類[A];第九屆全國計算(機(jī))化學(xué)學(xué)術(shù)會議論文摘要集[C];2007年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 周曉娟;TD已過分水嶺[N];通信產(chǎn)業(yè)報;2008年
2 天相投顧 聞群邋王聃聃;選基金需考慮風(fēng)險承受力[N];中國證券報;2007年
3 孫志偉;劉剛檢查城防林建設(shè)[N];齊齊哈爾日報;2008年
4 鄭衛(wèi)東;高產(chǎn)鵝選種方法和標(biāo)準(zhǔn)[N];中國畜牧獸醫(yī)報;2007年
5 海通證券 婁靜邋吳先興;把握風(fēng)險收益特征選擇最適合自己的基金[N];上海證券報;2007年
6 張小東;促銷之十大常見誤區(qū)(一)[N];黑龍江經(jīng)濟(jì)報;2006年
7 華泰證券 吳t,
本文編號:773026
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/773026.html