天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于特征選擇及LDA模型的中文文本分類研究與實(shí)現(xiàn)

發(fā)布時間:2017-09-01 16:02

  本文關(guān)鍵詞:基于特征選擇及LDA模型的中文文本分類研究與實(shí)現(xiàn)


  更多相關(guān)文章: 文本分類 特征選擇 LDA模型 互信息 信息增益


【摘要】:當(dāng)前,科學(xué)技術(shù)突飛猛進(jìn),信息化進(jìn)程不斷加快,互聯(lián)網(wǎng)日益普及,人們也因此有了越多越多的傳播、獲取、共享信息的渠道。但是,與此同時,人們也面臨著巨大的挑戰(zhàn)------“信息爆炸”。因此,人們急需找到一種方法,通過這種方法正確、方便地從海量信息中篩選真正對自己有用的信息。在這種情況下,文本分類應(yīng)運(yùn)而生。作為數(shù)據(jù)分析的一種重要形式,文本分類可對信息進(jìn)行高效地管理,如今已被廣泛應(yīng)用于搜索引擎、數(shù)字圖書館、電子政務(wù)、郵件過濾等多個領(lǐng)域。 作為文本處理的有效手段,文本分類包含了預(yù)處理、特征選擇、文本表示、分類器選擇、分類器訓(xùn)練、分類器測試以及分類效果的評估等步驟。簡單來說,文本分類的作用是為文本預(yù)測類別標(biāo)號。在文本分類的整個體系中,每一個環(huán)節(jié)都直接影響到最終的分類效果。預(yù)處理的作用是初步降維以減少冗余,這是為后面使用分類器所做的準(zhǔn)備之一;特征選擇能夠去除噪聲特征,同時也是文本降維的核心;文本表示能夠?qū)⒎歉袷交奈谋巨D(zhuǎn)換為格式化的數(shù)據(jù)形式,以便計算機(jī)能高效地對其識別、處理;分類器擔(dān)任判別類別標(biāo)號的角色,通過訓(xùn)練使分類器學(xué)習(xí)到某個分類函數(shù),這個分類函數(shù)能夠?qū)⑽谋居成涞侥硞類別,之后,使用訓(xùn)練得到的分類器對測試集進(jìn)行預(yù)測,以檢驗分類器在新數(shù)據(jù)上的分類效果;分類效果評估則能夠?qū)φ麄分類體系作出全面、客觀地評價。 本文選取特征選擇、文本表示作為研究重點(diǎn),針對傳統(tǒng)特征選擇方法存在的不足,進(jìn)行多方面的改進(jìn),并提出將特征選擇方法和LDA模型相結(jié)合以彌補(bǔ)單獨(dú)使用LDA存在的缺陷,從而進(jìn)一步提高分類效果。 首先,針對傳統(tǒng)互信息特征選擇方法忽視詞頻因素而存在的若干問題,本文提出了相對詞頻率、分散度以及絕對值最大因子。通過這三者改進(jìn)傳統(tǒng)互信息方法,以彌補(bǔ)其不足。 其次,針對傳統(tǒng)信息增益特征選擇方法應(yīng)用于不平衡數(shù)據(jù)集時,分類效果顯著下降的情況,本文提出“最大詞頻率比”因子,得到一種改進(jìn)的信息增益方法,其在平衡、傾斜數(shù)據(jù)集上均能獲得較好的效果。 最后,針對單獨(dú)使用LDA主題模型所存在的分類精度不高的問題,本文提出將特征選擇方法與此主題模型相結(jié)合進(jìn)而進(jìn)行文本分類的方法。作為主題模型,LDA不僅能夠得到文本的主題概率表示,還能起到和特征選擇方法類似的降維效果。但是單獨(dú)使用LDA,分類精度并不高。因此,對于LDA,本文重點(diǎn)將其作為一種文本表示方法,在此之前,使用特征選擇方法對文本進(jìn)行處理,從而進(jìn)一步提高分類效果。 以上即為本文的主要研究工作。實(shí)驗結(jié)果表明:本文所提出的改進(jìn)的互信息特征選擇方法、改進(jìn)的信息增益特征選擇方法能夠彌補(bǔ)傳統(tǒng)方法存在的不足。而且,與單獨(dú)使用LDA相比,將改進(jìn)的特征選擇方法與LDA相結(jié)合能夠得到更好的文本分類效果。
【關(guān)鍵詞】:文本分類 特征選擇 LDA模型 互信息 信息增益
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
  • 摘要3-5
  • Abstract5-7
  • 目錄7-10
  • 第一章 緒論10-17
  • 1.1 課題研究背景及意義10-12
  • 1.2 文本分類研究現(xiàn)狀12-14
  • 1.2.1 國外研究現(xiàn)狀12-13
  • 1.2.2 國內(nèi)研究現(xiàn)狀13-14
  • 1.3 論文的主要研究內(nèi)容14-15
  • 1.4 論文的組織15-17
  • 第二章 中文文本分類技術(shù)綜述17-46
  • 2.1 文本分類流程概述17-18
  • 2.2 預(yù)處理18-20
  • 2.3 特征選擇20-24
  • 2.3.1 詞頻20-21
  • 2.3.2 信息21-22
  • 2.3.3 信息增益22-23
  • 2.3.4 CHI統(tǒng)計量23-24
  • 2.3.5 期望交叉熵24
  • 2.3.6 文本證據(jù)權(quán)24
  • 2.4 文本表示24-34
  • 2.4.1 向量空間模型25-26
  • 2.4.2 概率模型26-27
  • 2.4.3 主題模型27-34
  • 2.4.3.1 PLSA27-31
  • 2.4.3.1.1 LSI27-29
  • 2.4.3.1.2 pLSA29-31
  • 2.4.3.2 LDA31-34
  • 2.4.3.2.1 LDA模型的訓(xùn)練33
  • 2.4.3.2.2 LDA模型的推斷33-34
  • 2.5 常用文本分類算法34-45
  • 2.5.1 樸素貝葉斯分類34-36
  • 2.5.2 Rocchio36
  • 2.5.3 kNN36-37
  • 2.5.4 決策樹37-38
  • 2.5.5 支持向量機(jī)38-45
  • 2.5.5.1 統(tǒng)計學(xué)習(xí)理論38-40
  • 2.5.5.2 SVM基本思想40-44
  • 2.5.5.3 支持向量機(jī)多分類問題44-45
  • 2.6 本章小結(jié)45-46
  • 第三章 改進(jìn)的特征選擇方法與LDA結(jié)合46-53
  • 3.1 互信息特征選擇方法46-50
  • 3.1.1 傳統(tǒng)互信息特征選擇方法的不足46-47
  • 3.1.2 傳統(tǒng)互信息特征選擇方法的改進(jìn)47-50
  • 3.2 信息增益特征選擇方法50-51
  • 3.2.1 傳統(tǒng)信息增益特征選擇方法的不足50-51
  • 3.2.2 傳統(tǒng)信息增益特征選擇方法的改進(jìn)51
  • 3.3 改進(jìn)的特征選擇方法與LDA模型結(jié)合51-52
  • 3.4 本章小結(jié)52-53
  • 第四章 實(shí)驗與結(jié)果分析53-73
  • 4.1 基于特征選擇及LDA的中文文本分類流程53
  • 4.2 軟硬件環(huán)境53-54
  • 4.3 實(shí)驗語料庫和結(jié)果評估指標(biāo)54-55
  • 4.3.1 實(shí)驗語料庫54
  • 4.3.2 實(shí)驗結(jié)果評估指標(biāo)54-55
  • 4.4 文本預(yù)處理55-57
  • 4.5 特征選擇57-60
  • 4.5.1 改進(jìn)的特征選擇核心代碼57-59
  • 4.5.2 特征詞典大小的確定59-60
  • 4.6 LDA建模60-64
  • 4.6.1 LDA相關(guān)變量的初始化60-62
  • 4.6.2 LDA模型62-64
  • 4.7 SVM文本分類和結(jié)果分析64-72
  • 4.7.1 輸入處理及參數(shù)尋優(yōu)64-66
  • 4.7.2 實(shí)驗結(jié)果及分析66-72
  • 4.7.2.1 平衡語料集上實(shí)驗結(jié)果及分析66-69
  • 4.7.2.2 不平衡數(shù)據(jù)集上實(shí)驗結(jié)果與分析69-72
  • 4.8 本章小結(jié)72-73
  • 第五章 總結(jié)與展望73-75
  • 5.1 工作總結(jié)73-74
  • 5.2 展望74-75
  • 參考文獻(xiàn)75-80
  • 致謝80

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 劉斌,曾立波,劉生浩;血液細(xì)胞圖像自動識別系統(tǒng)的研究[J];計算機(jī)工程;2003年01期

2 任江濤;孫婧昊;黃煥宇;印鑒;;一種基于信息增益及遺傳算法的特征選擇算法[J];計算機(jī)科學(xué);2006年10期

3 張惠春;;基于最大熵模型的中文名詞短語識別[J];電腦知識與技術(shù);2009年08期

4 王衛(wèi)玲;孔波;初建崇;楊玫;;一種新的用于文本分類的特征選擇算法[J];信息技術(shù)與信息化;2009年06期

5 孫雷,王新;一種基于遺傳操作和類內(nèi)類間距離判據(jù)理論的特征選擇方法[J];計算機(jī)工程與應(yīng)用;2004年21期

6 張向榮,焦李成;基于免疫克隆選擇算法的特征選擇[J];復(fù)旦學(xué)報(自然科學(xué)版);2004年05期

7 閆相國,明利強(qiáng);分支定界算法在白細(xì)胞特征選擇中的應(yīng)用研究[J];天津職業(yè)技術(shù)師范學(xué)院學(xué)報;2004年03期

8 張莉,孫鋼,郭軍;基于K-均值聚類的無監(jiān)督的特征選擇方法[J];計算機(jī)應(yīng)用研究;2005年03期

9 張維東;朱宏明;周聞鈞;;特征選擇算法在故障檢測中的應(yīng)用研究[J];無線電通信技術(shù);2006年03期

10 徐峻嶺;徐寶文;張衛(wèi)豐;崔自峰;;一種啟發(fā)式聚類特征選擇方法(英文)[J];東南大學(xué)學(xué)報(英文版);2006年02期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 李娜;曾向陽;;目標(biāo)識別中的樣本選擇和特征選擇聯(lián)合算法研究[A];2009年西安-上海聲學(xué)學(xué)術(shù)會議論文集[C];2009年

2 張永;陳思睿;楊志勇;;一種改進(jìn)的文本分類方法的研究[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年

3 王強(qiáng);曾向陽;王曙光;李娜;;主元分析在水下目標(biāo)特征選擇中的應(yīng)用[A];中國聲學(xué)學(xué)會水聲學(xué)分會2011年全國水聲學(xué)學(xué)術(shù)會議論文集[C];2011年

4 高硯軍;徐華平;;基于窗口自適應(yīng)灰度共生矩陣的SAR圖像分類[A];第六屆全國信息獲取與處理學(xué)術(shù)會議論文集(1)[C];2008年

5 李曉麗;王彤;杜振龍;;基于粗糙集理論的流數(shù)據(jù)最優(yōu)特征選擇[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2005年

6 徐燕;孫春明;王斌;李錦濤;;基于詞條頻率的特征選擇算法研究[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年

7 李愛新;孫鐵;郭炎峰;;基于人工神經(jīng)網(wǎng)絡(luò)的腦電信號模式分類[A];自動化技術(shù)與冶金流程節(jié)能減排——全國冶金自動化信息網(wǎng)2008年會論文集[C];2008年

8 靖紅芳;王斌;楊雅輝;;基于類別分布的特征選擇框架[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

9 周志紅;周新聰;嚴(yán)新平;袁成清;;磨粒特征參數(shù)的評價與優(yōu)化方法研究[A];2006全國摩擦學(xué)學(xué)術(shù)會議論文集(一)[C];2006年

10 李占潮;陳超;周喜斌;鄒小勇;;基于遺傳算法和支持向量機(jī)預(yù)測蛋白質(zhì)結(jié)構(gòu)類[A];第九屆全國計算(機(jī))化學(xué)學(xué)術(shù)會議論文摘要集[C];2007年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 周曉娟;TD已過分水嶺[N];通信產(chǎn)業(yè)報;2008年

2 天相投顧 聞群邋王聃聃;選基金需考慮風(fēng)險承受力[N];中國證券報;2007年

3 孫志偉;劉剛檢查城防林建設(shè)[N];齊齊哈爾日報;2008年

4 鄭衛(wèi)東;高產(chǎn)鵝選種方法和標(biāo)準(zhǔn)[N];中國畜牧獸醫(yī)報;2007年

5 海通證券 婁靜邋吳先興;把握風(fēng)險收益特征選擇最適合自己的基金[N];上海證券報;2007年

6 張小東;促銷之十大常見誤區(qū)(一)[N];黑龍江經(jīng)濟(jì)報;2006年

7 華泰證券 吳t,

本文編號:773026


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/773026.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶aa159***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
欧美一区二区三区喷汁尤物| 黄男女激情一区二区三区| 日本午夜免费啪视频在线| 韩国日本欧美国产三级| 欧美日韩综合在线精品| 亚洲最大的中文字幕在线视频| 丰满少妇被粗大猛烈进出视频| 中国黄色色片色哟哟哟哟哟哟| 国产综合欧美日韩在线精品| 俄罗斯胖女人性生活视频| 肥白女人日韩中文视频| 亚洲中文字幕高清视频在线观看| 久热青青草视频在线观看| 中文字幕人妻av不卡| 熟女乱一区二区三区丝袜| 国内精品一区二区欧美| 儿媳妇的诱惑中文字幕| 欧美久久一区二区精品| 日韩人妻中文字幕精品| 日本黄色高清视频久久| 亚洲欧美日本成人在线| 亚洲色图欧美另类人妻| 91老熟妇嗷嗷叫太91| 麻豆精品在线一区二区三区| 日本亚洲欧美男人的天堂| 欧美一级日韩中文字幕| 国产又粗又猛又长又黄视频| 黄片在线免费看日韩欧美| 视频一区二区 国产精品| 日本亚洲精品在线观看| 日韩欧美二区中文字幕| 日本加勒比不卡二三四区| 国产激情一区二区三区不卡| 在线欧美精品二区三区| 欧美一级特黄特色大色大片| 深夜福利欲求不满的人妻| 一区二区三区日本高清| 国产精品视频第一第二区| 日本精品理论在线观看| 精品国模一区二区三区欧美| 日本免费一区二区三女|