天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

文本分類算法的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-06-16 00:11

  本文關(guān)鍵詞:文本分類算法的研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展及其普及應(yīng)用,用戶邁入了信息快速發(fā)展的時(shí)代。一方面,如此龐大的信息庫滿足了用戶對各類信息的需求,而另一方面,信息庫中內(nèi)容過于繁雜,想要準(zhǔn)確檢索到所需信息已成為一個(gè)難題。為了解決此類由信息過載引起的問題,文本分類技術(shù)被提出,文本分類是依據(jù)已標(biāo)記類別的信息,判別新信息的類別,能有效處理和組織互聯(lián)網(wǎng)上的海量信息,它可以讓用戶更加方便快捷地獲得所需信息。目前,雖然已有很多針對分類性能改進(jìn)的方法,但隨著信息庫的快速膨脹,執(zhí)行分類算法時(shí),面臨著如何快速準(zhǔn)確找出具備代表性數(shù)據(jù)的問題,特征選擇和特征加權(quán)對該問題有著最直接的影響,因此,本文主要圍繞這兩個(gè)過程進(jìn)行深入研究,并提出相應(yīng)的改進(jìn)方法為:基于蟻群算法的特征選擇,以及結(jié)合類別先驗(yàn)信息和特征項(xiàng)分布情況改進(jìn)的加權(quán)方法。本文的主要工作可概括為:1.重點(diǎn)介紹了幾種典型的特征選擇方法和特征加權(quán)方法,分析了它們的優(yōu)勢與不足。2.針對文本分類中初始特征空間維數(shù)過高及特征冗余問題,結(jié)合蟻群算法和特征選擇過程,采用了基于蟻群算法的特征選擇方法。該方法基于對評估函數(shù)、狀態(tài)轉(zhuǎn)移規(guī)則和信息素更新規(guī)則的研究設(shè)計(jì),并引入局部搜索機(jī)制,由此可有效排除大量的關(guān)聯(lián)特征和冗余特征。3.針對傳統(tǒng)的TF-IDF特征加權(quán)方法只是單純的考慮到特征項(xiàng)的詞頻,而忽略了類別先驗(yàn)信息及特征項(xiàng)在整個(gè)訓(xùn)練集分布情況對分類結(jié)果的影響,本文分兩步對傳統(tǒng)TF-IDF加權(quán)方法進(jìn)行改進(jìn):首先結(jié)合TF-IDF加權(quán)方法和TF-RF加權(quán)方法,提出TF-RFIDF特征加權(quán)方法;然后在TF-RFIDF加權(quán)方法的基礎(chǔ)上,根據(jù)熵的概念,推出類內(nèi)和類間信息分布熵的參數(shù),由此提出一種有效的加權(quán)方法TF-RFIDFimp,進(jìn)一步提高了特征項(xiàng)權(quán)重的準(zhǔn)確性。實(shí)驗(yàn)表明,改進(jìn)后算法的查準(zhǔn)率、查全率及F測試值均比傳統(tǒng)算法的值有所提高,從而進(jìn)一步證實(shí)了改進(jìn)算法提高了文本分類的性能。
【關(guān)鍵詞】:蟻群算法 特征選擇 TF-RF 信息分布熵 特征加權(quán)
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
  • 摘要3-4
  • Abstract4-9
  • 第一章 緒論9-13
  • 1.1 研究背景和意義9-10
  • 1.2 國內(nèi)外研究現(xiàn)狀10-11
  • 1.3 主要內(nèi)容與論文結(jié)構(gòu)11-13
  • 第二章 文本分類相關(guān)技術(shù)概述13-26
  • 2.1 文本分類基礎(chǔ)理論13-15
  • 2.1.1 文本分類的定義13-14
  • 2.1.2 文本分類的過程14-15
  • 2.2 文本預(yù)處理15-16
  • 2.3 特征選擇16-19
  • 2.3.1 文檔頻率16-17
  • 2.3.2 互信息17-18
  • 2.3.3 信息增益18
  • 2.3.4 χ~2統(tǒng)計(jì)量18-19
  • 2.4 特征加權(quán)19-20
  • 2.5 分類算法20-23
  • 2.5.1 樸素貝葉斯算法20-21
  • 2.5.2 KNN近鄰算法21-22
  • 2.5.3 支持向量機(jī)算法22-23
  • 2.6 分類性能評估23-25
  • 2.7 本章小結(jié)25-26
  • 第三章 基于蟻群算法的特征選擇26-39
  • 3.1 蟻群算法概述26-27
  • 3.2 構(gòu)建蟻群算法的文本特征選擇27-28
  • 3.3 基于蟻群算法的特征選擇28-32
  • 3.3.1 評估函數(shù)28-29
  • 3.3.2 狀態(tài)轉(zhuǎn)移規(guī)則29-31
  • 3.3.3 信息素更新規(guī)則31
  • 3.3.4 局部搜索機(jī)制31-32
  • 3.4 算法描述32-35
  • 3.5 實(shí)驗(yàn)與實(shí)驗(yàn)結(jié)果分析35-38
  • 3.5.1 實(shí)驗(yàn)方法35
  • 3.5.2 實(shí)驗(yàn)結(jié)果35-38
  • 3.6 本章小結(jié)38-39
  • 第四章 結(jié)合特征項(xiàng)在類內(nèi)和類間分布改進(jìn)的TF-IDF方法39-53
  • 4.1 特征加權(quán)方法39-44
  • 4.1.1 布爾權(quán)重39-40
  • 4.1.2 詞頻權(quán)重40
  • 4.1.3 基于熵概念的權(quán)重40-41
  • 4.1.4 TF-RF41-42
  • 4.1.5 TF-IDF42-44
  • 4.2 TF-IDF算法的不足44
  • 4.3 結(jié)合特征項(xiàng)在類內(nèi)和類間分布改進(jìn)的TF-IDF方法44-49
  • 4.3.1 針對IDF的改進(jìn)44-46
  • 4.3.2 針對特征項(xiàng)在類別內(nèi)和類別間分布情況的改進(jìn)46-49
  • 4.4 實(shí)驗(yàn)與實(shí)驗(yàn)結(jié)果分析49-52
  • 4.4.1 實(shí)驗(yàn)方法49
  • 4.4.2 實(shí)驗(yàn)結(jié)果49-52
  • 4.5 本章小結(jié)52-53
  • 第五章 總結(jié)與展望53-55
  • 5.1 工作總結(jié)53-54
  • 5.2 展望54-55
  • 參考文獻(xiàn)55-59
  • 致謝59-60
  • 在讀期間發(fā)表的學(xué)術(shù)論文及參與項(xiàng)目60-61
  • 附錄61-62
  • 附錄A 圖索引61
  • 附錄B 表索引61-62
  • Appendix62
  • Appendix A Figure Index62
  • Appendix B Table Index62

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 李盛瑜;何文;;一種對聊天文本進(jìn)行特征選取的方法研究[J];計(jì)算機(jī)科學(xué);2007年05期

2 蔣志方;祝翠玲;吳強(qiáng);;一個(gè)對不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計(jì)算機(jī)工程;2007年12期

3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國審計(jì);2007年18期

4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期

5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2004年09期

6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期

7 諶志群;;文本趨勢挖掘綜述[J];情報(bào)科學(xué);2010年02期

8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報(bào)雜志;2012年08期

9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年10期

10 陳福海;C++中用>>和<<重載實(shí)現(xiàn)文本文件的方便存取[J];現(xiàn)代計(jì)算機(jī);1997年05期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2002年

4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2004年

9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國青年通信學(xué)術(shù)會議論文集[C];2001年

10 江荻;;藏語文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年

中國重要報(bào)紙全文數(shù)據(jù)庫 前1條

1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報(bào);2004年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年

2 韓開旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年

3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年

4 韓磊;漢語句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年

5 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年

6 孫曉華;基于聚類的文本機(jī)會發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年

7 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年

8 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學(xué);2010年

9 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2006年

10 李自強(qiáng);大規(guī)模文本分類的若干問題研究[D];電子科技大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年

2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年

3 李少卿;不良文本及其變體信息的檢測過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年

4 董秦濤;基于文本的個(gè)人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年

5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評估及推薦應(yīng)用[D];華南理工大學(xué);2015年

6 黃晨;基于新詞識別和時(shí)間跨度的微博熱點(diǎn)研究[D];上海交通大學(xué);2015年

7 陳紅陽;中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年

8 王s

本文編號:453883


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/453883.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0c592***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com