天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于粗糙集屬性約簡(jiǎn)的集成分類(lèi)算法研究

發(fā)布時(shí)間:2017-06-13 07:10

  本文關(guān)鍵詞:基于粗糙集屬性約簡(jiǎn)的集成分類(lèi)算法研究,由筆耕文化傳播整理發(fā)布。


【摘要】:自動(dòng)文本分類(lèi)技術(shù)的主要任務(wù)是將非結(jié)構(gòu)化的文本數(shù)據(jù)劃分到相應(yīng)的分類(lèi)體系中。文本分類(lèi)有著廣泛的應(yīng)用,例如新聞門(mén)戶(hù)網(wǎng)站中的新聞自動(dòng)分類(lèi)、個(gè)性化廣告推薦、垃圾郵件過(guò)濾、數(shù)字圖書(shū)館資源管理等。集成學(xué)習(xí)是機(jī)器學(xué)習(xí)的主要研究方向之一,其思想是使用多個(gè)子分類(lèi)器對(duì)樣本進(jìn)行分類(lèi),并使用某種組合方式將各個(gè)子分類(lèi)器的分類(lèi)結(jié)果進(jìn)行整合,得到最終的分類(lèi)結(jié)果。相比單分類(lèi)算法,集成學(xué)習(xí)具有更高的分類(lèi)準(zhǔn)確率和泛化能力。本文將集成學(xué)習(xí)運(yùn)用到文本分類(lèi)中,研究了文本自動(dòng)分類(lèi)和集成學(xué)習(xí)的相關(guān)理論,對(duì)文本分類(lèi)和集成學(xué)習(xí)的關(guān)鍵技術(shù)進(jìn)行了詳細(xì)介紹。提出了一種適用于高維數(shù)據(jù)的特征選擇方法和兩種改進(jìn)的集成分類(lèi)算法。具體來(lái)說(shuō),本文做了以下幾方面的工作:1、在將文本轉(zhuǎn)換為向量空間模型后,將會(huì)得到一個(gè)高維稀疏矩陣。對(duì)數(shù)據(jù)進(jìn)行降維時(shí),單獨(dú)使用信息增益或粗糙集屬性約簡(jiǎn)的方法均有一些不足。本文將兩種方法進(jìn)行結(jié)合,提出一種基于粗糙集的二次特征選擇方法,該方法可以發(fā)揮兩種特征選擇方法的優(yōu)勢(shì),最大限度過(guò)濾冗余特征。2、提出了RRE_Classifers集成分類(lèi)算法。該算法借鑒了Bagging和隨機(jī)森林的思想,首先對(duì)原始訓(xùn)練集樣本進(jìn)行有放回的抽樣,將得到的結(jié)果進(jìn)行特征抽樣,產(chǎn)生最終的訓(xùn)練集。由此訓(xùn)練差異性較大的子分類(lèi)器,相比于Bagging,該算法可以使用更多的有差異性的子分類(lèi)器,并且分類(lèi)效果更好。3、提出了EBB_Classififers集成分類(lèi)算法。該算法維護(hù)一個(gè)錯(cuò)誤池,錯(cuò)誤池中存放之前的子分類(lèi)器錯(cuò)誤分類(lèi)的樣本,之后隨機(jī)將這些錯(cuò)分樣本加入后續(xù)的訓(xùn)練集。使之前的訓(xùn)練結(jié)果能夠?qū)罄m(xù)訓(xùn)練有幫助。4、對(duì)Bagging和提出的兩種改進(jìn)算法進(jìn)行復(fù)雜度分析,并通過(guò)實(shí)驗(yàn)對(duì)三種算法的運(yùn)行時(shí)間進(jìn)行對(duì)比。5、在Tan Corp、搜狗語(yǔ)料庫(kù)和復(fù)旦大學(xué)語(yǔ)料庫(kù)三組中文標(biāo)準(zhǔn)語(yǔ)料庫(kù)上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文提出的特征選擇和集成分類(lèi)算法有較好的性能。
【關(guān)鍵詞】:文本挖掘 文本分類(lèi) 粗糙集 特征選擇 集成分類(lèi) 集成學(xué)習(xí)
【學(xué)位授予單位】:貴州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.1
【目錄】:
  • 摘要5-6
  • Abstract6-8
  • 第一章 緒論8-14
  • 1.1 研究背景與研究意義8-9
  • 1.1.1 研究背景8
  • 1.1.2 研究意義8-9
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-11
  • 1.2.1 特征選擇研究現(xiàn)狀9-10
  • 1.2.2 集成分類(lèi)研究現(xiàn)狀10-11
  • 1.3 本文的研究?jī)?nèi)容11-12
  • 1.4 論文的組織結(jié)構(gòu)12-13
  • 本章小結(jié)13-14
  • 第二章 文本分類(lèi)概述14-26
  • 2.1 文本分類(lèi)產(chǎn)生背景及發(fā)展過(guò)程14
  • 2.2 問(wèn)題定義14-15
  • 2.3 數(shù)據(jù)預(yù)處理15-19
  • 2.3.1 文檔表示15-16
  • 2.3.2 特征選擇16-18
  • 2.3.3 特征抽取(Feature Extraction)18-19
  • 2.4 常用分類(lèi)方法19-23
  • 2.4.1 概率分類(lèi)器(Probabilistic Classifier)19-20
  • 2.4.2 決策樹(shù)(Decision Tree)20-21
  • 2.4.3 神經(jīng)網(wǎng)絡(luò)(Neural Networks)21-22
  • 2.4.4 最近鄰算法(Nearest Neighbor)22
  • 2.4.5 支持向量機(jī)(Support Vector Machine)22-23
  • 2.5 分類(lèi)器性能評(píng)估23-25
  • 本章小結(jié)25-26
  • 第三章 集成學(xué)習(xí)相關(guān)理論26-32
  • 3.1 集成學(xué)習(xí)關(guān)鍵技術(shù)27-28
  • 3.1.1 子分類(lèi)器生成方法27-28
  • 3.1.2 子分類(lèi)器組合方法28
  • 3.2 主要的集成學(xué)習(xí)算法28-31
  • 3.2.1Bagging算法28-29
  • 3.2.2 AdaBoost算法29-30
  • 3.2.3 Random Forests算法30-31
  • 本章小結(jié)31-32
  • 第四章 基于粗糙集的二次特征選擇方法32-45
  • 4.1 粗糙集屬性約簡(jiǎn)相關(guān)理論32-34
  • 4.1.1 基本概念32-33
  • 4.1.2 常見(jiàn)的粗糙集屬性約簡(jiǎn)算法33-34
  • 4.2 基于粗糙集的二次特征選擇方法34-36
  • 4.3 實(shí)驗(yàn)結(jié)果與分析36-44
  • 4.3.1 實(shí)驗(yàn)數(shù)據(jù)及平臺(tái)36-37
  • 4.3.2 第一步信息增益特征選擇實(shí)驗(yàn)結(jié)果及分析37-42
  • 4.3.3 第二步粗糙集屬性約簡(jiǎn)結(jié)果及分析42-44
  • 本章小結(jié)44-45
  • 第五章 集成分類(lèi)算法改進(jìn)45-60
  • 5.1 基于Bagging算法的改進(jìn)45-48
  • 5.1.1 基于雙重抽樣的Bagging算法45-47
  • 5.1.2 基于錯(cuò)誤池的Bagging算法47-48
  • 5.2 實(shí)驗(yàn)平臺(tái)及關(guān)鍵代碼分析48-52
  • 5.3 算法復(fù)雜度分析52-56
  • 5.3.1 幾類(lèi)集成分類(lèi)算法的復(fù)雜度分析52-55
  • 5.3.2 復(fù)雜度實(shí)驗(yàn)對(duì)比55-56
  • 5.4 分類(lèi)準(zhǔn)確率實(shí)驗(yàn)結(jié)果與分析56-58
  • 本章小結(jié)58-60
  • 第六章 總結(jié)與展望60-62
  • 致謝62-63
  • 參考文獻(xiàn)63-67
  • 附錄67-68
  • 圖版68

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 邱兆雷;范穎;王愛(ài)云;;粗糙集理論及進(jìn)展[J];信息技術(shù)與信息化;2006年05期

2 徐偉華;張文修;;覆蓋廣義粗糙集的模糊性[J];模糊系統(tǒng)與數(shù)學(xué);2006年06期

3 石杰;;粗糙集理論及其應(yīng)用研究[J];科技信息;2008年33期

4 唐彬;;粗糙集理論和應(yīng)用研究[J];內(nèi)江科技;2008年03期

5 胡軍;王國(guó)胤;;覆蓋粗糙集的模糊度[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期

6 燕紅文;康向平;張麗;;依賴(lài)空間與粗糙集理論[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2009年09期

7 林國(guó)平;;覆蓋廣義粗糙集與信任函數(shù)[J];漳州師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年02期

8 王石平;祝峰;朱培勇;;基于抽象相關(guān)關(guān)系的粗糙集研究[J];南京大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年05期

9 成新文;陳國(guó)超;李琦;;關(guān)于粗糙集的理論及應(yīng)用研究[J];煤炭技術(shù);2010年10期

10 林治;張璇;;粗糙集理論的應(yīng)用探析[J];邢臺(tái)職業(yè)技術(shù)學(xué)院學(xué)報(bào);2011年03期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 黎文航;陳善本;王兵;;粗糙集理論在焊接中的應(yīng)用綜述[A];第十一次全國(guó)焊接會(huì)議論文集(第2冊(cè))[C];2005年

2 尹宗成;;粗糙集理論在我國(guó)糧食產(chǎn)量預(yù)測(cè)中的應(yīng)用[A];現(xiàn)代農(nóng)業(yè)理論與實(shí)踐——安徽現(xiàn)代農(nóng)業(yè)博士科技論壇論文集[C];2007年

3 鄒剛;滕書(shū)華;孫即祥;陳森林;敖永紅;;一種粗糙集優(yōu)化協(xié)同原型模式約簡(jiǎn)分類(lèi)方法[A];第十四屆全國(guó)信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2009)論文集[C];2009年

4 葛麗;傅彥;;粗糙集在科學(xué)數(shù)據(jù)屬性約簡(jiǎn)中的應(yīng)用[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年

5 陳雪飛;;粗糙集分類(lèi)中耦合數(shù)據(jù)的處理方法研究[A];2008年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2008年

6 肖健梅;蘆曉明;王錫淮;;集裝箱起重機(jī)防搖系統(tǒng)粗糙集控制[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年

7 王印松;馮康;;主汽溫調(diào)節(jié)系統(tǒng)性能評(píng)價(jià)的粗糙集實(shí)現(xiàn)方法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年

8 王紅萍;萬(wàn)程亮;金彥豐;;應(yīng)用粗糙集理論的對(duì)抗效果權(quán)重確定方法[A];2009’中國(guó)西部地區(qū)聲學(xué)學(xué)術(shù)交流會(huì)論文集[C];2009年

9 王莉;周獻(xiàn)中;;一種基于粗糙集的模糊神經(jīng)網(wǎng)絡(luò)模型在鋼材力學(xué)性能預(yù)測(cè)中的研究[A];2009年中國(guó)智能自動(dòng)化會(huì)議論文集(第二分冊(cè))[C];2009年

10 卓明;王麗珍;譚旭;;基于粗糙集近似集擴(kuò)展的規(guī)則提取算法[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 馬希驁;概率粗糙集屬性約簡(jiǎn)理論及方法研究[D];西南交通大學(xué);2014年

2 唐孝;基于粗糙集的知識(shí)發(fā)現(xiàn)方法及其在ECG信號(hào)識(shí)別中的應(yīng)用[D];電子科技大學(xué);2015年

3 曾凱;鄰域;植谟(jì)算的關(guān)鍵技術(shù)研究與應(yīng)用[D];電子科技大學(xué);2015年

4 鮑忠奎;面向不確定信息系統(tǒng)的粗糙集擴(kuò)展模型研究[D];合肥工業(yè)大學(xué);2015年

5 王永生;基于粗糙集理論的動(dòng)態(tài)數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究[D];北京科技大學(xué);2016年

6 薛佩軍;正負(fù)域覆蓋廣義粗糙集與知識(shí)粗傳播研究[D];山東大學(xué);2007年

7 孔芝;粗糙集理論若干問(wèn)題的研究與應(yīng)用[D];東北大學(xué);2009年

8 秦中廣;基于粗糙集的交叉研究及其在中醫(yī)診斷的應(yīng)用[D];華南理工大學(xué);2002年

9 劉少輝;知識(shí)發(fā)現(xiàn)中粗糙集理論的研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2003年

10 鄧大勇;基于粗糙集的數(shù)據(jù)約簡(jiǎn)及粗糙集擴(kuò)展模型的研究[D];北京交通大學(xué);2007年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 江飛;粗糙集神經(jīng)網(wǎng)絡(luò)故障診斷方法研究[D];西安石油大學(xué);2015年

2 何理榮;粗糙集理論在銀行信貸風(fēng)險(xiǎn)評(píng)估中的應(yīng)用研究[D];華南理工大學(xué);2015年

3 張德齊;基于粗糙集理論的電機(jī)故障診斷方法研究[D];渤海大學(xué);2015年

4 楊禮;基于粗糙集的公路交通安全預(yù)警研究[D];西南交通大學(xué);2015年

5 聶萌瑤;基于泛系串并模型的粗糙集概念擴(kuò)展與拓?fù)淇臻g[D];蘭州大學(xué);2015年

6 徐鵬;基于粗糙集的建筑起重機(jī)械安全精細(xì)化評(píng)價(jià)研究[D];西安建筑科技大學(xué);2015年

7 孫宇航;粗糙集屬性約簡(jiǎn)方法在醫(yī)療診斷中的應(yīng)用研究[D];蘇州大學(xué);2015年

8 張曼;基于粗糙集和包含度的聚類(lèi)分類(lèi)算法研究[D];青島理工大學(xué);2015年

9 車(chē)世遠(yuǎn);基于群搜索優(yōu)化粗糙集的腦科學(xué)數(shù)據(jù)研究[D];大連海事大學(xué);2015年

10 林哲;基于粗糙集的馬田系統(tǒng)研究及其在銀行直接營(yíng)銷(xiāo)客戶(hù)分類(lèi)中的應(yīng)用[D];南京理工大學(xué);2015年


  本文關(guān)鍵詞:基于粗糙集屬性約簡(jiǎn)的集成分類(lèi)算法研究,,由筆耕文化傳播整理發(fā)布。



本文編號(hào):445984

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/445984.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)68cb3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com