隨機(jī)森林在文本分類上的應(yīng)用研究
發(fā)布時間:2021-08-12 15:57
隨著互聯(lián)網(wǎng)的普及,計(jì)算機(jī)技術(shù)正在飛速的發(fā)展,我們在網(wǎng)絡(luò)上制造了大量的信息數(shù)據(jù),正在進(jìn)入大數(shù)據(jù)的時代,信息呈現(xiàn)爆炸式增長。對于海量復(fù)雜的信息數(shù)據(jù),需要有效地組織梳理進(jìn)而挖掘其關(guān)聯(lián),文本分類就是解決這些問題的一個關(guān)鍵部分。隨機(jī)森林是一種非常典型的組合分類器,通過引入隨機(jī)性來構(gòu)造出決策樹的一種集合,具有較高分類準(zhǔn)確率、克服了過擬合的問題,對異常值和噪聲有良好的容忍性等特點(diǎn),隨機(jī)森林得到了十分廣泛的應(yīng)用,而且在文本分類領(lǐng)域取得了不錯的效果。由于隨機(jī)森林算法也存在很多的不足,某些方面還有待更加的完善。本文首先通過對文本分類的流程進(jìn)行系統(tǒng)化的梳理,介紹了文本分類的預(yù)處理、特征抽取和特征選擇等。其中,文本預(yù)處理主要是對分詞、去停用詞、詞干提取進(jìn)行了簡單介紹,特征抽取和特征選擇部分著重介紹了特征選擇的一些方法。并且本文對文本分類領(lǐng)域常用的幾種分類器模型:樸素貝葉斯、支持向量機(jī)、K近鄰等算法進(jìn)行了簡要的介紹,介紹了分類器的性能評價指標(biāo)。隨后本文簡述了隨機(jī)森林的相關(guān)理論部分,并將文本分類和隨機(jī)森林算法理論運(yùn)用到實(shí)例中,以CNBC網(wǎng)站的金融新聞資訊作為數(shù)據(jù)源進(jìn)行文本分類工作。
【文章來源】:武漢大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:42 頁
【學(xué)位級別】:碩士
【部分圖文】:
實(shí)驗(yàn)流程圖
爬蟲模板結(jié)果展示實(shí)驗(yàn)結(jié)果:爬蟲模板主要包括兩部分,分別是獲取URL和爬取數(shù)據(jù)
數(shù)據(jù)庫結(jié)果展示
【參考文獻(xiàn)】:
期刊論文
[1]基于特征選擇技術(shù)的情感詞權(quán)重計(jì)算[J]. 吳金源,冀俊忠,趙學(xué)武,吳晨生,杜芳華. 北京工業(yè)大學(xué)學(xué)報(bào). 2016(01)
[2]高維數(shù)據(jù)下基于云平臺的隨機(jī)森林算法的研究與實(shí)現(xiàn)[J]. 許旻. 科技通報(bào). 2014(06)
[3]基于神經(jīng)網(wǎng)絡(luò)的粒子群算法優(yōu)化SVM參數(shù)問題[J]. 李磊,高雷阜,趙世杰. 計(jì)算機(jī)工程與應(yīng)用. 2015(04)
[4]面向非平衡訓(xùn)練集分類的隨機(jī)森林算法優(yōu)化[J]. 吳瓊,李運(yùn)田,鄭獻(xiàn)衛(wèi). 工業(yè)控制計(jì)算機(jī). 2013(07)
[5]擬自適應(yīng)分類隨機(jī)森林算法[J]. 馬景義,吳喜之,謝邦昌. 數(shù)理統(tǒng)計(jì)與管理. 2010(05)
[6]知識抽取中的停用詞處理技術(shù)[J]. 化柏林. 現(xiàn)代圖書情報(bào)技術(shù). 2007(08)
[7]基于語義理解的文本相似度算法[J]. 金博,史彥軍,滕弘飛. 大連理工大學(xué)學(xué)報(bào). 2005(02)
[8]基于決策森林特征基因的兩種識別方法[J]. 呂颯麗,汪強(qiáng)虎,李霞,郭政. 生物信息學(xué). 2004(03)
[9]文本分類中的特征降維方法綜述[J]. 陳濤,謝陽群. 情報(bào)學(xué)報(bào). 2005 (06)
博士論文
[1]隨機(jī)森林算法優(yōu)化研究[D]. 曹正鳳.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2014
碩士論文
[1]基于屬性組合的隨機(jī)森林[D]. 孫麗麗.河北大學(xué) 2011
[2]隨機(jī)森林的特征選擇和模型優(yōu)化算法研究[D]. 雍凱.哈爾濱工業(yè)大學(xué) 2008
[3]基于層次分類和集成學(xué)習(xí)的文本分類技術(shù)研究[D]. 張華偉.江西師范大學(xué) 2007
本文編號:3338619
【文章來源】:武漢大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:42 頁
【學(xué)位級別】:碩士
【部分圖文】:
實(shí)驗(yàn)流程圖
爬蟲模板結(jié)果展示實(shí)驗(yàn)結(jié)果:爬蟲模板主要包括兩部分,分別是獲取URL和爬取數(shù)據(jù)
數(shù)據(jù)庫結(jié)果展示
【參考文獻(xiàn)】:
期刊論文
[1]基于特征選擇技術(shù)的情感詞權(quán)重計(jì)算[J]. 吳金源,冀俊忠,趙學(xué)武,吳晨生,杜芳華. 北京工業(yè)大學(xué)學(xué)報(bào). 2016(01)
[2]高維數(shù)據(jù)下基于云平臺的隨機(jī)森林算法的研究與實(shí)現(xiàn)[J]. 許旻. 科技通報(bào). 2014(06)
[3]基于神經(jīng)網(wǎng)絡(luò)的粒子群算法優(yōu)化SVM參數(shù)問題[J]. 李磊,高雷阜,趙世杰. 計(jì)算機(jī)工程與應(yīng)用. 2015(04)
[4]面向非平衡訓(xùn)練集分類的隨機(jī)森林算法優(yōu)化[J]. 吳瓊,李運(yùn)田,鄭獻(xiàn)衛(wèi). 工業(yè)控制計(jì)算機(jī). 2013(07)
[5]擬自適應(yīng)分類隨機(jī)森林算法[J]. 馬景義,吳喜之,謝邦昌. 數(shù)理統(tǒng)計(jì)與管理. 2010(05)
[6]知識抽取中的停用詞處理技術(shù)[J]. 化柏林. 現(xiàn)代圖書情報(bào)技術(shù). 2007(08)
[7]基于語義理解的文本相似度算法[J]. 金博,史彥軍,滕弘飛. 大連理工大學(xué)學(xué)報(bào). 2005(02)
[8]基于決策森林特征基因的兩種識別方法[J]. 呂颯麗,汪強(qiáng)虎,李霞,郭政. 生物信息學(xué). 2004(03)
[9]文本分類中的特征降維方法綜述[J]. 陳濤,謝陽群. 情報(bào)學(xué)報(bào). 2005 (06)
博士論文
[1]隨機(jī)森林算法優(yōu)化研究[D]. 曹正鳳.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2014
碩士論文
[1]基于屬性組合的隨機(jī)森林[D]. 孫麗麗.河北大學(xué) 2011
[2]隨機(jī)森林的特征選擇和模型優(yōu)化算法研究[D]. 雍凱.哈爾濱工業(yè)大學(xué) 2008
[3]基于層次分類和集成學(xué)習(xí)的文本分類技術(shù)研究[D]. 張華偉.江西師范大學(xué) 2007
本文編號:3338619
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3338619.html
最近更新
教材專著