基于MapReduce的平均多項(xiàng)樸素貝葉斯文本分類
本文關(guān)鍵詞:基于MapReduce的平均多項(xiàng)樸素貝葉斯文本分類
更多相關(guān)文章: 文本分類 樸素貝葉斯 并行計(jì)算 冗余特征 大數(shù)據(jù)
【摘要】:針對(duì)海量文本分類問題進(jìn)行了研究,基于分布式計(jì)算框架MapReduce平臺(tái),實(shí)現(xiàn)了一種簡(jiǎn)單、有效的文本分類算法——平均多項(xiàng)樸素貝葉斯分類方法。實(shí)驗(yàn)中該方法分類準(zhǔn)確率高于一般樸素貝葉斯方法,且具有較好的加速比。實(shí)驗(yàn)結(jié)果表明,由于減小了文本冗余特征信息的影響與并行計(jì)算良好的擴(kuò)展性,該方法更適用于海量文本數(shù)據(jù)分類。
【作者單位】: 電子科技大學(xué)數(shù)學(xué)科學(xué)學(xué)院;
【關(guān)鍵詞】: 文本分類 樸素貝葉斯 并行計(jì)算 冗余特征 大數(shù)據(jù)
【分類號(hào)】:TP391.1
【正文快照】: 近年來(lái)互聯(lián)網(wǎng)的迅猛發(fā)展宣告了大數(shù)據(jù)時(shí)代的來(lái)臨,而在互聯(lián)網(wǎng)知識(shí)呈現(xiàn)形式中,90%的信息是以文本的形式存在。如何從海量的信息中快速、有效地提取出人們所需要的知識(shí)成為機(jī)器學(xué)習(xí)中的熱點(diǎn)研究課題。Jeffrey等人在2004年提出了MapReduce編程范式[1],該模型適用于處理大規(guī)模數(shù)據(jù)
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 錢穎能;胡運(yùn)發(fā);;用樸素貝葉斯分類法選股[J];計(jì)算機(jī)應(yīng)用與軟件;2007年06期
2 歐陽(yáng)澤華;郭華平;范明;;在逐漸縮小的空間上漸進(jìn)學(xué)習(xí)樸素貝葉斯參數(shù)[J];計(jì)算機(jī)應(yīng)用;2012年01期
3 裴亞輝;熊盛武;;樸素貝葉斯及其擴(kuò)展模型[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2007年08期
4 趙彥琦;謝小西;荀宇暢;;樸素貝葉斯分類法的應(yīng)用[J];電子制作;2013年07期
5 菅小艷;崔彩霞;;基于樸素貝葉斯的文本分類[J];電腦開發(fā)與應(yīng)用;2013年12期
6 王實(shí);高文;;增強(qiáng)型樸素貝葉斯學(xué)習(xí)[J];計(jì)算機(jī)科學(xué);2000年04期
7 楊忠強(qiáng);秦亮曦;;一種基于屬性加權(quán)的樸素貝葉斯改進(jìn)算法[J];廣西大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年05期
8 張彩麗;楊帆;張玉杰;;柴油機(jī)供油系統(tǒng)狀態(tài)的樸素貝葉斯診斷方法研究[J];計(jì)算機(jī)測(cè)量與控制;2008年08期
9 白耀輝;陳明;王舉群;;利用樸素貝葉斯方法實(shí)現(xiàn)異常檢測(cè)[J];計(jì)算機(jī)工程與應(yīng)用;2005年34期
10 王雙成;冷翠平;侯彩虹;;操作風(fēng)險(xiǎn)等級(jí)預(yù)測(cè)的樸素貝葉斯方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2008年12期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前2條
1 石志偉;吳功宜;;改善樸素貝葉斯在文本分類中的穩(wěn)定性[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
2 李海軍;王鉦旋;王利民;苑森淼;;基于主成分分析提升樸素貝葉斯[A];中國(guó)儀器儀表學(xué)會(huì)第六屆青年學(xué)術(shù)會(huì)議論文集[C];2004年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前8條
1 胡為成;基于遺傳算法的樸素貝葉斯分類研究[D];合肥工業(yè)大學(xué);2006年
2 劉勇華;基于樸素貝葉斯的中文段落情感分析[D];太原理工大學(xué);2015年
3 周龍;基于樸素貝葉斯的分類方法研究[D];安徽大學(xué);2006年
4 王翔;基于樸素貝葉斯和One-R的入侵檢測(cè)問題研究[D];合肥工業(yè)大學(xué);2008年
5 周遠(yuǎn)陽(yáng);基于樸素貝葉斯方法的新聞分類系統(tǒng)的實(shí)現(xiàn)[D];暨南大學(xué);2012年
6 李忠波;基于改進(jìn)樸素貝葉斯的蛋白質(zhì)提純方法選擇[D];大連理工大學(xué);2014年
7 孫秀亮;基于屬性加權(quán)的選擇性樸素貝葉斯分類研究[D];哈爾濱工程大學(xué);2013年
8 華林森;中文文本情感分類研究[D];重慶大學(xué);2014年
,本文編號(hào):953151
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/953151.html