天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

一種樸素貝葉斯文本分類算法的分布并行實現(xiàn)

發(fā)布時間:2018-11-27 10:15
【摘要】:針對當(dāng)前樸素貝葉斯文本分類算法在處理文本分類時存在的數(shù)據(jù)稀疏、分類不準(zhǔn)及效率低的問題,提出一種基于Map Reduce的Dirichlet樸素貝葉斯文本分類算法。算法首先根據(jù)體征詞語義因素以及類內(nèi)分布情況對權(quán)重進(jìn)行加權(quán)調(diào)整,以此對的計算公式進(jìn)行修正;引入統(tǒng)計語言建模技術(shù)中的Dirichlet數(shù)據(jù)平滑方法來降低數(shù)據(jù)稀疏對分類性能的影響,并在Hadoop云計算平臺采用Map Reduce編程模型實現(xiàn)本文算法的并行化。通過測試實驗對比分析可知,該算法顯著提高了傳統(tǒng)樸素貝葉斯文本分類算法的準(zhǔn)確率、召回率,并具有優(yōu)良的可擴(kuò)展性和數(shù)據(jù)處理能力。
[Abstract]:Aiming at the problems of sparse data, inaccurate classification and low efficiency in the current naive Bayesian text classification algorithm, a Dirichlet naive Bayesian text classification algorithm based on Map Reduce is proposed. The algorithm firstly adjusts the weight according to the meaning factor of the sign words and the distribution in the class, and then modifies the calculation formula. This paper introduces the Dirichlet data smoothing method in the statistical language modeling technology to reduce the influence of data sparsity on the classification performance, and uses the Map Reduce programming model to realize the parallelization of the algorithm in the Hadoop cloud computing platform. The experimental results show that the proposed algorithm can significantly improve the accuracy and recall of the traditional naive Bayesian text classification algorithm and has good scalability and data processing ability.
【作者單位】: 廣州體育學(xué)院;華南師范大學(xué)計算機(jī)學(xué)院;
【基金】:廣東省教育廳2015重大科研立項青年項目
【分類號】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 錢穎能;胡運發(fā);;用樸素貝葉斯分類法選股[J];計算機(jī)應(yīng)用與軟件;2007年06期

2 歐陽澤華;郭華平;范明;;在逐漸縮小的空間上漸進(jìn)學(xué)習(xí)樸素貝葉斯參數(shù)[J];計算機(jī)應(yīng)用;2012年01期

3 裴亞輝;熊盛武;;樸素貝葉斯及其擴(kuò)展模型[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2007年08期

4 趙彥琦;謝小西;荀宇暢;;樸素貝葉斯分類法的應(yīng)用[J];電子制作;2013年07期

5 菅小艷;崔彩霞;;基于樸素貝葉斯的文本分類[J];電腦開發(fā)與應(yīng)用;2013年12期

6 王實;高文;;增強(qiáng)型樸素貝葉斯學(xué)習(xí)[J];計算機(jī)科學(xué);2000年04期

7 楊忠強(qiáng);秦亮曦;;一種基于屬性加權(quán)的樸素貝葉斯改進(jìn)算法[J];廣西大學(xué)學(xué)報(自然科學(xué)版);2013年05期

8 張彩麗;楊帆;張玉杰;;柴油機(jī)供油系統(tǒng)狀態(tài)的樸素貝葉斯診斷方法研究[J];計算機(jī)測量與控制;2008年08期

9 白耀輝;陳明;王舉群;;利用樸素貝葉斯方法實現(xiàn)異常檢測[J];計算機(jī)工程與應(yīng)用;2005年34期

10 王雙成;冷翠平;侯彩虹;;操作風(fēng)險等級預(yù)測的樸素貝葉斯方法研究[J];計算機(jī)工程與應(yīng)用;2008年12期

相關(guān)會議論文 前2條

1 石志偉;吳功宜;;改善樸素貝葉斯在文本分類中的穩(wěn)定性[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

2 李海軍;王鉦旋;王利民;苑森淼;;基于主成分分析提升樸素貝葉斯[A];中國儀器儀表學(xué)會第六屆青年學(xué)術(shù)會議論文集[C];2004年

相關(guān)碩士學(xué)位論文 前10條

1 李Pr;基于樸素貝葉斯的文本分類研究及其在微博分類中的應(yīng)用[D];北京理工大學(xué);2015年

2 李冬梅;樸素貝葉斯與決策樹混合分類方法的研究[D];大連海事大學(xué);2016年

3 胡為成;基于遺傳算法的樸素貝葉斯分類研究[D];合肥工業(yè)大學(xué);2006年

4 劉勇華;基于樸素貝葉斯的中文段落情感分析[D];太原理工大學(xué);2015年

5 周龍;基于樸素貝葉斯的分類方法研究[D];安徽大學(xué);2006年

6 王翔;基于樸素貝葉斯和One-R的入侵檢測問題研究[D];合肥工業(yè)大學(xué);2008年

7 周遠(yuǎn)陽;基于樸素貝葉斯方法的新聞分類系統(tǒng)的實現(xiàn)[D];暨南大學(xué);2012年

8 李忠波;基于改進(jìn)樸素貝葉斯的蛋白質(zhì)提純方法選擇[D];大連理工大學(xué);2014年

9 孫秀亮;基于屬性加權(quán)的選擇性樸素貝葉斯分類研究[D];哈爾濱工程大學(xué);2013年

10 華林森;中文文本情感分類研究[D];重慶大學(xué);2014年

,

本文編號:2360381

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2360381.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c6767***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com