分布式KNN算法在微信公眾號(hào)分類中的應(yīng)用
[Abstract]:In view of the problem that the amount of data of public number of WeChat increases greatly and the people engaged in WeChat activities have low efficiency in obtaining effective information, a method of sorting and tagging the information of public number of WeChat is put forward. First of all, on the basis of introducing the practical application of WeChat Public number, based on the classical K-nearest neighbor (KNN) classification algorithm, the paper puts into practice and analyzes the efficiency deficiency of the single-machine KNN algorithm. The KNN algorithm based on MapReduce model is implemented by using Hadoop platform. The efficiency of single machine and distributed system and the optimization of K value are compared. The sample training set is artificially assigned, and the text similarity can be divided into word segmentation and feature word extraction. Weight calculation, test vector and training vector angle calculation and other steps. On the basis of 24 categories, 10 million public number data were classified with single label or multiple label. The accuracy of the optimized classification reached 82%, in which the number of public numbers related to life accounted for more than 70% of Prida. The results show that the information is transmitted to a specific population and the conversion rate is improved. The distributed KNN algorithm is more efficient and robust than the single algorithm in the public number data processing of WeChat.
【作者單位】: 西南石油大學(xué)計(jì)算機(jī)科學(xué)學(xué)院;
【基金】:國家安全生產(chǎn)總局項(xiàng)目(sichuan-0008-2016AQ,sichuan-0009-2016AQ)
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前7條
1 李正杰;黃剛;;基于Hadoop平臺(tái)的SVM_KNN分類算法的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2016年03期
2 王金華;喻輝;產(chǎn)文;周向東;施伯樂;;基于KNN+層次SVM的文本自動(dòng)分類技術(shù)[J];計(jì)算機(jī)應(yīng)用與軟件;2016年02期
3 董春濤;李文婷;沈晴霓;吳中海;;Hadoop YARN大數(shù)據(jù)計(jì)算框架及其資源調(diào)度機(jī)制研究[J];信息通信技術(shù);2015年01期
4 黃黎;顧筠;;基于Hadoop平臺(tái)的并行化數(shù)據(jù)分類算法研究[J];制造業(yè)自動(dòng)化;2014年14期
5 牛曉太;;基于KNN算法和10折交叉驗(yàn)證法的支持向量選取算法[J];華中師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年03期
6 史i8;耿晨;齊勇;;一種具有容錯(cuò)機(jī)制的MapReduce模型研究與實(shí)現(xiàn)[J];西安交通大學(xué)學(xué)報(bào);2014年02期
7 岳金媛;徐金安;張玉潔;;面向?qū)@墨I(xiàn)的漢語分詞技術(shù)研究[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年01期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王榮麗;侯秀萍;;基于優(yōu)先級(jí)權(quán)重的Hadoop YARN調(diào)度算法[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2017年04期
2 彭宏恩;;基于Yarn的資源調(diào)度算法研究[J];福建電腦;2017年04期
3 曾沁;李永生;;基于分布式計(jì)算框架的風(fēng)暴三維追蹤方法[J];計(jì)算機(jī)應(yīng)用;2017年04期
4 肖斌;王錦陽;任啟強(qiáng);;分布式KNN算法在微信公眾號(hào)分類中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用;2017年S1期
5 張?jiān)?王東波;朱丹浩;;面向食品安全突發(fā)事件漢語分詞的特征選擇及模型優(yōu)化研究[J];數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn);2017年02期
6 段宏湘;張秋余;張墨逸;;基于歸一化互信息的FCBF特征選擇算法[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2017年01期
7 于金良;朱志祥;李聰穎;;Hadoop MapReduce新舊架構(gòu)的對(duì)比研究綜述[J];計(jì)算機(jī)與數(shù)字工程;2017年01期
8 劉國濤;張燕平;徐晨初;;一種優(yōu)化覆蓋中心的三支決策模型[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2017年03期
9 聶得欣;;Hadoop系統(tǒng)運(yùn)行機(jī)制研究[J];河南財(cái)政稅務(wù)高等?茖W(xué)校學(xué)報(bào);2016年04期
10 馮曉川;隋新;;支持向量機(jī)耦合韋伯局部描述符的圖像偽造檢測(cè)算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2016年07期
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 武霞;董增壽;孟曉燕;;基于大數(shù)據(jù)平臺(tái)hadoop的聚類算法K值優(yōu)化研究[J];太原科技大學(xué)學(xué)報(bào);2015年02期
2 郭明瑋;趙宇宙;項(xiàng)俊平;張陳斌;陳宗海;;基于支持向量機(jī)的目標(biāo)檢測(cè)算法綜述[J];控制與決策;2014年02期
3 李麗萍;;并行支持向量機(jī)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2013年24期
4 侯玉婷;彭進(jìn)業(yè);郝露微;王瑞;;基于KNN的特征自適應(yīng)加權(quán)自然圖像分類研究[J];計(jì)算機(jī)應(yīng)用研究;2014年03期
5 閆永剛;馬廷淮;王建;;KNN分類算法的MapReduce并行化實(shí)現(xiàn)[J];南京航空航天大學(xué)學(xué)報(bào);2013年04期
6 PENG NanBo;ZHANG YanXia;ZHAO YongHeng;;A SVM-kNN method for quasar-star classification[J];Science China(Physics,Mechanics & Astronomy);2013年06期
7 楊卓犖;;基于YARN構(gòu)建多功能分布式集群[J];程序員;2013年06期
8 張玉芳;萬斌候;熊忠陽;;文本分類中的特征降維方法研究[J];計(jì)算機(jī)應(yīng)用研究;2012年07期
9 錢網(wǎng)偉;;基于MapReduce的ID3決策樹分類算法研究[J];計(jì)算機(jī)與現(xiàn)代化;2012年02期
10 黃小龍;;改進(jìn)的支持向量機(jī)無線網(wǎng)絡(luò)安全檢測(cè)算法模型[J];科技通報(bào);2012年02期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張曉亮;趙平;徐冠青;林日明;;基于一種優(yōu)化的KNN算法在室內(nèi)定位中的應(yīng)用研究[J];電子設(shè)計(jì)工程;2013年07期
2 周樸雄;;用于WEB文檔分類的并行KNN算法[J];計(jì)算機(jī)工程與應(yīng)用;2008年25期
3 郁春江;;基于特征選擇的KNN算法在煤炭勘查工作中的應(yīng)用[J];煤炭技術(shù);2013年12期
4 周靖;劉晉勝;;一種采用類相關(guān)度優(yōu)化距離的KNN算法[J];微計(jì)算機(jī)應(yīng)用;2010年11期
5 孫曉燕;張化祥;計(jì)華;;用于不均衡數(shù)據(jù)集分類的KNN算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年28期
6 谷蕭君;;基于改進(jìn)KNN算法的價(jià)格預(yù)測(cè)模型研究[J];電腦知識(shí)與技術(shù);2010年33期
7 劉科;;基于KNN算法的文本分類[J];科技經(jīng)濟(jì)市場(chǎng);2009年06期
8 錢強(qiáng);龐林斌;高尚;;一種基于改進(jìn)型KNN算法的文本分類方法[J];江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年04期
9 王西平;;基于KNN算法對(duì)在校生考研預(yù)測(cè)模型的應(yīng)用研究[J];信息通信;2014年03期
10 邵莉;;基于粗糙集與改進(jìn)KNN算法的文本分類方法的研究[J];計(jì)算機(jī)與現(xiàn)代化;2012年02期
相關(guān)碩士學(xué)位論文 前4條
1 楊帆;基于改進(jìn)KNN算法的室內(nèi)WIFI定位技術(shù)研究[D];西北工業(yè)大學(xué);2016年
2 陳凱;基于加權(quán)KNN算法的降水相似預(yù)報(bào)方法研究與實(shí)現(xiàn)[D];南京航空航天大學(xué);2014年
3 林U_鋒;文本分類中基于概念聚合的KNN算法優(yōu)化問題研究[D];廣西大學(xué);2013年
4 張飛;基于KNN算法的文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2011年
,本文編號(hào):2199942
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2199942.html