天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

分布式KNN算法在微信公眾號(hào)分類中的應(yīng)用

發(fā)布時(shí)間:2018-08-23 21:16
【摘要】:針對(duì)微信公眾號(hào)數(shù)據(jù)量大幅增長與從事微信活動(dòng)的人們對(duì)其有效信息獲取效率低下的問題,提出對(duì)微信公眾號(hào)信息進(jìn)行梳理并快速并行化分類以及打標(biāo)簽的方法。首先,該方法在介紹微信公眾號(hào)實(shí)際應(yīng)用的前提下,以經(jīng)典K最近鄰(KNN)分類算法為基礎(chǔ),實(shí)踐并分析了單機(jī)KNN算法在效率上的不足;然后,采用Hadoop平臺(tái)實(shí)現(xiàn)了基于MapReduce模型的KNN算法,對(duì)比了單機(jī)與分布式的效率以及對(duì)K值的調(diào)優(yōu),實(shí)驗(yàn)中的樣本訓(xùn)練集通過人為指定,文本相似度的判別分為分詞、特征詞提取、權(quán)重計(jì)算、測(cè)試向量與訓(xùn)練向量夾角計(jì)算等步驟。在24個(gè)類別基礎(chǔ)上,通過對(duì)1 000萬條公眾號(hào)數(shù)據(jù)分類實(shí)驗(yàn),為每個(gè)公眾號(hào)打上了單標(biāo)簽或多標(biāo)簽,優(yōu)化后的分類準(zhǔn)確率達(dá)到82%,其中與生活相關(guān)的公眾號(hào)數(shù)量占比達(dá)70%以上。研究表明使用分類后的結(jié)果,信息針對(duì)特定人群傳播,傳播的轉(zhuǎn)化率有所提升;分布式KNN算法在微信公眾號(hào)數(shù)據(jù)處理方面比單機(jī)算法具有更高的效率和魯棒性。
[Abstract]:In view of the problem that the amount of data of public number of WeChat increases greatly and the people engaged in WeChat activities have low efficiency in obtaining effective information, a method of sorting and tagging the information of public number of WeChat is put forward. First of all, on the basis of introducing the practical application of WeChat Public number, based on the classical K-nearest neighbor (KNN) classification algorithm, the paper puts into practice and analyzes the efficiency deficiency of the single-machine KNN algorithm. The KNN algorithm based on MapReduce model is implemented by using Hadoop platform. The efficiency of single machine and distributed system and the optimization of K value are compared. The sample training set is artificially assigned, and the text similarity can be divided into word segmentation and feature word extraction. Weight calculation, test vector and training vector angle calculation and other steps. On the basis of 24 categories, 10 million public number data were classified with single label or multiple label. The accuracy of the optimized classification reached 82%, in which the number of public numbers related to life accounted for more than 70% of Prida. The results show that the information is transmitted to a specific population and the conversion rate is improved. The distributed KNN algorithm is more efficient and robust than the single algorithm in the public number data processing of WeChat.
【作者單位】: 西南石油大學(xué)計(jì)算機(jī)科學(xué)學(xué)院;
【基金】:國家安全生產(chǎn)總局項(xiàng)目(sichuan-0008-2016AQ,sichuan-0009-2016AQ)
【分類號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前7條

1 李正杰;黃剛;;基于Hadoop平臺(tái)的SVM_KNN分類算法的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2016年03期

2 王金華;喻輝;產(chǎn)文;周向東;施伯樂;;基于KNN+層次SVM的文本自動(dòng)分類技術(shù)[J];計(jì)算機(jī)應(yīng)用與軟件;2016年02期

3 董春濤;李文婷;沈晴霓;吳中海;;Hadoop YARN大數(shù)據(jù)計(jì)算框架及其資源調(diào)度機(jī)制研究[J];信息通信技術(shù);2015年01期

4 黃黎;顧筠;;基于Hadoop平臺(tái)的并行化數(shù)據(jù)分類算法研究[J];制造業(yè)自動(dòng)化;2014年14期

5 牛曉太;;基于KNN算法和10折交叉驗(yàn)證法的支持向量選取算法[J];華中師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年03期

6 史i8;耿晨;齊勇;;一種具有容錯(cuò)機(jī)制的MapReduce模型研究與實(shí)現(xiàn)[J];西安交通大學(xué)學(xué)報(bào);2014年02期

7 岳金媛;徐金安;張玉潔;;面向?qū)@墨I(xiàn)的漢語分詞技術(shù)研究[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年01期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王榮麗;侯秀萍;;基于優(yōu)先級(jí)權(quán)重的Hadoop YARN調(diào)度算法[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2017年04期

2 彭宏恩;;基于Yarn的資源調(diào)度算法研究[J];福建電腦;2017年04期

3 曾沁;李永生;;基于分布式計(jì)算框架的風(fēng)暴三維追蹤方法[J];計(jì)算機(jī)應(yīng)用;2017年04期

4 肖斌;王錦陽;任啟強(qiáng);;分布式KNN算法在微信公眾號(hào)分類中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用;2017年S1期

5 張?jiān)?王東波;朱丹浩;;面向食品安全突發(fā)事件漢語分詞的特征選擇及模型優(yōu)化研究[J];數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn);2017年02期

6 段宏湘;張秋余;張墨逸;;基于歸一化互信息的FCBF特征選擇算法[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2017年01期

7 于金良;朱志祥;李聰穎;;Hadoop MapReduce新舊架構(gòu)的對(duì)比研究綜述[J];計(jì)算機(jī)與數(shù)字工程;2017年01期

8 劉國濤;張燕平;徐晨初;;一種優(yōu)化覆蓋中心的三支決策模型[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2017年03期

9 聶得欣;;Hadoop系統(tǒng)運(yùn)行機(jī)制研究[J];河南財(cái)政稅務(wù)高等?茖W(xué)校學(xué)報(bào);2016年04期

10 馮曉川;隋新;;支持向量機(jī)耦合韋伯局部描述符的圖像偽造檢測(cè)算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2016年07期

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 武霞;董增壽;孟曉燕;;基于大數(shù)據(jù)平臺(tái)hadoop的聚類算法K值優(yōu)化研究[J];太原科技大學(xué)學(xué)報(bào);2015年02期

2 郭明瑋;趙宇宙;項(xiàng)俊平;張陳斌;陳宗海;;基于支持向量機(jī)的目標(biāo)檢測(cè)算法綜述[J];控制與決策;2014年02期

3 李麗萍;;并行支持向量機(jī)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2013年24期

4 侯玉婷;彭進(jìn)業(yè);郝露微;王瑞;;基于KNN的特征自適應(yīng)加權(quán)自然圖像分類研究[J];計(jì)算機(jī)應(yīng)用研究;2014年03期

5 閆永剛;馬廷淮;王建;;KNN分類算法的MapReduce并行化實(shí)現(xiàn)[J];南京航空航天大學(xué)學(xué)報(bào);2013年04期

6 PENG NanBo;ZHANG YanXia;ZHAO YongHeng;;A SVM-kNN method for quasar-star classification[J];Science China(Physics,Mechanics & Astronomy);2013年06期

7 楊卓犖;;基于YARN構(gòu)建多功能分布式集群[J];程序員;2013年06期

8 張玉芳;萬斌候;熊忠陽;;文本分類中的特征降維方法研究[J];計(jì)算機(jī)應(yīng)用研究;2012年07期

9 錢網(wǎng)偉;;基于MapReduce的ID3決策樹分類算法研究[J];計(jì)算機(jī)與現(xiàn)代化;2012年02期

10 黃小龍;;改進(jìn)的支持向量機(jī)無線網(wǎng)絡(luò)安全檢測(cè)算法模型[J];科技通報(bào);2012年02期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張曉亮;趙平;徐冠青;林日明;;基于一種優(yōu)化的KNN算法在室內(nèi)定位中的應(yīng)用研究[J];電子設(shè)計(jì)工程;2013年07期

2 周樸雄;;用于WEB文檔分類的并行KNN算法[J];計(jì)算機(jī)工程與應(yīng)用;2008年25期

3 郁春江;;基于特征選擇的KNN算法在煤炭勘查工作中的應(yīng)用[J];煤炭技術(shù);2013年12期

4 周靖;劉晉勝;;一種采用類相關(guān)度優(yōu)化距離的KNN算法[J];微計(jì)算機(jī)應(yīng)用;2010年11期

5 孫曉燕;張化祥;計(jì)華;;用于不均衡數(shù)據(jù)集分類的KNN算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年28期

6 谷蕭君;;基于改進(jìn)KNN算法的價(jià)格預(yù)測(cè)模型研究[J];電腦知識(shí)與技術(shù);2010年33期

7 劉科;;基于KNN算法的文本分類[J];科技經(jīng)濟(jì)市場(chǎng);2009年06期

8 錢強(qiáng);龐林斌;高尚;;一種基于改進(jìn)型KNN算法的文本分類方法[J];江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年04期

9 王西平;;基于KNN算法對(duì)在校生考研預(yù)測(cè)模型的應(yīng)用研究[J];信息通信;2014年03期

10 邵莉;;基于粗糙集與改進(jìn)KNN算法的文本分類方法的研究[J];計(jì)算機(jī)與現(xiàn)代化;2012年02期

相關(guān)碩士學(xué)位論文 前4條

1 楊帆;基于改進(jìn)KNN算法的室內(nèi)WIFI定位技術(shù)研究[D];西北工業(yè)大學(xué);2016年

2 陳凱;基于加權(quán)KNN算法的降水相似預(yù)報(bào)方法研究與實(shí)現(xiàn)[D];南京航空航天大學(xué);2014年

3 林U_鋒;文本分類中基于概念聚合的KNN算法優(yōu)化問題研究[D];廣西大學(xué);2013年

4 張飛;基于KNN算法的文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2011年



本文編號(hào):2199942

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2199942.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶72d24***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com