基于STORM的流數(shù)據(jù)分類(lèi)挖掘算法的研究
本文選題:流數(shù)據(jù) + 分類(lèi)挖掘 ; 參考:《南京郵電大學(xué)》2016年碩士論文
【摘要】:隨著網(wǎng)絡(luò)、傳感器技術(shù)的快速發(fā)展與應(yīng)用,越來(lái)越多的流數(shù)據(jù)正在產(chǎn)生,因此針對(duì)流數(shù)據(jù)的挖掘技術(shù)逐步興起。流數(shù)據(jù)挖掘是指從大規(guī)模、快速到達(dá)、異構(gòu)的數(shù)據(jù)源中有效地挖掘有價(jià)值知識(shí)的數(shù)據(jù)處理技術(shù)。本文把面向流數(shù)據(jù)的分類(lèi)挖掘算法作為研究重點(diǎn),以提高流數(shù)據(jù)分類(lèi)挖掘效率以及分類(lèi)精度為目標(biāo),既研究算法本身的改進(jìn)又研究算法基于流數(shù)據(jù)處理平臺(tái)Storm的分布式并行化。以提高實(shí)時(shí)在線流數(shù)據(jù)的分類(lèi)挖掘時(shí)間效率為目標(biāo),將快速?zèng)Q策樹(shù)算法VFDT部署到流數(shù)據(jù)計(jì)算平臺(tái)Storm上,設(shè)計(jì)了VFDT算法基于Storm的分布式并行化方案。通過(guò)正確設(shè)計(jì)Topology中的Spout/Bolt實(shí)現(xiàn)各模塊的功能,通過(guò)為分類(lèi)Bolt設(shè)定多個(gè)Task來(lái)實(shí)現(xiàn)分類(lèi)模塊的并行化;用內(nèi)存數(shù)據(jù)庫(kù)Redis實(shí)現(xiàn)模塊的有效銜接和決策樹(shù)的保存;用消息中間件Kafka來(lái)提高算法對(duì)流數(shù)據(jù)突增的容忍度。基于該方案的VFDT算法實(shí)現(xiàn)與測(cè)試結(jié)果表明,在Storm集群環(huán)境下,VFDT算法的時(shí)間效率相對(duì)于單機(jī)環(huán)境有顯著提高,而且合理設(shè)定分類(lèi)Bolt的Task可使分類(lèi)效率進(jìn)一步提高。針對(duì)高維數(shù)據(jù)集,以進(jìn)一步提高在線流數(shù)據(jù)分類(lèi)模型建立的時(shí)間效率為目標(biāo),對(duì)VFDT算法實(shí)施垂直并行化,設(shè)計(jì)了垂直并行化的快速?zèng)Q策樹(shù)算法(Vertical Parallelism Very Fast Decision Tree,VPVFDT)。該算法將VFDT算法的屬性信息增益的計(jì)算做并行化處理,從而提高樣本處理效率。在此基礎(chǔ)上,通過(guò)將VPVFDT部署到Storm平臺(tái)上運(yùn)行,更進(jìn)一步提高了算法的處理效率,也增強(qiáng)了算法的可拓展性。實(shí)驗(yàn)結(jié)果表明,在Storm集群環(huán)境下,VPVFDT算法在一定程度上可以提高高維訓(xùn)練樣本的處理效率。以提高VFDT算法的分類(lèi)精確度為目標(biāo),將隨機(jī)森林算法思想集成到VFDT算法中,提出了基于隨機(jī)森林的快速?zèng)Q策樹(shù)算法(Random Forest Very Fast Decision Tree,RFVFDT)。RFVFDT算法采用隨機(jī)森林的決策樹(shù)構(gòu)造標(biāo)準(zhǔn)建立分類(lèi)器模型,并采用滑動(dòng)窗口技術(shù)來(lái)滿足流數(shù)據(jù)的無(wú)界性以及避免在算法執(zhí)行過(guò)程中的延遲和數(shù)據(jù)丟失。通過(guò)基于Storm平臺(tái)的仿真實(shí)驗(yàn)驗(yàn)證了RFVFDT算法在分類(lèi)精度和可拓展性方面的優(yōu)勢(shì)。本文所研究的方案和算法能適應(yīng)大規(guī)模流數(shù)據(jù)的實(shí)時(shí)性、快速性和無(wú)限性,研究?jī)?nèi)容較先進(jìn),研究成果具有一定的理論價(jià)值和較好的實(shí)用性,可用于電子商務(wù)、互聯(lián)網(wǎng)等擁有流數(shù)據(jù)的應(yīng)用場(chǎng)景。
[Abstract]:With the rapid development and application of network and sensor technology, more and more stream data are being generated. Stream data mining is a kind of data processing technology which can effectively mine valuable knowledge from large scale, fast arriving and heterogeneous data sources. This paper focuses on the classification mining algorithm for stream data, aiming at improving the efficiency and accuracy of stream data classification mining. It not only studies the improvement of the algorithm itself, but also studies the distributed parallelization of the algorithm based on the stream data processing platform Storm. In order to improve the efficiency of classifying and mining real-time online stream data, the fast decision tree algorithm (VFDT) is deployed to the stream data computing platform (Storm), and a distributed parallelization scheme based on Storm is designed for VFDT algorithm. Through the correct design of Spout/Bolt in Topology to realize the function of each module, by setting several Task for classification Bolt to realize the parallelization of classification module, using the memory database Redis to realize the effective connection of module and the preservation of decision tree; The message middleware Kafka is used to improve the tolerance of algorithm convection data burst. The implementation and test results of VFDT algorithm based on this scheme show that the time efficiency of VFDT algorithm in Storm cluster environment is significantly higher than that in single machine environment, and the classification efficiency can be further improved by reasonably setting the Task of classification Bolt. Aiming at high dimensional data sets, aiming at further improving the time efficiency of online data classification model, the vertical parallelization of VFDT algorithm is implemented, and a fast decision tree algorithm, Vertical Parallelism Very Fast Decision tree algorithm, is designed. The algorithm parallelizes the calculation of the attribute information gain of the VFDT algorithm to improve the efficiency of sample processing. On this basis, by deploying VPVFDT to the Storm platform, the processing efficiency of the algorithm is further improved and the expansibility of the algorithm is also enhanced. The experimental results show that the VPVFDT algorithm can improve the processing efficiency of high-dimensional training samples in Storm cluster environment. In order to improve the classification accuracy of VFDT algorithm, the idea of stochastic forest algorithm is integrated into VFDT algorithm. A fast decision tree algorithm based on random forest, Random Forest Very Fast Decision tree algorithm named Random Forest Very Fast Decision tree, is proposed to establish classifier model by using the decision tree construction standard of random forest. The sliding window technique is used to satisfy the unboundedness of the stream data and to avoid the delay and data loss in the execution of the algorithm. Simulation experiments based on Storm platform verify the advantages of RFVFDT algorithm in classification accuracy and scalability. The scheme and algorithm studied in this paper can adapt to the real-time, fast and infinity of large-scale stream data, and the research content is advanced. The research results have certain theoretical value and good practicability, and can be used in electronic commerce. Application scenarios with streaming data, such as the Internet.
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 葛磊;武芳;王鵬波;張冬林;;3維建筑綜合中基于最小特征的面平移算法[J];測(cè)繪科學(xué)技術(shù)學(xué)報(bào);2009年02期
2 駱雯,孫延明,陳振威,陳錦昌;判斷點(diǎn)與封閉多邊形相對(duì)關(guān)系的改進(jìn)算法[J];機(jī)械;1999年03期
3 李林;盧顯良;;一種基于切割映射的規(guī)則沖突消除算法[J];電子學(xué)報(bào);2008年02期
4 劉巧玲;張紅英;林茂松;;一種簡(jiǎn)單快速的圖像去霧算法[J];計(jì)算機(jī)應(yīng)用與軟件;2013年07期
5 林亞平,楊小林;快速概率分析進(jìn)化算法及其性能研究[J];電子學(xué)報(bào);2001年02期
6 章郡鋒;吳曉紅;黃曉強(qiáng);何小海;;基于暗原色先驗(yàn)去霧的改進(jìn)算法[J];電視技術(shù);2013年23期
7 楊鐵軍;靳婷;;一種動(dòng)態(tài)整周模糊值求解算法及其仿真分析[J];系統(tǒng)工程與電子技術(shù);2007年01期
8 周秀玲;郭平;陳寶維;王靜;;幾種計(jì)算超體積算法的比較研究[J];計(jì)算機(jī)工程;2011年03期
9 吳一戎,胡東輝,彭海良;Chirp Scaling SAR成象算法及其實(shí)現(xiàn)[J];電子科學(xué)學(xué)刊;1995年03期
10 王貴竹;一種產(chǎn)生單向分解值的算法[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年03期
相關(guān)會(huì)議論文 前10條
1 尹冀鋒;;一種新的圖象自適應(yīng)增強(qiáng)算法[A];四川省通信學(xué)會(huì)一九九二年學(xué)術(shù)年會(huì)論文集[C];1992年
2 寧春平;田家瑋;郭延輝;王影;張英濤;鄭桂霞;劉研;;計(jì)算機(jī)輔助增強(qiáng)、分割算法在鑒別乳腺良、惡性腫塊中的應(yīng)用價(jià)值[A];中華醫(yī)學(xué)會(huì)第十次全國(guó)超聲醫(yī)學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2009年
3 謝麗聰;;SVB查詢改寫(xiě)算法的改進(jìn)[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
4 鄭存紅;;復(fù)雜背景下相關(guān)跟蹤算法研究及DSP實(shí)現(xiàn)[A];中國(guó)光學(xué)學(xué)會(huì)2010年光學(xué)大會(huì)論文集[C];2010年
5 楊文杰;吳軍;;RFID抗沖突算法研究[A];2008通信理論與技術(shù)新進(jìn)展——第十三屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 高山;畢篤彥;魏娜;;一種基于UPF的小目標(biāo)TBD算法[A];第十四屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年
7 周磊;張衛(wèi)華;王曉奇;張軍;;基于流水算法的智能路障機(jī)器人設(shè)計(jì)[A];2011年全國(guó)電子信息技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2011年
8 潘巍;李戰(zhàn)懷;陳群;索博;李衛(wèi)榜;;面向MapReduce的非對(duì)稱分片復(fù)制連接算法優(yōu)化技術(shù)研究[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
9 李偉偉;蔡康穎;鄭新;王文成;;3D模型中重復(fù)結(jié)構(gòu)的多尺度快速檢測(cè)算法[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
10 楊任爾;陳懇;勵(lì)金祥;;基于棱邊方向檢測(cè)的運(yùn)動(dòng)自適應(yīng)去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
相關(guān)重要報(bào)紙文章 前1條
1 國(guó)泰君安資產(chǎn)管理部;“算法交易”是道指暴跌罪魁禍?zhǔn)?[N];上海證券報(bào);2010年
相關(guān)博士學(xué)位論文 前10條
1 馮輝;網(wǎng)絡(luò)化的并行與分布式優(yōu)化算法研究及應(yīng)用[D];復(fù)旦大學(xué);2013年
2 許玉杰;云計(jì)算環(huán)境下海量數(shù)據(jù)的并行聚類(lèi)算法研究[D];大連海事大學(xué);2014年
3 李琰;基于貓群算法的高光譜遙感森林類(lèi)型識(shí)別研究[D];東北林業(yè)大學(xué);2015年
4 陳加順;海洋環(huán)境下聚類(lèi)算法的研究[D];南京航空航天大學(xué);2014年
5 王洋;基于群體智能的通信網(wǎng)絡(luò)告警關(guān)聯(lián)規(guī)則挖掘算法研究[D];太原理工大學(xué);2015年
6 雷雨;面向考試時(shí)間表問(wèn)題的啟發(fā)式進(jìn)化算法研究[D];西安電子科技大學(xué);2015年
7 熊霖;大數(shù)據(jù)下的數(shù)據(jù)選擇與學(xué)習(xí)算法研究[D];西安電子科技大學(xué);2015年
8 周雷;基于圖結(jié)構(gòu)的目標(biāo)檢測(cè)與分割算法研究[D];上海交通大學(xué);2014年
9 王冰;人工蜂群算法的改進(jìn)及相關(guān)應(yīng)用的研究[D];北京理工大學(xué);2015年
10 蔣亦樟;多視角和遷移學(xué)習(xí)識(shí)別方法和智能建模研究[D];江南大學(xué);2015年
相關(guān)碩士學(xué)位論文 前10條
1 姚鑫宇;EMD去噪與MUSIC算法在DOA估計(jì)中的聯(lián)合應(yīng)用[D];昆明理工大學(xué);2015年
2 陸進(jìn);面向含噪數(shù)據(jù)聚類(lèi)相關(guān)算法的研究[D];復(fù)旦大學(xué);2014年
3 葉一舟;紅外弱小目標(biāo)檢測(cè)算法研究[D];上海交通大學(xué);2015年
4 王繼重;基于Hadoop和Mahout的K-Means算法設(shè)計(jì)與實(shí)現(xiàn)[D];大連海事大學(xué);2016年
5 何靜;遙感圖像的快速壓縮算法研究[D];北京交通大學(xué);2016年
6 章華燕;鋼軌擦傷檢測(cè)算法研究[D];北京交通大學(xué);2016年
7 王一博;MODIS地震熱異常的數(shù)據(jù)處理與算法研究[D];中國(guó)石油大學(xué)(華東);2014年
8 成鑫;基于組合優(yōu)化問(wèn)題的多目標(biāo)模因算法的研究[D];南京航空航天大學(xué);2015年
9 傅致暉;基于協(xié)同分割的視頻目標(biāo)分割算法研究[D];上海交通大學(xué);2015年
10 張媛;運(yùn)動(dòng)車(chē)輛檢測(cè)與跟蹤算法的研究與實(shí)現(xiàn)[D];大連海事大學(xué);2016年
,本文編號(hào):1832681
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/1832681.html