面向流數(shù)據(jù)的決策樹分類算法并行化
[Abstract]:With the rise of cloud computing, Internet of things and other technologies, streaming data as a new form of big data widely exists in telecommunications, Internet, finance and other fields. Compared with the traditional static data, the streaming data in big data environment is fast, continuous and time-varying. At the same time, the change of the implicit distribution of data flow will bring about the concept drift problem. In order to meet the requirements of stream data classification algorithm under big data environment, the traditional static off-line data classification algorithm must be improved, and a P-HT parallelization algorithm based on distributed computing platform Storm is proposed. On the basis of satisfying the requirements of Storm flow processing platform, the algorithm improves the flexibility and generality of the algorithm by sliding window mechanism, replacing subtree mechanism and parallelization processing, and can adapt to the conceptual drift of data flow well. Finally, the effectiveness and efficiency of the proposed algorithm are verified by experiments. The results show that the improved P-HT algorithm has higher throughput and faster processing speed than the traditional C4.5 algorithm.
【作者單位】: 南京郵電大學(xué)計算機(jī)學(xué)院;江蘇省無線傳感網(wǎng)高技術(shù)研究重點實驗室(南京郵電大學(xué));南京郵電大學(xué)先進(jìn)技術(shù)研究院;高維信息智能感知與系統(tǒng)教育部重點實驗室(南京理工大學(xué));
【基金】:國家自然科學(xué)基金項目(61170065) 江蘇省自然科學(xué)基金優(yōu)秀青年基金項目(BK20170100) 國家重點研發(fā)計劃(2017YFB0202200) 江蘇省重點研發(fā)計劃項目(BE2017166)~~
【分類號】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 宋馳,劉國華;流數(shù)據(jù)技術(shù)及其應(yīng)用現(xiàn)狀[J];燕山大學(xué)學(xué)報;2005年02期
2 金澈清,錢衛(wèi)寧,周傲英;流數(shù)據(jù)分析與管理綜述[J];軟件學(xué)報;2004年08期
3 聶國梁;盧正鼎;;流數(shù)據(jù)實時近似求和的算法研究[J];小型微型計算機(jī)系統(tǒng);2005年10期
4 李衛(wèi)民;于守健;駱軼姝;樂嘉錦;;流數(shù)據(jù)管理的降載技術(shù):研究進(jìn)展[J];計算機(jī)科學(xué);2007年06期
5 李子杰;鄭誠;;流數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)存儲及管理方法比較研究[J];計算機(jī)技術(shù)與發(fā)展;2009年04期
6 潘靜;于宏偉;;流數(shù)據(jù)管理降載技術(shù)研究綜述[J];中國管理信息化;2009年21期
7 鄒永貴;龔海平;夏英;宋強(qiáng);;一種面向流數(shù)據(jù)頻繁項挖掘的降載策略[J];計算機(jī)應(yīng)用研究;2011年04期
8 聶國梁;盧正鼎;聶國棟;;流數(shù)據(jù)近似統(tǒng)計算法研究[J];計算機(jī)科學(xué);2005年04期
9 魏晶晶;金培權(quán);龔育昌;岳麗華;;基于流數(shù)據(jù)的大對象數(shù)據(jù)緩沖機(jī)制[J];計算機(jī)工程;2006年11期
10 楊立;;基于權(quán)重的流數(shù)據(jù)頻繁項挖掘算法的應(yīng)用[J];微型機(jī)與應(yīng)用;2011年02期
相關(guān)會議論文 前3條
1 劉正濤;毛宇光;吳莊;;一種新的流數(shù)據(jù)模型及其擴(kuò)展[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年
2 姚春芬;陳紅;;分布偏斜的流數(shù)據(jù)上的一種直方圖維護(hù)算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2006年
3 孫煥良;趙法信;鮑玉斌;于戈;王大玲;;CD-Stream——一種基于空間劃分的流數(shù)據(jù)密度聚類算法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
相關(guān)博士學(xué)位論文 前6條
1 于程程;面向評測基準(zhǔn)的社交流數(shù)據(jù)生成[D];華東師范大學(xué);2016年
2 聶國梁;流數(shù)據(jù)統(tǒng)計算法研究[D];華中科技大學(xué);2006年
3 劉建偉;流數(shù)據(jù)查詢系統(tǒng)結(jié)構(gòu)及模式查詢算法的研究[D];東華大學(xué);2005年
4 丁智國;流數(shù)據(jù)在線異常檢測方法研究[D];上海大學(xué);2015年
5 李衛(wèi)民;流數(shù)據(jù)查詢算法若干關(guān)鍵技術(shù)研究[D];東華大學(xué);2008年
6 屠莉;流數(shù)據(jù)的頻繁項挖掘及聚類的關(guān)鍵技術(shù)研究[D];南京航空航天大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 王晨陽;支持位置謂詞的XML流數(shù)據(jù)查詢技術(shù)[D];北京工業(yè)大學(xué);2015年
2 王中義;基于動態(tài)支持度的流數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘[D];哈爾濱工業(yè)大學(xué);2014年
3 趙丹;面向流數(shù)據(jù)的不平衡樣本分類研究[D];哈爾濱工業(yè)大學(xué);2014年
4 馮學(xué)智;基于宏森林自動機(jī)的XML流數(shù)據(jù)查詢技術(shù)[D];北京工業(yè)大學(xué);2015年
5 徐靂靂;物流數(shù)據(jù)中的云聚類調(diào)度算法研究[D];南京郵電大學(xué);2015年
6 肖丙賢;大規(guī)模流數(shù)據(jù)聚集查詢服務(wù)的生成與優(yōu)化[D];北方工業(yè)大學(xué);2016年
7 劉曉斐;分布式流處理系統(tǒng)操作共享優(yōu)化算法研究[D];吉林大學(xué);2016年
8 張媛;基于彈性分布式數(shù)據(jù)集的流數(shù)據(jù)聚類分析[D];華東師范大學(xué);2016年
9 王曾亦;基于內(nèi)存計算的流數(shù)據(jù)處理在飛行大數(shù)據(jù)的研究與應(yīng)用[D];電子科技大學(xué);2016年
10 馬可;基于Storm的流數(shù)據(jù)聚類挖掘算法的研究[D];南京郵電大學(xué);2016年
,本文編號:2419641
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2419641.html