天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

面向流數(shù)據(jù)的決策樹分類算法并行化

發(fā)布時間:2019-02-11 10:23
【摘要】:隨著云計算、物聯(lián)網(wǎng)等技術(shù)的興起,流數(shù)據(jù)作為一種新型的大數(shù)據(jù)形態(tài)廣泛存在于電信、互聯(lián)網(wǎng)、金融等領(lǐng)域.與傳統(tǒng)靜態(tài)數(shù)據(jù)相比,大數(shù)據(jù)環(huán)境下的流數(shù)據(jù)具有快速、連續(xù)和隨時間變化等特點.同時數(shù)據(jù)流的隱含分布變化會帶來概念漂移問題.為了適應(yīng)大數(shù)據(jù)環(huán)境下流數(shù)據(jù)分類算法的要求,必須對傳統(tǒng)的靜態(tài)離線數(shù)據(jù)分類算法進(jìn)行改進(jìn),提出基于分布式計算平臺Storm的P-HT并行化算法.算法在滿足Storm流處理平臺要求基礎(chǔ)上,通過滑動窗口機(jī)制、替代子樹機(jī)制和并行化處理,提高了算法的靈活性和通用性,并且能良好地適應(yīng)數(shù)據(jù)流的概念漂移.最后通過實驗驗證該算法的有效性和高效性,結(jié)果表明在與傳統(tǒng)C4.5算法相比精度沒有降低的情況下,改進(jìn)的P-HT算法具有更大的吞吐量和更快的處理速度.
[Abstract]:With the rise of cloud computing, Internet of things and other technologies, streaming data as a new form of big data widely exists in telecommunications, Internet, finance and other fields. Compared with the traditional static data, the streaming data in big data environment is fast, continuous and time-varying. At the same time, the change of the implicit distribution of data flow will bring about the concept drift problem. In order to meet the requirements of stream data classification algorithm under big data environment, the traditional static off-line data classification algorithm must be improved, and a P-HT parallelization algorithm based on distributed computing platform Storm is proposed. On the basis of satisfying the requirements of Storm flow processing platform, the algorithm improves the flexibility and generality of the algorithm by sliding window mechanism, replacing subtree mechanism and parallelization processing, and can adapt to the conceptual drift of data flow well. Finally, the effectiveness and efficiency of the proposed algorithm are verified by experiments. The results show that the improved P-HT algorithm has higher throughput and faster processing speed than the traditional C4.5 algorithm.
【作者單位】: 南京郵電大學(xué)計算機(jī)學(xué)院;江蘇省無線傳感網(wǎng)高技術(shù)研究重點實驗室(南京郵電大學(xué));南京郵電大學(xué)先進(jìn)技術(shù)研究院;高維信息智能感知與系統(tǒng)教育部重點實驗室(南京理工大學(xué));
【基金】:國家自然科學(xué)基金項目(61170065) 江蘇省自然科學(xué)基金優(yōu)秀青年基金項目(BK20170100) 國家重點研發(fā)計劃(2017YFB0202200) 江蘇省重點研發(fā)計劃項目(BE2017166)~~
【分類號】:TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 宋馳,劉國華;流數(shù)據(jù)技術(shù)及其應(yīng)用現(xiàn)狀[J];燕山大學(xué)學(xué)報;2005年02期

2 金澈清,錢衛(wèi)寧,周傲英;流數(shù)據(jù)分析與管理綜述[J];軟件學(xué)報;2004年08期

3 聶國梁;盧正鼎;;流數(shù)據(jù)實時近似求和的算法研究[J];小型微型計算機(jī)系統(tǒng);2005年10期

4 李衛(wèi)民;于守健;駱軼姝;樂嘉錦;;流數(shù)據(jù)管理的降載技術(shù):研究進(jìn)展[J];計算機(jī)科學(xué);2007年06期

5 李子杰;鄭誠;;流數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)存儲及管理方法比較研究[J];計算機(jī)技術(shù)與發(fā)展;2009年04期

6 潘靜;于宏偉;;流數(shù)據(jù)管理降載技術(shù)研究綜述[J];中國管理信息化;2009年21期

7 鄒永貴;龔海平;夏英;宋強(qiáng);;一種面向流數(shù)據(jù)頻繁項挖掘的降載策略[J];計算機(jī)應(yīng)用研究;2011年04期

8 聶國梁;盧正鼎;聶國棟;;流數(shù)據(jù)近似統(tǒng)計算法研究[J];計算機(jī)科學(xué);2005年04期

9 魏晶晶;金培權(quán);龔育昌;岳麗華;;基于流數(shù)據(jù)的大對象數(shù)據(jù)緩沖機(jī)制[J];計算機(jī)工程;2006年11期

10 楊立;;基于權(quán)重的流數(shù)據(jù)頻繁項挖掘算法的應(yīng)用[J];微型機(jī)與應(yīng)用;2011年02期

相關(guān)會議論文 前3條

1 劉正濤;毛宇光;吳莊;;一種新的流數(shù)據(jù)模型及其擴(kuò)展[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年

2 姚春芬;陳紅;;分布偏斜的流數(shù)據(jù)上的一種直方圖維護(hù)算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2006年

3 孫煥良;趙法信;鮑玉斌;于戈;王大玲;;CD-Stream——一種基于空間劃分的流數(shù)據(jù)密度聚類算法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年

相關(guān)博士學(xué)位論文 前6條

1 于程程;面向評測基準(zhǔn)的社交流數(shù)據(jù)生成[D];華東師范大學(xué);2016年

2 聶國梁;流數(shù)據(jù)統(tǒng)計算法研究[D];華中科技大學(xué);2006年

3 劉建偉;流數(shù)據(jù)查詢系統(tǒng)結(jié)構(gòu)及模式查詢算法的研究[D];東華大學(xué);2005年

4 丁智國;流數(shù)據(jù)在線異常檢測方法研究[D];上海大學(xué);2015年

5 李衛(wèi)民;流數(shù)據(jù)查詢算法若干關(guān)鍵技術(shù)研究[D];東華大學(xué);2008年

6 屠莉;流數(shù)據(jù)的頻繁項挖掘及聚類的關(guān)鍵技術(shù)研究[D];南京航空航天大學(xué);2009年

相關(guān)碩士學(xué)位論文 前10條

1 王晨陽;支持位置謂詞的XML流數(shù)據(jù)查詢技術(shù)[D];北京工業(yè)大學(xué);2015年

2 王中義;基于動態(tài)支持度的流數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘[D];哈爾濱工業(yè)大學(xué);2014年

3 趙丹;面向流數(shù)據(jù)的不平衡樣本分類研究[D];哈爾濱工業(yè)大學(xué);2014年

4 馮學(xué)智;基于宏森林自動機(jī)的XML流數(shù)據(jù)查詢技術(shù)[D];北京工業(yè)大學(xué);2015年

5 徐靂靂;物流數(shù)據(jù)中的云聚類調(diào)度算法研究[D];南京郵電大學(xué);2015年

6 肖丙賢;大規(guī)模流數(shù)據(jù)聚集查詢服務(wù)的生成與優(yōu)化[D];北方工業(yè)大學(xué);2016年

7 劉曉斐;分布式流處理系統(tǒng)操作共享優(yōu)化算法研究[D];吉林大學(xué);2016年

8 張媛;基于彈性分布式數(shù)據(jù)集的流數(shù)據(jù)聚類分析[D];華東師范大學(xué);2016年

9 王曾亦;基于內(nèi)存計算的流數(shù)據(jù)處理在飛行大數(shù)據(jù)的研究與應(yīng)用[D];電子科技大學(xué);2016年

10 馬可;基于Storm的流數(shù)據(jù)聚類挖掘算法的研究[D];南京郵電大學(xué);2016年

,

本文編號:2419641

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2419641.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶598f6***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com