天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

不均勻網(wǎng)格數(shù)據(jù)流聚類及其追溯系統(tǒng)中應(yīng)用

發(fā)布時間:2021-05-10 10:08
  隨著產(chǎn)品追溯系統(tǒng)的應(yīng)用推廣,追溯數(shù)據(jù)量急劇增加,追溯數(shù)據(jù)作為一種典型的數(shù)據(jù)流具有重要的研究意義和應(yīng)用價值。數(shù)據(jù)流挖掘已經(jīng)成為當(dāng)前數(shù)據(jù)挖掘領(lǐng)域研究熱點之一,在有限的內(nèi)存中對數(shù)據(jù)流快速處理以獲得高質(zhì)量聚類成為數(shù)據(jù)流挖掘的一個重要方向;诿芏染W(wǎng)格的數(shù)據(jù)流聚類方法計算速度快、可形成任意形狀簇,但存在參數(shù)難以設(shè)置、聚類精度低等不足。針對這些缺點,本文改進基于密度網(wǎng)格數(shù)據(jù)流聚類算法,并設(shè)計實現(xiàn)并行化算法,最后將其應(yīng)用到追溯系統(tǒng)中。所做工作總結(jié)如下:(1)基于D-Stream算法提出結(jié)合質(zhì)心的不均勻網(wǎng)格數(shù)據(jù)流聚類算法NCDStream。算法首先通過加權(quán)平均密度設(shè)置自適應(yīng)參數(shù),并根據(jù)網(wǎng)格簇數(shù)量動態(tài)調(diào)整閾值。其次對網(wǎng)格簇邊緣的稀疏網(wǎng)格采用不均勻劃分,提高聚類精度。然后使用并查集優(yōu)化網(wǎng)格簇合并,提高聚類效率。最后采用金字塔模型存儲時間快照為網(wǎng)格簇演化分析提供依據(jù)。實驗表明,相比于其他算法,NCD-Stream算法聚類效果更好,執(zhí)行效率更高。(2)基于NCD-Stream提出面向分布式環(huán)境的數(shù)據(jù)流聚類算法DNCD-Stream。算法將數(shù)據(jù)空間分成多個網(wǎng)格塊并行地進行局部聚類,并判斷網(wǎng)格塊的邊界網(wǎng)格狀態(tài)進行... 

【文章來源】:中國石油大學(xué)(北京)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:67 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 研究目的與意義
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 本文研究內(nèi)容
    1.4 本文組織架構(gòu)
第2章 相關(guān)理論與技術(shù)
    2.1 數(shù)據(jù)流的特征
    2.2 數(shù)據(jù)流相關(guān)技術(shù)
    2.3 聚類與數(shù)據(jù)流聚類概述
    2.4 Spark大數(shù)據(jù)處理框架概述
        2.4.1 彈性分布式數(shù)據(jù)集
        2.4.2 Spark Streaming
    2.5 本章小結(jié)
第3章 結(jié)合質(zhì)心的不均勻網(wǎng)格數(shù)據(jù)流聚類算法
    3.1 D-Stream算法介紹
        3.1.1 基本定義
        3.1.2 時間周期gap的確定
        3.1.3 松散網(wǎng)格的檢測和刪除
        3.1.4 D-Stream算法不足之處
    3.2 NCD-Stream算法設(shè)計
        3.2.1 網(wǎng)格密度閾值的動態(tài)設(shè)定
        3.2.2 基于并查集的效率優(yōu)化
        3.2.3 簇邊緣判定方法
        3.2.4 NCD-Stream算法描述
    3.3 實驗分析
        3.3.1 聚類效果評價指標(biāo)
        3.3.2 算法參數(shù)設(shè)置
        3.3.3 聚類質(zhì)量評價
        3.3.4 執(zhí)行效率對比
    3.4 本章小結(jié)
第4章 分布式數(shù)據(jù)流聚類算法
    4.1 DNCD-Stream算法設(shè)計
        4.1.1 相關(guān)定義
        4.1.2 并行化方法
    4.2 DNCD-Stream算法描述
        4.2.1 冷啟動
        4.2.2 局部聚類方法
        4.2.3 全局聚類方法
    4.3 基于Spark Streaming的算法實現(xiàn)
    4.4 實驗分析
        4.4.1 聚類質(zhì)量評價
        4.4.2 執(zhí)行效率對比
    4.5 本章小結(jié)
第5章 追溯數(shù)據(jù)流處理系統(tǒng)設(shè)計與實現(xiàn)
    5.1 系統(tǒng)設(shè)計
    5.2 系統(tǒng)實現(xiàn)
        5.2.1 數(shù)據(jù)接收模塊
        5.2.2 數(shù)據(jù)預(yù)處理模塊
        5.2.3 數(shù)據(jù)傳輸模塊
        5.2.4 流計算模塊
    5.3 本章小結(jié)
第6章 總結(jié)與展望
    6.1 論文總結(jié)
    6.2 未來工作展望
參考文獻
附錄A 攻讀碩士學(xué)位期間的研究成果
致謝


【參考文獻】:
期刊論文
[1]基于網(wǎng)格耦合的數(shù)據(jù)流聚類[J]. 張東月,周麗華,吳湘云,趙麗紅.  軟件學(xué)報. 2019(03)
[2]分布式數(shù)據(jù)流聚類算法及其基于Storm的實現(xiàn)[J]. 萬新貴,李玲娟,馬可.  計算機技術(shù)與發(fā)展. 2017(07)
[3]基于網(wǎng)格密度影響因子的多密度聚類算法[J]. 楊善紅,梁金明,李靜雯.  計算機應(yīng)用研究. 2015(03)
[4]基于雙層網(wǎng)格和密度的數(shù)據(jù)流聚類算法[J]. 王治和,楊晏.  計算機工程. 2014(04)
[5]中國農(nóng)產(chǎn)品質(zhì)量安全追溯體系建設(shè)現(xiàn)狀與發(fā)展對策[J]. 楊玲.  世界農(nóng)業(yè). 2012(08)
[6]串行算法并行化處理的數(shù)學(xué)模型與算法描述[J]. 吳越.  計算機技術(shù)與發(fā)展. 2012(05)
[7]基于密度網(wǎng)格的數(shù)據(jù)流聚類算法[J]. 米源,楊燕,李天瑞.  計算機科學(xué). 2011(12)
[8]聚類有效性評價綜述[J]. 楊燕,靳蕃,KAMEL Mohamed.  計算機應(yīng)用研究. 2008(06)
[9]流數(shù)據(jù)挖掘綜述[J]. 孫玉芬,盧炎生.  計算機科學(xué). 2007(01)
[10]家畜和畜產(chǎn)品可追溯系統(tǒng)研究進展[J]. 王立方,陸昌華,謝菊芳,胡肄農(nóng).  農(nóng)業(yè)工程學(xué)報. 2005(07)

博士論文
[1]食品安全可追溯系統(tǒng)研究[D]. 鄭火國.中國農(nóng)業(yè)科學(xué)院 2012

碩士論文
[1]基于密度網(wǎng)格的數(shù)據(jù)流聚類算法研究[D]. 米源.西南交通大學(xué) 2011
[2]基于網(wǎng)格與密度的數(shù)據(jù)流聚類算法研究[D]. 丁金鳳.哈爾濱工程大學(xué) 2010



本文編號:3179181

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3179181.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bc1d8***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com