Flink平臺(tái)下Eclat算法的研究及在動(dòng)車組故障關(guān)聯(lián)關(guān)系挖掘中的應(yīng)用
發(fā)布時(shí)間:2021-04-05 23:30
隨著大數(shù)據(jù)時(shí)代的到來,分布式計(jì)算平臺(tái)越來越受到人們的關(guān)注。Apache Flink是一個(gè)完全支持流處理、基于內(nèi)存的分布式計(jì)算平臺(tái)。它把批處理作為流處理的一種極限情況,用流處理的概念來解決批處理,為數(shù)據(jù)分析提供了一個(gè)新的思路和方法。傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法Apriori、FP-Growth、Eclat都有一定的局限性,選擇一個(gè)合適的關(guān)聯(lián)規(guī)則挖掘算法并對(duì)其進(jìn)行改進(jìn)是本篇論文的研究重點(diǎn)之一。動(dòng)車組在日常運(yùn)維中積累了大量的數(shù)據(jù),如何從這些數(shù)據(jù)中獲取知識(shí)以指導(dǎo)動(dòng)車組的運(yùn)維,提高動(dòng)車組運(yùn)行的可靠性,成為一個(gè)亟待解決的問題。本篇論文在Flink平臺(tái)下改進(jìn)Eclat算法并把改進(jìn)后的算法應(yīng)用在動(dòng)車組故障關(guān)聯(lián)關(guān)系挖掘中,主要工作包括:(1)提出了一種基于特定元素比較的判定策略,用于快速判斷交集操作能否得到頻繁項(xiàng)。通過在Eclat算法中添加該判定條件,跳過不能得到頻繁項(xiàng)的交集操作,減少迭代次數(shù),提高算法效率。編寫改進(jìn)前后算法程序,在Flink本地執(zhí)行環(huán)境下分別處理公開數(shù)據(jù)集做對(duì)比實(shí)驗(yàn),驗(yàn)證改進(jìn)方法的有效性。(2)提出了一種數(shù)據(jù)預(yù)處理方法——字段數(shù)字化,用于將動(dòng)車組數(shù)據(jù)中復(fù)雜的文字轉(zhuǎn)換成簡(jiǎn)單的正整數(shù),并記錄這種...
【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
IA州od算法的過程
標(biāo)記為空,掃描過濾后的事務(wù)數(shù)據(jù),如果某個(gè)數(shù)據(jù)項(xiàng)是第一次遇到,??則創(chuàng)建該節(jié)點(diǎn),并在headTable中添加一個(gè)指向該節(jié)點(diǎn)的指針,否則按路徑找到該??項(xiàng)對(duì)應(yīng)的節(jié)點(diǎn),修改節(jié)點(diǎn)信息,得到FP-tree。如圖2-2為FP-tree的一個(gè)結(jié)構(gòu)樣例。??Z:5?^?>?X:1??阿、o?..................s????yl?R:1?)X:3??????S:1??Y:3?、、?/L_J?L__J?..???"?1二「」??——r/、、‘、'??/?、s、?_____??r:3?^?、”:3??I?L_J?/?R:1??;"""I?....??S*3??)?S:2?.?R:1????...I?...?|_v_????..?????????T:3?卜???1?T:2?T:1??圖2-2?FP-tree結(jié)構(gòu)樣例??Figure?2-2?The?example?of?FP-tree?structure??挖掘頻繁項(xiàng)集是由FP-tree樹挖掘出頻繁項(xiàng)集的過程[32]。首先需要先求得每一??個(gè)頻繁項(xiàng)的條件模式基,再以條件模式基為數(shù)據(jù)創(chuàng)建條件FP-tree,若為單一分枝??則列舉出所有組合得到頻繁模式,若為多分枝則遞歸操作直至為單一分枝,得到??的項(xiàng)和頻繁模式連接得到頻繁項(xiàng)集。條件模式基是以查找元素為結(jié)尾的路徑的集??合。FP-Growth算法在挖掘頻繁項(xiàng)集的時(shí)候需要遞歸生成條件FP-tree
北京交通大學(xué)碩士專業(yè)學(xué)位論文?相關(guān)理論和技術(shù)介紹??2.2?Flink?簡(jiǎn)介??Apache?Flink是一個(gè)面向分布式數(shù)據(jù)流處理和批處理的開源計(jì)算平臺(tái),提供了??支持流處理和批處理兩種類型的應(yīng)用功能。該平臺(tái)完全由java代碼實(shí)現(xiàn),目前主??要依靠開源社區(qū)的貢獻(xiàn)發(fā)展。??2.2.1無界流和有界流??Flink平臺(tái)是一個(gè)面向分布式數(shù)據(jù)流處理和批處理的開源計(jì)算平臺(tái),用于對(duì)無??界和有界數(shù)據(jù)流進(jìn)行狀態(tài)計(jì)算。任何類型的數(shù)據(jù)都不可能是憑空產(chǎn)生的,都是作??為事件流產(chǎn)生的,如銀行存取款交易、游戲主播視頻直播、傳感器接收傳遞消息??等,這些無論是文字?jǐn)?shù)據(jù)還是視頻數(shù)據(jù)都是作為流產(chǎn)生的。數(shù)據(jù)可以作為有界流??和無界流來被處理。無界流和有界流如圖2-3所示。??I?I?[??
【參考文獻(xiàn)】:
期刊論文
[1]Spark和Flink的計(jì)算模型對(duì)比研究[J]. 譚勇. 計(jì)算機(jī)產(chǎn)品與流通. 2019(04)
[2]Flink的并行Apriori算法設(shè)計(jì)與實(shí)現(xiàn)[J]. 倪政君,夏哲雷. 中國(guó)計(jì)量大學(xué)學(xué)報(bào). 2018(02)
[3]基于Hadoop、Spark及Flink大規(guī)模數(shù)據(jù)分析的性能評(píng)價(jià)[J]. 代明竹,高嵩峰. 中國(guó)電子科學(xué)研究院學(xué)報(bào). 2018(02)
[4]基于MapReduce計(jì)算模型的并行關(guān)聯(lián)規(guī)則挖掘算法研究綜述[J]. 肖文,胡娟,周曉峰. 計(jì)算機(jī)應(yīng)用研究. 2018(01)
[5]動(dòng)車組車載信息綜合應(yīng)用系統(tǒng)研究[J]. 李金波. 鐵路計(jì)算機(jī)應(yīng)用. 2017(07)
[6]基于Flink平臺(tái)的應(yīng)用研究[J]. 蔡鯤鵬. 現(xiàn)代工業(yè)經(jīng)濟(jì)和信息化. 2017(02)
[7]大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J]. 李國(guó)杰,程學(xué)旗. 中國(guó)科學(xué)院院刊. 2012(06)
[8]幾種典型關(guān)聯(lián)規(guī)則算法的分析與比較[J]. 胡佳. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2011(17)
[9]關(guān)聯(lián)規(guī)則挖掘綜述[J]. 蔡偉杰,張曉輝,朱建秋,朱揚(yáng)勇. 計(jì)算機(jī)工程. 2001(05)
博士論文
[1]基于非規(guī)范知識(shí)處理的高速列車綜合智能故障診斷方法研究[D]. 宋龍龍.北京交通大學(xué) 2016
碩士論文
[1]基于概念漂移流數(shù)據(jù)分類算法研究及其分布式實(shí)現(xiàn)[D]. 歐陽碧娜.北京郵電大學(xué) 2018
[2]基于數(shù)據(jù)流的分布式實(shí)時(shí)推薦算法的研究與實(shí)現(xiàn)[D]. 叢義昊.北京郵電大學(xué) 2018
[3]高速鐵路動(dòng)車組故障關(guān)聯(lián)關(guān)系分析的研究[D]. 郭玉霞.北京交通大學(xué) 2018
[4]頻繁項(xiàng)集快速挖掘算法研究及應(yīng)用[D]. 崔馨月.太原理工大學(xué) 2017
[5]WTD車載設(shè)備在線監(jiān)測(cè)與健康評(píng)估技術(shù)研究與應(yīng)用[D]. 劉春.北京交通大學(xué) 2017
[6]流式計(jì)算模式的性能研究與優(yōu)化[D]. 王蒙.北京郵電大學(xué) 2017
[7]大數(shù)據(jù)環(huán)境下動(dòng)車組故障關(guān)聯(lián)關(guān)系分析關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 汲磊舉.北京交通大學(xué) 2016
[8]數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的改進(jìn)與并行化處理[D]. 董金鳳.哈爾濱理工大學(xué) 2016
[9]動(dòng)車組狀態(tài)維修關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 李鵬程.北京交通大學(xué) 2015
[10]基于關(guān)聯(lián)規(guī)則的動(dòng)車組相關(guān)部件故障診斷分析及應(yīng)用研究[D]. 趙懷昕.北京交通大學(xué) 2012
本文編號(hào):3120304
【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
IA州od算法的過程
標(biāo)記為空,掃描過濾后的事務(wù)數(shù)據(jù),如果某個(gè)數(shù)據(jù)項(xiàng)是第一次遇到,??則創(chuàng)建該節(jié)點(diǎn),并在headTable中添加一個(gè)指向該節(jié)點(diǎn)的指針,否則按路徑找到該??項(xiàng)對(duì)應(yīng)的節(jié)點(diǎn),修改節(jié)點(diǎn)信息,得到FP-tree。如圖2-2為FP-tree的一個(gè)結(jié)構(gòu)樣例。??Z:5?^?>?X:1??阿、o?..................s????yl?R:1?)X:3??????S:1??Y:3?、、?/L_J?L__J?..???"?1二「」??——r/、、‘、'??/?、s、?_____??r:3?^?、”:3??I?L_J?/?R:1??;"""I?....??S*3??)?S:2?.?R:1????...I?...?|_v_????..?????????T:3?卜???1?T:2?T:1??圖2-2?FP-tree結(jié)構(gòu)樣例??Figure?2-2?The?example?of?FP-tree?structure??挖掘頻繁項(xiàng)集是由FP-tree樹挖掘出頻繁項(xiàng)集的過程[32]。首先需要先求得每一??個(gè)頻繁項(xiàng)的條件模式基,再以條件模式基為數(shù)據(jù)創(chuàng)建條件FP-tree,若為單一分枝??則列舉出所有組合得到頻繁模式,若為多分枝則遞歸操作直至為單一分枝,得到??的項(xiàng)和頻繁模式連接得到頻繁項(xiàng)集。條件模式基是以查找元素為結(jié)尾的路徑的集??合。FP-Growth算法在挖掘頻繁項(xiàng)集的時(shí)候需要遞歸生成條件FP-tree
北京交通大學(xué)碩士專業(yè)學(xué)位論文?相關(guān)理論和技術(shù)介紹??2.2?Flink?簡(jiǎn)介??Apache?Flink是一個(gè)面向分布式數(shù)據(jù)流處理和批處理的開源計(jì)算平臺(tái),提供了??支持流處理和批處理兩種類型的應(yīng)用功能。該平臺(tái)完全由java代碼實(shí)現(xiàn),目前主??要依靠開源社區(qū)的貢獻(xiàn)發(fā)展。??2.2.1無界流和有界流??Flink平臺(tái)是一個(gè)面向分布式數(shù)據(jù)流處理和批處理的開源計(jì)算平臺(tái),用于對(duì)無??界和有界數(shù)據(jù)流進(jìn)行狀態(tài)計(jì)算。任何類型的數(shù)據(jù)都不可能是憑空產(chǎn)生的,都是作??為事件流產(chǎn)生的,如銀行存取款交易、游戲主播視頻直播、傳感器接收傳遞消息??等,這些無論是文字?jǐn)?shù)據(jù)還是視頻數(shù)據(jù)都是作為流產(chǎn)生的。數(shù)據(jù)可以作為有界流??和無界流來被處理。無界流和有界流如圖2-3所示。??I?I?[??
【參考文獻(xiàn)】:
期刊論文
[1]Spark和Flink的計(jì)算模型對(duì)比研究[J]. 譚勇. 計(jì)算機(jī)產(chǎn)品與流通. 2019(04)
[2]Flink的并行Apriori算法設(shè)計(jì)與實(shí)現(xiàn)[J]. 倪政君,夏哲雷. 中國(guó)計(jì)量大學(xué)學(xué)報(bào). 2018(02)
[3]基于Hadoop、Spark及Flink大規(guī)模數(shù)據(jù)分析的性能評(píng)價(jià)[J]. 代明竹,高嵩峰. 中國(guó)電子科學(xué)研究院學(xué)報(bào). 2018(02)
[4]基于MapReduce計(jì)算模型的并行關(guān)聯(lián)規(guī)則挖掘算法研究綜述[J]. 肖文,胡娟,周曉峰. 計(jì)算機(jī)應(yīng)用研究. 2018(01)
[5]動(dòng)車組車載信息綜合應(yīng)用系統(tǒng)研究[J]. 李金波. 鐵路計(jì)算機(jī)應(yīng)用. 2017(07)
[6]基于Flink平臺(tái)的應(yīng)用研究[J]. 蔡鯤鵬. 現(xiàn)代工業(yè)經(jīng)濟(jì)和信息化. 2017(02)
[7]大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J]. 李國(guó)杰,程學(xué)旗. 中國(guó)科學(xué)院院刊. 2012(06)
[8]幾種典型關(guān)聯(lián)規(guī)則算法的分析與比較[J]. 胡佳. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2011(17)
[9]關(guān)聯(lián)規(guī)則挖掘綜述[J]. 蔡偉杰,張曉輝,朱建秋,朱揚(yáng)勇. 計(jì)算機(jī)工程. 2001(05)
博士論文
[1]基于非規(guī)范知識(shí)處理的高速列車綜合智能故障診斷方法研究[D]. 宋龍龍.北京交通大學(xué) 2016
碩士論文
[1]基于概念漂移流數(shù)據(jù)分類算法研究及其分布式實(shí)現(xiàn)[D]. 歐陽碧娜.北京郵電大學(xué) 2018
[2]基于數(shù)據(jù)流的分布式實(shí)時(shí)推薦算法的研究與實(shí)現(xiàn)[D]. 叢義昊.北京郵電大學(xué) 2018
[3]高速鐵路動(dòng)車組故障關(guān)聯(lián)關(guān)系分析的研究[D]. 郭玉霞.北京交通大學(xué) 2018
[4]頻繁項(xiàng)集快速挖掘算法研究及應(yīng)用[D]. 崔馨月.太原理工大學(xué) 2017
[5]WTD車載設(shè)備在線監(jiān)測(cè)與健康評(píng)估技術(shù)研究與應(yīng)用[D]. 劉春.北京交通大學(xué) 2017
[6]流式計(jì)算模式的性能研究與優(yōu)化[D]. 王蒙.北京郵電大學(xué) 2017
[7]大數(shù)據(jù)環(huán)境下動(dòng)車組故障關(guān)聯(lián)關(guān)系分析關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 汲磊舉.北京交通大學(xué) 2016
[8]數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的改進(jìn)與并行化處理[D]. 董金鳳.哈爾濱理工大學(xué) 2016
[9]動(dòng)車組狀態(tài)維修關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 李鵬程.北京交通大學(xué) 2015
[10]基于關(guān)聯(lián)規(guī)則的動(dòng)車組相關(guān)部件故障診斷分析及應(yīng)用研究[D]. 趙懷昕.北京交通大學(xué) 2012
本文編號(hào):3120304
本文鏈接:http://sikaile.net/kejilunwen/jiaotonggongchenglunwen/3120304.html
最近更新
教材專著