基于時間戳和垂直格式的關(guān)聯(lián)規(guī)則算法研究
發(fā)布時間:2021-02-24 08:35
隨著計算機技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普及,在生活、社會生產(chǎn)、科學研究上,數(shù)據(jù)的作用越來越重要。從海量數(shù)據(jù)中獲取有效信息可以幫助我們做出正確的決定,數(shù)據(jù)挖掘的任務(wù)便是挖掘數(shù)據(jù)中的有效信息。本文研究的是數(shù)據(jù)挖掘中熱門的關(guān)聯(lián)規(guī)則算法,其目的是挖掘數(shù)據(jù)之間隱藏的聯(lián)系。本文改進的算法是一種用來挖掘后上市商品的關(guān)聯(lián)規(guī)則的算法(SLMCM),這個后上市商品可以引申為后加入數(shù)據(jù)庫的項,是數(shù)據(jù)庫中項的更新。這種算法由于考慮到了數(shù)據(jù)更新,更適應(yīng)實際應(yīng)用。SLMCM算法的關(guān)鍵是加入了時間戳,所以在這也稱為基于時間戳的關(guān)聯(lián)規(guī)則算法。SLMCM算法運行效率極低,非常不適合現(xiàn)在的大數(shù)據(jù)背景。針對此問題,本論文提出了以下改進:(1)提出改進算法E-SLMCM算法,采用垂直結(jié)構(gòu),僅需一次遍歷數(shù)據(jù)庫。由于在將數(shù)據(jù)庫轉(zhuǎn)化為垂直格式時,可以根據(jù)項首次出現(xiàn)的時間直接記錄時間戳,不再需要按原來的算法將每條事務(wù)的各項按時間戳進行排序,節(jié)省了時間。另外提出了新的求項集時間戳的方法,在求項集的時間戳時不用遍歷整個數(shù)據(jù)庫。另外,算法采用了集合枚舉樹升序方法,在原來基礎(chǔ)上效率又提高一倍之多。(2)為提高在密集數(shù)據(jù)庫上的運行效率,在E-SLMC...
【文章來源】:青島理工大學山東省
【文章頁數(shù)】:65 頁
【學位級別】:碩士
【部分圖文】:
E-SLMCM求一項集時間戳和一項集事務(wù)集過程
青島理工大學工學碩士學位論文讀取txt文件,如圖3.6為稀疏數(shù)據(jù)集retail在txt文件中的保存方式的截圖,每行為一條事務(wù),事務(wù)中的數(shù)字為事務(wù)中包含項的標號。項之間用空格間隔,事務(wù)之間用換行符間隔。如圖3.6中,第一行代表的事務(wù)中包含30、31、32三個項。圖3.7為保存在txt文件中的密集數(shù)據(jù)集pumsb數(shù)據(jù)集的截圖(由于截圖大小所限,截圖未能顯示完整的每條事務(wù),pusmb每條事務(wù)的實際長度要遠大于截圖所顯示的事務(wù)長度),可見密集型數(shù)據(jù)集每條事務(wù)包含的項數(shù)較大。圖3.6稀疏數(shù)據(jù)集retail的保存格式圖3.7密集數(shù)據(jù)集pusmb的保存格式本文所列舉實驗一共涉及5個數(shù)據(jù)集,分別是:retail、foodmart、mushroom、pusmb、chess。其中retail和foodmart的數(shù)據(jù)來自于真實的零售商客戶交易記錄;mushroom來自于UCI的蘑菇數(shù)據(jù),pusmb是人口和住房普查數(shù)據(jù),chess來自于UCI的國際象棋數(shù)據(jù)。表格3.5是這五個數(shù)據(jù)集的一些關(guān)鍵的特征。表3.5數(shù)據(jù)集特征數(shù)據(jù)集事務(wù)數(shù)項數(shù)事務(wù)平均長度類型foodmart414115595稀疏retail881621640710稀疏mushroom812412023密集chess31967637密集pusmb49046211374密集3.5.4實驗與分析表7是對稀疏型數(shù)據(jù)集retail在最小支持度閾值為0.006時的挖掘結(jié)果,表8是對密集型數(shù)據(jù)集mushroom在最小支持度閾值為0.25時的挖掘結(jié)果。兩個表分別列出了四種算法不同項數(shù)的項集的數(shù)量。從中得出,帶時間戳的算法比不帶時間戳的算法挖掘出的各項頻繁項集數(shù)都要高出很多。如表3.6中不帶時間戳的頻繁項30
pusmb上運行時間的比較
【參考文獻】:
期刊論文
[1]基于Spark的并行頻繁項集挖掘算法[J]. 張素琪,孫云飛,武君艷,顧軍華. 計算機應(yīng)用與軟件. 2019(02)
[2]Spark平臺下關(guān)聯(lián)規(guī)則算法的優(yōu)化實現(xiàn)[J]. 梁璦云,袁丁,嚴清,劉小久. 計算機工程與設(shè)計. 2018(12)
[3]基于Spark的并行FP-Growth算法優(yōu)化及實現(xiàn)[J]. 顧軍華,武君艷,許馨勻,謝志堅,張素琪. 計算機應(yīng)用. 2018(11)
[4]基于負載均衡的并行FP-Growth算法[J]. 高權(quán),萬曉冬. 計算機工程. 2019(03)
[5]基于位存儲Tid的CPU并行化Eclat算法[J]. 孫宗鑫,張桂蕓. 計算機工程. 2018(12)
[6]一種基于Spark框架的并行FP-Growth挖掘算法[J]. 張穩(wěn),羅可. 計算機工程與科學. 2017(08)
[7]基于MapReduce的Apriori算法并行化改進[J]. 秦軍,郝天曙,董倩倩. 計算機技術(shù)與發(fā)展. 2017(04)
[8]基于MapReduce架構(gòu)的并行矩陣Apriori算法[J]. 謝志明,王鵬. 計算機應(yīng)用研究. 2017(02)
[9]一種基于多叉樹的并行Apriori算法[J]. 郭方方,梁曉,王慧強,錢真,陳江濤. 小型微型計算機系統(tǒng). 2015(06)
[10]一種引入索引結(jié)構(gòu)的Apriori并行化改進算法[J]. 臧偉,曹寶香. 電子技術(shù). 2014(06)
本文編號:3049106
【文章來源】:青島理工大學山東省
【文章頁數(shù)】:65 頁
【學位級別】:碩士
【部分圖文】:
E-SLMCM求一項集時間戳和一項集事務(wù)集過程
青島理工大學工學碩士學位論文讀取txt文件,如圖3.6為稀疏數(shù)據(jù)集retail在txt文件中的保存方式的截圖,每行為一條事務(wù),事務(wù)中的數(shù)字為事務(wù)中包含項的標號。項之間用空格間隔,事務(wù)之間用換行符間隔。如圖3.6中,第一行代表的事務(wù)中包含30、31、32三個項。圖3.7為保存在txt文件中的密集數(shù)據(jù)集pumsb數(shù)據(jù)集的截圖(由于截圖大小所限,截圖未能顯示完整的每條事務(wù),pusmb每條事務(wù)的實際長度要遠大于截圖所顯示的事務(wù)長度),可見密集型數(shù)據(jù)集每條事務(wù)包含的項數(shù)較大。圖3.6稀疏數(shù)據(jù)集retail的保存格式圖3.7密集數(shù)據(jù)集pusmb的保存格式本文所列舉實驗一共涉及5個數(shù)據(jù)集,分別是:retail、foodmart、mushroom、pusmb、chess。其中retail和foodmart的數(shù)據(jù)來自于真實的零售商客戶交易記錄;mushroom來自于UCI的蘑菇數(shù)據(jù),pusmb是人口和住房普查數(shù)據(jù),chess來自于UCI的國際象棋數(shù)據(jù)。表格3.5是這五個數(shù)據(jù)集的一些關(guān)鍵的特征。表3.5數(shù)據(jù)集特征數(shù)據(jù)集事務(wù)數(shù)項數(shù)事務(wù)平均長度類型foodmart414115595稀疏retail881621640710稀疏mushroom812412023密集chess31967637密集pusmb49046211374密集3.5.4實驗與分析表7是對稀疏型數(shù)據(jù)集retail在最小支持度閾值為0.006時的挖掘結(jié)果,表8是對密集型數(shù)據(jù)集mushroom在最小支持度閾值為0.25時的挖掘結(jié)果。兩個表分別列出了四種算法不同項數(shù)的項集的數(shù)量。從中得出,帶時間戳的算法比不帶時間戳的算法挖掘出的各項頻繁項集數(shù)都要高出很多。如表3.6中不帶時間戳的頻繁項30
pusmb上運行時間的比較
【參考文獻】:
期刊論文
[1]基于Spark的并行頻繁項集挖掘算法[J]. 張素琪,孫云飛,武君艷,顧軍華. 計算機應(yīng)用與軟件. 2019(02)
[2]Spark平臺下關(guān)聯(lián)規(guī)則算法的優(yōu)化實現(xiàn)[J]. 梁璦云,袁丁,嚴清,劉小久. 計算機工程與設(shè)計. 2018(12)
[3]基于Spark的并行FP-Growth算法優(yōu)化及實現(xiàn)[J]. 顧軍華,武君艷,許馨勻,謝志堅,張素琪. 計算機應(yīng)用. 2018(11)
[4]基于負載均衡的并行FP-Growth算法[J]. 高權(quán),萬曉冬. 計算機工程. 2019(03)
[5]基于位存儲Tid的CPU并行化Eclat算法[J]. 孫宗鑫,張桂蕓. 計算機工程. 2018(12)
[6]一種基于Spark框架的并行FP-Growth挖掘算法[J]. 張穩(wěn),羅可. 計算機工程與科學. 2017(08)
[7]基于MapReduce的Apriori算法并行化改進[J]. 秦軍,郝天曙,董倩倩. 計算機技術(shù)與發(fā)展. 2017(04)
[8]基于MapReduce架構(gòu)的并行矩陣Apriori算法[J]. 謝志明,王鵬. 計算機應(yīng)用研究. 2017(02)
[9]一種基于多叉樹的并行Apriori算法[J]. 郭方方,梁曉,王慧強,錢真,陳江濤. 小型微型計算機系統(tǒng). 2015(06)
[10]一種引入索引結(jié)構(gòu)的Apriori并行化改進算法[J]. 臧偉,曹寶香. 電子技術(shù). 2014(06)
本文編號:3049106
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3049106.html
最近更新
教材專著