基于時(shí)間戳和垂直格式的關(guān)聯(lián)規(guī)則算法研究
發(fā)布時(shí)間:2021-02-24 08:35
隨著計(jì)算機(jī)技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普及,在生活、社會(huì)生產(chǎn)、科學(xué)研究上,數(shù)據(jù)的作用越來越重要。從海量數(shù)據(jù)中獲取有效信息可以幫助我們做出正確的決定,數(shù)據(jù)挖掘的任務(wù)便是挖掘數(shù)據(jù)中的有效信息。本文研究的是數(shù)據(jù)挖掘中熱門的關(guān)聯(lián)規(guī)則算法,其目的是挖掘數(shù)據(jù)之間隱藏的聯(lián)系。本文改進(jìn)的算法是一種用來挖掘后上市商品的關(guān)聯(lián)規(guī)則的算法(SLMCM),這個(gè)后上市商品可以引申為后加入數(shù)據(jù)庫的項(xiàng),是數(shù)據(jù)庫中項(xiàng)的更新。這種算法由于考慮到了數(shù)據(jù)更新,更適應(yīng)實(shí)際應(yīng)用。SLMCM算法的關(guān)鍵是加入了時(shí)間戳,所以在這也稱為基于時(shí)間戳的關(guān)聯(lián)規(guī)則算法。SLMCM算法運(yùn)行效率極低,非常不適合現(xiàn)在的大數(shù)據(jù)背景。針對此問題,本論文提出了以下改進(jìn):(1)提出改進(jìn)算法E-SLMCM算法,采用垂直結(jié)構(gòu),僅需一次遍歷數(shù)據(jù)庫。由于在將數(shù)據(jù)庫轉(zhuǎn)化為垂直格式時(shí),可以根據(jù)項(xiàng)首次出現(xiàn)的時(shí)間直接記錄時(shí)間戳,不再需要按原來的算法將每條事務(wù)的各項(xiàng)按時(shí)間戳進(jìn)行排序,節(jié)省了時(shí)間。另外提出了新的求項(xiàng)集時(shí)間戳的方法,在求項(xiàng)集的時(shí)間戳?xí)r不用遍歷整個(gè)數(shù)據(jù)庫。另外,算法采用了集合枚舉樹升序方法,在原來基礎(chǔ)上效率又提高一倍之多。(2)為提高在密集數(shù)據(jù)庫上的運(yùn)行效率,在E-SLMC...
【文章來源】:青島理工大學(xué)山東省
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
E-SLMCM求一項(xiàng)集時(shí)間戳和一項(xiàng)集事務(wù)集過程
青島理工大學(xué)工學(xué)碩士學(xué)位論文讀取txt文件,如圖3.6為稀疏數(shù)據(jù)集retail在txt文件中的保存方式的截圖,每行為一條事務(wù),事務(wù)中的數(shù)字為事務(wù)中包含項(xiàng)的標(biāo)號(hào)。項(xiàng)之間用空格間隔,事務(wù)之間用換行符間隔。如圖3.6中,第一行代表的事務(wù)中包含30、31、32三個(gè)項(xiàng)。圖3.7為保存在txt文件中的密集數(shù)據(jù)集pumsb數(shù)據(jù)集的截圖(由于截圖大小所限,截圖未能顯示完整的每條事務(wù),pusmb每條事務(wù)的實(shí)際長度要遠(yuǎn)大于截圖所顯示的事務(wù)長度),可見密集型數(shù)據(jù)集每條事務(wù)包含的項(xiàng)數(shù)較大。圖3.6稀疏數(shù)據(jù)集retail的保存格式圖3.7密集數(shù)據(jù)集pusmb的保存格式本文所列舉實(shí)驗(yàn)一共涉及5個(gè)數(shù)據(jù)集,分別是:retail、foodmart、mushroom、pusmb、chess。其中retail和foodmart的數(shù)據(jù)來自于真實(shí)的零售商客戶交易記錄;mushroom來自于UCI的蘑菇數(shù)據(jù),pusmb是人口和住房普查數(shù)據(jù),chess來自于UCI的國際象棋數(shù)據(jù)。表格3.5是這五個(gè)數(shù)據(jù)集的一些關(guān)鍵的特征。表3.5數(shù)據(jù)集特征數(shù)據(jù)集事務(wù)數(shù)項(xiàng)數(shù)事務(wù)平均長度類型foodmart414115595稀疏retail881621640710稀疏mushroom812412023密集chess31967637密集pusmb49046211374密集3.5.4實(shí)驗(yàn)與分析表7是對稀疏型數(shù)據(jù)集retail在最小支持度閾值為0.006時(shí)的挖掘結(jié)果,表8是對密集型數(shù)據(jù)集mushroom在最小支持度閾值為0.25時(shí)的挖掘結(jié)果。兩個(gè)表分別列出了四種算法不同項(xiàng)數(shù)的項(xiàng)集的數(shù)量。從中得出,帶時(shí)間戳的算法比不帶時(shí)間戳的算法挖掘出的各項(xiàng)頻繁項(xiàng)集數(shù)都要高出很多。如表3.6中不帶時(shí)間戳的頻繁項(xiàng)30
pusmb上運(yùn)行時(shí)間的比較
【參考文獻(xiàn)】:
期刊論文
[1]基于Spark的并行頻繁項(xiàng)集挖掘算法[J]. 張素琪,孫云飛,武君艷,顧軍華. 計(jì)算機(jī)應(yīng)用與軟件. 2019(02)
[2]Spark平臺(tái)下關(guān)聯(lián)規(guī)則算法的優(yōu)化實(shí)現(xiàn)[J]. 梁璦云,袁丁,嚴(yán)清,劉小久. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(12)
[3]基于Spark的并行FP-Growth算法優(yōu)化及實(shí)現(xiàn)[J]. 顧軍華,武君艷,許馨勻,謝志堅(jiān),張素琪. 計(jì)算機(jī)應(yīng)用. 2018(11)
[4]基于負(fù)載均衡的并行FP-Growth算法[J]. 高權(quán),萬曉冬. 計(jì)算機(jī)工程. 2019(03)
[5]基于位存儲(chǔ)Tid的CPU并行化Eclat算法[J]. 孫宗鑫,張桂蕓. 計(jì)算機(jī)工程. 2018(12)
[6]一種基于Spark框架的并行FP-Growth挖掘算法[J]. 張穩(wěn),羅可. 計(jì)算機(jī)工程與科學(xué). 2017(08)
[7]基于MapReduce的Apriori算法并行化改進(jìn)[J]. 秦軍,郝天曙,董倩倩. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(04)
[8]基于MapReduce架構(gòu)的并行矩陣Apriori算法[J]. 謝志明,王鵬. 計(jì)算機(jī)應(yīng)用研究. 2017(02)
[9]一種基于多叉樹的并行Apriori算法[J]. 郭方方,梁曉,王慧強(qiáng),錢真,陳江濤. 小型微型計(jì)算機(jī)系統(tǒng). 2015(06)
[10]一種引入索引結(jié)構(gòu)的Apriori并行化改進(jìn)算法[J]. 臧偉,曹寶香. 電子技術(shù). 2014(06)
本文編號(hào):3049106
【文章來源】:青島理工大學(xué)山東省
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
E-SLMCM求一項(xiàng)集時(shí)間戳和一項(xiàng)集事務(wù)集過程
青島理工大學(xué)工學(xué)碩士學(xué)位論文讀取txt文件,如圖3.6為稀疏數(shù)據(jù)集retail在txt文件中的保存方式的截圖,每行為一條事務(wù),事務(wù)中的數(shù)字為事務(wù)中包含項(xiàng)的標(biāo)號(hào)。項(xiàng)之間用空格間隔,事務(wù)之間用換行符間隔。如圖3.6中,第一行代表的事務(wù)中包含30、31、32三個(gè)項(xiàng)。圖3.7為保存在txt文件中的密集數(shù)據(jù)集pumsb數(shù)據(jù)集的截圖(由于截圖大小所限,截圖未能顯示完整的每條事務(wù),pusmb每條事務(wù)的實(shí)際長度要遠(yuǎn)大于截圖所顯示的事務(wù)長度),可見密集型數(shù)據(jù)集每條事務(wù)包含的項(xiàng)數(shù)較大。圖3.6稀疏數(shù)據(jù)集retail的保存格式圖3.7密集數(shù)據(jù)集pusmb的保存格式本文所列舉實(shí)驗(yàn)一共涉及5個(gè)數(shù)據(jù)集,分別是:retail、foodmart、mushroom、pusmb、chess。其中retail和foodmart的數(shù)據(jù)來自于真實(shí)的零售商客戶交易記錄;mushroom來自于UCI的蘑菇數(shù)據(jù),pusmb是人口和住房普查數(shù)據(jù),chess來自于UCI的國際象棋數(shù)據(jù)。表格3.5是這五個(gè)數(shù)據(jù)集的一些關(guān)鍵的特征。表3.5數(shù)據(jù)集特征數(shù)據(jù)集事務(wù)數(shù)項(xiàng)數(shù)事務(wù)平均長度類型foodmart414115595稀疏retail881621640710稀疏mushroom812412023密集chess31967637密集pusmb49046211374密集3.5.4實(shí)驗(yàn)與分析表7是對稀疏型數(shù)據(jù)集retail在最小支持度閾值為0.006時(shí)的挖掘結(jié)果,表8是對密集型數(shù)據(jù)集mushroom在最小支持度閾值為0.25時(shí)的挖掘結(jié)果。兩個(gè)表分別列出了四種算法不同項(xiàng)數(shù)的項(xiàng)集的數(shù)量。從中得出,帶時(shí)間戳的算法比不帶時(shí)間戳的算法挖掘出的各項(xiàng)頻繁項(xiàng)集數(shù)都要高出很多。如表3.6中不帶時(shí)間戳的頻繁項(xiàng)30
pusmb上運(yùn)行時(shí)間的比較
【參考文獻(xiàn)】:
期刊論文
[1]基于Spark的并行頻繁項(xiàng)集挖掘算法[J]. 張素琪,孫云飛,武君艷,顧軍華. 計(jì)算機(jī)應(yīng)用與軟件. 2019(02)
[2]Spark平臺(tái)下關(guān)聯(lián)規(guī)則算法的優(yōu)化實(shí)現(xiàn)[J]. 梁璦云,袁丁,嚴(yán)清,劉小久. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(12)
[3]基于Spark的并行FP-Growth算法優(yōu)化及實(shí)現(xiàn)[J]. 顧軍華,武君艷,許馨勻,謝志堅(jiān),張素琪. 計(jì)算機(jī)應(yīng)用. 2018(11)
[4]基于負(fù)載均衡的并行FP-Growth算法[J]. 高權(quán),萬曉冬. 計(jì)算機(jī)工程. 2019(03)
[5]基于位存儲(chǔ)Tid的CPU并行化Eclat算法[J]. 孫宗鑫,張桂蕓. 計(jì)算機(jī)工程. 2018(12)
[6]一種基于Spark框架的并行FP-Growth挖掘算法[J]. 張穩(wěn),羅可. 計(jì)算機(jī)工程與科學(xué). 2017(08)
[7]基于MapReduce的Apriori算法并行化改進(jìn)[J]. 秦軍,郝天曙,董倩倩. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(04)
[8]基于MapReduce架構(gòu)的并行矩陣Apriori算法[J]. 謝志明,王鵬. 計(jì)算機(jī)應(yīng)用研究. 2017(02)
[9]一種基于多叉樹的并行Apriori算法[J]. 郭方方,梁曉,王慧強(qiáng),錢真,陳江濤. 小型微型計(jì)算機(jī)系統(tǒng). 2015(06)
[10]一種引入索引結(jié)構(gòu)的Apriori并行化改進(jìn)算法[J]. 臧偉,曹寶香. 電子技術(shù). 2014(06)
本文編號(hào):3049106
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3049106.html
最近更新
教材專著