天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于時間戳和垂直格式的關(guān)聯(lián)規(guī)則算法研究

發(fā)布時間:2021-02-24 08:35
  隨著計算機技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普及,在生活、社會生產(chǎn)、科學研究上,數(shù)據(jù)的作用越來越重要。從海量數(shù)據(jù)中獲取有效信息可以幫助我們做出正確的決定,數(shù)據(jù)挖掘的任務(wù)便是挖掘數(shù)據(jù)中的有效信息。本文研究的是數(shù)據(jù)挖掘中熱門的關(guān)聯(lián)規(guī)則算法,其目的是挖掘數(shù)據(jù)之間隱藏的聯(lián)系。本文改進的算法是一種用來挖掘后上市商品的關(guān)聯(lián)規(guī)則的算法(SLMCM),這個后上市商品可以引申為后加入數(shù)據(jù)庫的項,是數(shù)據(jù)庫中項的更新。這種算法由于考慮到了數(shù)據(jù)更新,更適應(yīng)實際應(yīng)用。SLMCM算法的關(guān)鍵是加入了時間戳,所以在這也稱為基于時間戳的關(guān)聯(lián)規(guī)則算法。SLMCM算法運行效率極低,非常不適合現(xiàn)在的大數(shù)據(jù)背景。針對此問題,本論文提出了以下改進:(1)提出改進算法E-SLMCM算法,采用垂直結(jié)構(gòu),僅需一次遍歷數(shù)據(jù)庫。由于在將數(shù)據(jù)庫轉(zhuǎn)化為垂直格式時,可以根據(jù)項首次出現(xiàn)的時間直接記錄時間戳,不再需要按原來的算法將每條事務(wù)的各項按時間戳進行排序,節(jié)省了時間。另外提出了新的求項集時間戳的方法,在求項集的時間戳時不用遍歷整個數(shù)據(jù)庫。另外,算法采用了集合枚舉樹升序方法,在原來基礎(chǔ)上效率又提高一倍之多。(2)為提高在密集數(shù)據(jù)庫上的運行效率,在E-SLMC... 

【文章來源】:青島理工大學山東省

【文章頁數(shù)】:65 頁

【學位級別】:碩士

【部分圖文】:

基于時間戳和垂直格式的關(guān)聯(lián)規(guī)則算法研究


E-SLMCM求一項集時間戳和一項集事務(wù)集過程

格式,事務(wù),數(shù)據(jù)集,時間戳


青島理工大學工學碩士學位論文讀取txt文件,如圖3.6為稀疏數(shù)據(jù)集retail在txt文件中的保存方式的截圖,每行為一條事務(wù),事務(wù)中的數(shù)字為事務(wù)中包含項的標號。項之間用空格間隔,事務(wù)之間用換行符間隔。如圖3.6中,第一行代表的事務(wù)中包含30、31、32三個項。圖3.7為保存在txt文件中的密集數(shù)據(jù)集pumsb數(shù)據(jù)集的截圖(由于截圖大小所限,截圖未能顯示完整的每條事務(wù),pusmb每條事務(wù)的實際長度要遠大于截圖所顯示的事務(wù)長度),可見密集型數(shù)據(jù)集每條事務(wù)包含的項數(shù)較大。圖3.6稀疏數(shù)據(jù)集retail的保存格式圖3.7密集數(shù)據(jù)集pusmb的保存格式本文所列舉實驗一共涉及5個數(shù)據(jù)集,分別是:retail、foodmart、mushroom、pusmb、chess。其中retail和foodmart的數(shù)據(jù)來自于真實的零售商客戶交易記錄;mushroom來自于UCI的蘑菇數(shù)據(jù),pusmb是人口和住房普查數(shù)據(jù),chess來自于UCI的國際象棋數(shù)據(jù)。表格3.5是這五個數(shù)據(jù)集的一些關(guān)鍵的特征。表3.5數(shù)據(jù)集特征數(shù)據(jù)集事務(wù)數(shù)項數(shù)事務(wù)平均長度類型foodmart414115595稀疏retail881621640710稀疏mushroom812412023密集chess31967637密集pusmb49046211374密集3.5.4實驗與分析表7是對稀疏型數(shù)據(jù)集retail在最小支持度閾值為0.006時的挖掘結(jié)果,表8是對密集型數(shù)據(jù)集mushroom在最小支持度閾值為0.25時的挖掘結(jié)果。兩個表分別列出了四種算法不同項數(shù)的項集的數(shù)量。從中得出,帶時間戳的算法比不帶時間戳的算法挖掘出的各項頻繁項集數(shù)都要高出很多。如表3.6中不帶時間戳的頻繁項30

基于時間戳和垂直格式的關(guān)聯(lián)規(guī)則算法研究


pusmb上運行時間的比較

【參考文獻】:
期刊論文
[1]基于Spark的并行頻繁項集挖掘算法[J]. 張素琪,孫云飛,武君艷,顧軍華.  計算機應(yīng)用與軟件. 2019(02)
[2]Spark平臺下關(guān)聯(lián)規(guī)則算法的優(yōu)化實現(xiàn)[J]. 梁璦云,袁丁,嚴清,劉小久.  計算機工程與設(shè)計. 2018(12)
[3]基于Spark的并行FP-Growth算法優(yōu)化及實現(xiàn)[J]. 顧軍華,武君艷,許馨勻,謝志堅,張素琪.  計算機應(yīng)用. 2018(11)
[4]基于負載均衡的并行FP-Growth算法[J]. 高權(quán),萬曉冬.  計算機工程. 2019(03)
[5]基于位存儲Tid的CPU并行化Eclat算法[J]. 孫宗鑫,張桂蕓.  計算機工程. 2018(12)
[6]一種基于Spark框架的并行FP-Growth挖掘算法[J]. 張穩(wěn),羅可.  計算機工程與科學. 2017(08)
[7]基于MapReduce的Apriori算法并行化改進[J]. 秦軍,郝天曙,董倩倩.  計算機技術(shù)與發(fā)展. 2017(04)
[8]基于MapReduce架構(gòu)的并行矩陣Apriori算法[J]. 謝志明,王鵬.  計算機應(yīng)用研究. 2017(02)
[9]一種基于多叉樹的并行Apriori算法[J]. 郭方方,梁曉,王慧強,錢真,陳江濤.  小型微型計算機系統(tǒng). 2015(06)
[10]一種引入索引結(jié)構(gòu)的Apriori并行化改進算法[J]. 臧偉,曹寶香.  電子技術(shù). 2014(06)



本文編號:3049106

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3049106.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶14098***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产一区欧美午夜福利| 国产日韩欧美专区一区| 色婷婷日本视频在线观看| 午夜福利激情性生活免费视频 | 亚洲熟女诱惑一区二区| 精品国产品国语在线不卡| 亚洲香艳网久久五月婷婷| 丝袜破了有美女肉体免费观看| 太香蕉久久国产精品视频| 年轻女房东2中文字幕| 久久精品亚洲精品一区| 成人午夜激情在线免费观看| 91人人妻人人爽人人狠狠| 精品国产日韩一区三区| 大香蕉久草网一区二区三区| 欧美国产日本高清在线| 国产精品亚洲综合色区韩国| 香港国产三级久久精品三级| 99国产高清不卡视频| 亚洲一区二区三区福利视频| 91欧美日韩精品在线| 成年午夜在线免费视频| 亚洲视频一区自拍偷拍另类 | 福利新区一区二区人口| 国产免费人成视频尤物| 国产99久久精品果冻传媒| 大香蕉久草网一区二区三区| 日韩无套内射免费精品| 年轻女房东2中文字幕| 免费一区二区三区少妇| 少妇视频一区二区三区| 亚洲中文字幕视频在线播放| 日韩免费国产91在线| 色好吊视频这里只有精| 国产又粗又猛又黄又爽视频免费| 日韩中文字幕狠狠人妻| 国产免费一区二区三区不卡| 在线中文字幕亚洲欧美一区| 中文字幕中文字幕一区二区| av一区二区三区天堂| 欧美一区二区日韩一区二区|