數(shù)據(jù)流上高效用模式挖掘算法的改進(jìn)研究
發(fā)布時(shí)間:2021-02-27 05:00
隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)的規(guī)模呈現(xiàn)指數(shù)級別增長,如何從這些數(shù)據(jù)中發(fā)現(xiàn)潛在的、價(jià)值高的信息是目前數(shù)據(jù)挖掘領(lǐng)域面臨的主要挑戰(zhàn)。伴隨著數(shù)據(jù)流的出現(xiàn),針對數(shù)據(jù)流的挖掘成為了數(shù)據(jù)挖掘領(lǐng)域中的一個研究熱點(diǎn),其中高效用模式挖掘是數(shù)據(jù)流的一個主要研究方向。當(dāng)前數(shù)據(jù)流上的高效用模式挖掘算法總體上都是基于全局頭表和效用樹這兩種數(shù)據(jù)結(jié)構(gòu)展開挖掘工作的,為了使數(shù)據(jù)流上的高效用模式挖掘算法可以快速有效地執(zhí)行并且適應(yīng)更多的應(yīng)用場景,本文對數(shù)據(jù)流上的高效用模式挖掘算法做了深入的研究,主要工作如下:(1)已有的數(shù)據(jù)流上的高效用模式挖掘算法建立的全局頭表中包含無關(guān)冗余數(shù)據(jù)項(xiàng),并且在挖掘過程中對低效用數(shù)據(jù)項(xiàng)做了無用的處理,增加了額外的時(shí)間開銷。為了提高算法的挖掘效率,本文提出了數(shù)據(jù)流上基于全局修訂頭表和低效用模式預(yù)剪枝策略的高效用模式挖掘算法HUMGRT。該算法通過對全局頭表的修訂,刪除無關(guān)冗余數(shù)據(jù)項(xiàng),同時(shí)利用預(yù)剪枝策略忽略了低效用數(shù)據(jù)項(xiàng),從而提高了算法的挖掘效率。在不同數(shù)據(jù)集上與多個主流算法進(jìn)行對比實(shí)驗(yàn),結(jié)果表明,本文提出的HUMGRT算法有更好的時(shí)間效率。(2)在長事務(wù)場景下,高效用模式挖掘算法運(yùn)行效率不高,且容...
【文章來源】:武漢理工大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:87 頁
【學(xué)位級別】:碩士
【部分圖文】:
不同最小效用下的運(yùn)行時(shí)間對比結(jié)果
35(c)T10.14.D100K(minUT=1.3%,BS=200)(d)Retail(minUT=2.3%,BS=200)圖2-15不同窗口大小下的運(yùn)行時(shí)間對比結(jié)果從圖2-15可以看出,對于不同數(shù)據(jù)集,本文提出的算法HUMGRT相比HUPMS、HUM-UT和IHUM-UT運(yùn)行時(shí)間最少,說明時(shí)間效率得到了有效提升。與二階段算法HUPMS相比,一階段算法HUM-UT、IHUM-UT和HUMGRT的運(yùn)行時(shí)間都大大減少。這是因?yàn)樗惴℉UPMS在挖掘過程中采用高估效用值作為創(chuàng)建子樹的條件,會創(chuàng)建更多的子樹,產(chǎn)生更多的候選項(xiàng)集,而算法HUM-UT、IHUM-UT和HUMGRT在挖掘過程中采用模式的事務(wù)權(quán)重效用值作為創(chuàng)建子樹的條件,產(chǎn)生的子樹數(shù)量遠(yuǎn)遠(yuǎn)小于HUPMS,所以運(yùn)行時(shí)間都大大減少。由一階段算法HUM-UT、IHUM-UT和HUMGRT的運(yùn)行曲線可知,HUMGRT的運(yùn)行時(shí)間最少,這是因?yàn)椋S著窗口大小的減小,無關(guān)冗余數(shù)據(jù)項(xiàng)就會越多,HUMGRT刪除的冗余數(shù)據(jù)項(xiàng)數(shù)量就會越多;隨著窗口大小的增大,對于不同的數(shù)據(jù)集其窗口中填充的總事務(wù)數(shù)量會不斷增加,由定義2-5和定義2-7可知,模式的事務(wù)權(quán)重效用值的增長速度遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)集總效用值的增長速度,則出現(xiàn)低效用數(shù)據(jù)項(xiàng)的概率會逐漸增大,根據(jù)低效用模式預(yù)剪枝策略,在挖掘過程中忽略的低效用數(shù)據(jù)項(xiàng)會越多,從而減少了算法的運(yùn)行時(shí)間,所以HUMGRT的運(yùn)行時(shí)間最少。在稠密度較低的數(shù)據(jù)集上,算法HUMGRT運(yùn)行時(shí)間與HUISW差別不大,這是因?yàn)樗惴℉UISW通過較小的估算效用值提升時(shí)間效率,但是仍然對低效用數(shù)據(jù)項(xiàng)做了無用處理,雖然算法HUMGRT的估算效用值大于算法HUISW,但是其通過低效用模式預(yù)剪枝策略忽略了低效用數(shù)據(jù)項(xiàng),所以運(yùn)行時(shí)間與HUISW差別不大。另外從圖2-15可以看出,隨著窗口大小的增大,五種算法的運(yùn)行時(shí)間都在不斷增加,這是因?yàn)殡S著窗口的增大,創(chuàng)建的樹體積會變大,由于子挖掘是一個遞
不同批大小下的運(yùn)行時(shí)間對比結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]基于DiffNodeset結(jié)構(gòu)的最大頻繁項(xiàng)集挖掘算法[J]. 尹遠(yuǎn),張昌,文凱,鄭云俊. 計(jì)算機(jī)應(yīng)用. 2018(12)
[2]基于滑動窗口挖掘數(shù)據(jù)流高效用項(xiàng)集的有效算法[J]. 郭世明,高宏. 哈爾濱工程大學(xué)學(xué)報(bào). 2018(04)
[3]基于時(shí)態(tài)密度特征的改進(jìn)數(shù)據(jù)流聚類算法[J]. 陳羽中,郭松榮,郭昆,李國輝,林魏超. 小型微型計(jì)算機(jī)系統(tǒng). 2018(01)
[4]一種改進(jìn)的流數(shù)據(jù)上的高效用模式挖掘算法[J]. 謝志軒,李玉強(qiáng). 小型微型計(jì)算機(jī)系統(tǒng). 2017(09)
[5]一種基于距離和采樣機(jī)制的數(shù)據(jù)流分類方法[J]. 胡學(xué)鋼,何俊宏,李培培. 計(jì)算機(jī)應(yīng)用研究. 2018(04)
[6]基于B-list的快速頻繁模式挖掘算法[J]. 李校林,杜托,劉彪. 計(jì)算機(jī)應(yīng)用. 2017(08)
[7]基于有向無環(huán)圖的頻繁模式挖掘算法[J]. 朱益立,鄧珍榮,謝攀. 計(jì)算機(jī)工程與設(shè)計(jì). 2017(05)
[8]基于元組相似度的不完備數(shù)據(jù)填補(bǔ)方法研究[J]. 王俊陸,王玲,王妍,宋寶燕. 計(jì)算機(jī)科學(xué). 2017(02)
[9]概念漂移數(shù)據(jù)流挖掘算法綜述[J]. 丁劍,韓萌,李娟. 計(jì)算機(jī)科學(xué). 2016(12)
[10]一種針對日志數(shù)據(jù)流的實(shí)時(shí)可視化方法[J]. 李慧,陳紅倩,楊倩玉,陳誼. 系統(tǒng)仿真學(xué)報(bào). 2016(09)
博士論文
[1]高效用項(xiàng)集挖掘算法的關(guān)鍵技術(shù)研究[D]. 郭世明.哈爾濱工業(yè)大學(xué) 2017
[2]數(shù)據(jù)流模式挖掘算法及應(yīng)用研究[D]. 王樂.大連理工大學(xué) 2013
碩士論文
[1]基于滑動窗口的數(shù)據(jù)流頻繁項(xiàng)集挖掘算法優(yōu)化研究[D]. 劉晶.天津工業(yè)大學(xué) 2018
[2]基于滑動窗口的數(shù)據(jù)流關(guān)聯(lián)規(guī)則挖掘算法研究[D]. 李鵬飛.天津工業(yè)大學(xué) 2017
[3]不確定性數(shù)據(jù)流頻繁項(xiàng)集挖掘算法研究[D]. 周開申.安徽大學(xué) 2014
本文編號:3053727
【文章來源】:武漢理工大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:87 頁
【學(xué)位級別】:碩士
【部分圖文】:
不同最小效用下的運(yùn)行時(shí)間對比結(jié)果
35(c)T10.14.D100K(minUT=1.3%,BS=200)(d)Retail(minUT=2.3%,BS=200)圖2-15不同窗口大小下的運(yùn)行時(shí)間對比結(jié)果從圖2-15可以看出,對于不同數(shù)據(jù)集,本文提出的算法HUMGRT相比HUPMS、HUM-UT和IHUM-UT運(yùn)行時(shí)間最少,說明時(shí)間效率得到了有效提升。與二階段算法HUPMS相比,一階段算法HUM-UT、IHUM-UT和HUMGRT的運(yùn)行時(shí)間都大大減少。這是因?yàn)樗惴℉UPMS在挖掘過程中采用高估效用值作為創(chuàng)建子樹的條件,會創(chuàng)建更多的子樹,產(chǎn)生更多的候選項(xiàng)集,而算法HUM-UT、IHUM-UT和HUMGRT在挖掘過程中采用模式的事務(wù)權(quán)重效用值作為創(chuàng)建子樹的條件,產(chǎn)生的子樹數(shù)量遠(yuǎn)遠(yuǎn)小于HUPMS,所以運(yùn)行時(shí)間都大大減少。由一階段算法HUM-UT、IHUM-UT和HUMGRT的運(yùn)行曲線可知,HUMGRT的運(yùn)行時(shí)間最少,這是因?yàn)椋S著窗口大小的減小,無關(guān)冗余數(shù)據(jù)項(xiàng)就會越多,HUMGRT刪除的冗余數(shù)據(jù)項(xiàng)數(shù)量就會越多;隨著窗口大小的增大,對于不同的數(shù)據(jù)集其窗口中填充的總事務(wù)數(shù)量會不斷增加,由定義2-5和定義2-7可知,模式的事務(wù)權(quán)重效用值的增長速度遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)集總效用值的增長速度,則出現(xiàn)低效用數(shù)據(jù)項(xiàng)的概率會逐漸增大,根據(jù)低效用模式預(yù)剪枝策略,在挖掘過程中忽略的低效用數(shù)據(jù)項(xiàng)會越多,從而減少了算法的運(yùn)行時(shí)間,所以HUMGRT的運(yùn)行時(shí)間最少。在稠密度較低的數(shù)據(jù)集上,算法HUMGRT運(yùn)行時(shí)間與HUISW差別不大,這是因?yàn)樗惴℉UISW通過較小的估算效用值提升時(shí)間效率,但是仍然對低效用數(shù)據(jù)項(xiàng)做了無用處理,雖然算法HUMGRT的估算效用值大于算法HUISW,但是其通過低效用模式預(yù)剪枝策略忽略了低效用數(shù)據(jù)項(xiàng),所以運(yùn)行時(shí)間與HUISW差別不大。另外從圖2-15可以看出,隨著窗口大小的增大,五種算法的運(yùn)行時(shí)間都在不斷增加,這是因?yàn)殡S著窗口的增大,創(chuàng)建的樹體積會變大,由于子挖掘是一個遞
不同批大小下的運(yùn)行時(shí)間對比結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]基于DiffNodeset結(jié)構(gòu)的最大頻繁項(xiàng)集挖掘算法[J]. 尹遠(yuǎn),張昌,文凱,鄭云俊. 計(jì)算機(jī)應(yīng)用. 2018(12)
[2]基于滑動窗口挖掘數(shù)據(jù)流高效用項(xiàng)集的有效算法[J]. 郭世明,高宏. 哈爾濱工程大學(xué)學(xué)報(bào). 2018(04)
[3]基于時(shí)態(tài)密度特征的改進(jìn)數(shù)據(jù)流聚類算法[J]. 陳羽中,郭松榮,郭昆,李國輝,林魏超. 小型微型計(jì)算機(jī)系統(tǒng). 2018(01)
[4]一種改進(jìn)的流數(shù)據(jù)上的高效用模式挖掘算法[J]. 謝志軒,李玉強(qiáng). 小型微型計(jì)算機(jī)系統(tǒng). 2017(09)
[5]一種基于距離和采樣機(jī)制的數(shù)據(jù)流分類方法[J]. 胡學(xué)鋼,何俊宏,李培培. 計(jì)算機(jī)應(yīng)用研究. 2018(04)
[6]基于B-list的快速頻繁模式挖掘算法[J]. 李校林,杜托,劉彪. 計(jì)算機(jī)應(yīng)用. 2017(08)
[7]基于有向無環(huán)圖的頻繁模式挖掘算法[J]. 朱益立,鄧珍榮,謝攀. 計(jì)算機(jī)工程與設(shè)計(jì). 2017(05)
[8]基于元組相似度的不完備數(shù)據(jù)填補(bǔ)方法研究[J]. 王俊陸,王玲,王妍,宋寶燕. 計(jì)算機(jī)科學(xué). 2017(02)
[9]概念漂移數(shù)據(jù)流挖掘算法綜述[J]. 丁劍,韓萌,李娟. 計(jì)算機(jī)科學(xué). 2016(12)
[10]一種針對日志數(shù)據(jù)流的實(shí)時(shí)可視化方法[J]. 李慧,陳紅倩,楊倩玉,陳誼. 系統(tǒng)仿真學(xué)報(bào). 2016(09)
博士論文
[1]高效用項(xiàng)集挖掘算法的關(guān)鍵技術(shù)研究[D]. 郭世明.哈爾濱工業(yè)大學(xué) 2017
[2]數(shù)據(jù)流模式挖掘算法及應(yīng)用研究[D]. 王樂.大連理工大學(xué) 2013
碩士論文
[1]基于滑動窗口的數(shù)據(jù)流頻繁項(xiàng)集挖掘算法優(yōu)化研究[D]. 劉晶.天津工業(yè)大學(xué) 2018
[2]基于滑動窗口的數(shù)據(jù)流關(guān)聯(lián)規(guī)則挖掘算法研究[D]. 李鵬飛.天津工業(yè)大學(xué) 2017
[3]不確定性數(shù)據(jù)流頻繁項(xiàng)集挖掘算法研究[D]. 周開申.安徽大學(xué) 2014
本文編號:3053727
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3053727.html
最近更新
教材專著