天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

數(shù)據(jù)流上高效用模式挖掘算法的改進研究

發(fā)布時間:2021-02-27 05:00
  隨著信息技術的高速發(fā)展,數(shù)據(jù)的規(guī)模呈現(xiàn)指數(shù)級別增長,如何從這些數(shù)據(jù)中發(fā)現(xiàn)潛在的、價值高的信息是目前數(shù)據(jù)挖掘領域面臨的主要挑戰(zhàn)。伴隨著數(shù)據(jù)流的出現(xiàn),針對數(shù)據(jù)流的挖掘成為了數(shù)據(jù)挖掘領域中的一個研究熱點,其中高效用模式挖掘是數(shù)據(jù)流的一個主要研究方向。當前數(shù)據(jù)流上的高效用模式挖掘算法總體上都是基于全局頭表和效用樹這兩種數(shù)據(jù)結構展開挖掘工作的,為了使數(shù)據(jù)流上的高效用模式挖掘算法可以快速有效地執(zhí)行并且適應更多的應用場景,本文對數(shù)據(jù)流上的高效用模式挖掘算法做了深入的研究,主要工作如下:(1)已有的數(shù)據(jù)流上的高效用模式挖掘算法建立的全局頭表中包含無關冗余數(shù)據(jù)項,并且在挖掘過程中對低效用數(shù)據(jù)項做了無用的處理,增加了額外的時間開銷。為了提高算法的挖掘效率,本文提出了數(shù)據(jù)流上基于全局修訂頭表和低效用模式預剪枝策略的高效用模式挖掘算法HUMGRT。該算法通過對全局頭表的修訂,刪除無關冗余數(shù)據(jù)項,同時利用預剪枝策略忽略了低效用數(shù)據(jù)項,從而提高了算法的挖掘效率。在不同數(shù)據(jù)集上與多個主流算法進行對比實驗,結果表明,本文提出的HUMGRT算法有更好的時間效率。(2)在長事務場景下,高效用模式挖掘算法運行效率不高,且容... 

【文章來源】:武漢理工大學湖北省 211工程院校 教育部直屬院校

【文章頁數(shù)】:87 頁

【學位級別】:碩士

【部分圖文】:

數(shù)據(jù)流上高效用模式挖掘算法的改進研究


不同最小效用下的運行時間對比結果

曲線,窗口大小,效用值,算法


35(c)T10.14.D100K(minUT=1.3%,BS=200)(d)Retail(minUT=2.3%,BS=200)圖2-15不同窗口大小下的運行時間對比結果從圖2-15可以看出,對于不同數(shù)據(jù)集,本文提出的算法HUMGRT相比HUPMS、HUM-UT和IHUM-UT運行時間最少,說明時間效率得到了有效提升。與二階段算法HUPMS相比,一階段算法HUM-UT、IHUM-UT和HUMGRT的運行時間都大大減少。這是因為算法HUPMS在挖掘過程中采用高估效用值作為創(chuàng)建子樹的條件,會創(chuàng)建更多的子樹,產(chǎn)生更多的候選項集,而算法HUM-UT、IHUM-UT和HUMGRT在挖掘過程中采用模式的事務權重效用值作為創(chuàng)建子樹的條件,產(chǎn)生的子樹數(shù)量遠遠小于HUPMS,所以運行時間都大大減少。由一階段算法HUM-UT、IHUM-UT和HUMGRT的運行曲線可知,HUMGRT的運行時間最少,這是因為,隨著窗口大小的減小,無關冗余數(shù)據(jù)項就會越多,HUMGRT刪除的冗余數(shù)據(jù)項數(shù)量就會越多;隨著窗口大小的增大,對于不同的數(shù)據(jù)集其窗口中填充的總事務數(shù)量會不斷增加,由定義2-5和定義2-7可知,模式的事務權重效用值的增長速度遠遠小于數(shù)據(jù)集總效用值的增長速度,則出現(xiàn)低效用數(shù)據(jù)項的概率會逐漸增大,根據(jù)低效用模式預剪枝策略,在挖掘過程中忽略的低效用數(shù)據(jù)項會越多,從而減少了算法的運行時間,所以HUMGRT的運行時間最少。在稠密度較低的數(shù)據(jù)集上,算法HUMGRT運行時間與HUISW差別不大,這是因為算法HUISW通過較小的估算效用值提升時間效率,但是仍然對低效用數(shù)據(jù)項做了無用處理,雖然算法HUMGRT的估算效用值大于算法HUISW,但是其通過低效用模式預剪枝策略忽略了低效用數(shù)據(jù)項,所以運行時間與HUISW差別不大。另外從圖2-15可以看出,隨著窗口大小的增大,五種算法的運行時間都在不斷增加,這是因為隨著窗口的增大,創(chuàng)建的樹體積會變大,由于子挖掘是一個遞

數(shù)據(jù)流上高效用模式挖掘算法的改進研究


不同批大小下的運行時間對比結果

【參考文獻】:
期刊論文
[1]基于DiffNodeset結構的最大頻繁項集挖掘算法[J]. 尹遠,張昌,文凱,鄭云俊.  計算機應用. 2018(12)
[2]基于滑動窗口挖掘數(shù)據(jù)流高效用項集的有效算法[J]. 郭世明,高宏.  哈爾濱工程大學學報. 2018(04)
[3]基于時態(tài)密度特征的改進數(shù)據(jù)流聚類算法[J]. 陳羽中,郭松榮,郭昆,李國輝,林魏超.  小型微型計算機系統(tǒng). 2018(01)
[4]一種改進的流數(shù)據(jù)上的高效用模式挖掘算法[J]. 謝志軒,李玉強.  小型微型計算機系統(tǒng). 2017(09)
[5]一種基于距離和采樣機制的數(shù)據(jù)流分類方法[J]. 胡學鋼,何俊宏,李培培.  計算機應用研究. 2018(04)
[6]基于B-list的快速頻繁模式挖掘算法[J]. 李校林,杜托,劉彪.  計算機應用. 2017(08)
[7]基于有向無環(huán)圖的頻繁模式挖掘算法[J]. 朱益立,鄧珍榮,謝攀.  計算機工程與設計. 2017(05)
[8]基于元組相似度的不完備數(shù)據(jù)填補方法研究[J]. 王俊陸,王玲,王妍,宋寶燕.  計算機科學. 2017(02)
[9]概念漂移數(shù)據(jù)流挖掘算法綜述[J]. 丁劍,韓萌,李娟.  計算機科學. 2016(12)
[10]一種針對日志數(shù)據(jù)流的實時可視化方法[J]. 李慧,陳紅倩,楊倩玉,陳誼.  系統(tǒng)仿真學報. 2016(09)

博士論文
[1]高效用項集挖掘算法的關鍵技術研究[D]. 郭世明.哈爾濱工業(yè)大學 2017
[2]數(shù)據(jù)流模式挖掘算法及應用研究[D]. 王樂.大連理工大學 2013

碩士論文
[1]基于滑動窗口的數(shù)據(jù)流頻繁項集挖掘算法優(yōu)化研究[D]. 劉晶.天津工業(yè)大學 2018
[2]基于滑動窗口的數(shù)據(jù)流關聯(lián)規(guī)則挖掘算法研究[D]. 李鵬飛.天津工業(yè)大學 2017
[3]不確定性數(shù)據(jù)流頻繁項集挖掘算法研究[D]. 周開申.安徽大學 2014



本文編號:3053727

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3053727.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶f1550***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com