基于演化算法的高效用項(xiàng)集挖掘算法研究
發(fā)布時(shí)間:2021-09-11 21:45
高效用項(xiàng)集挖掘(Mining High Utility Itemsets,簡(jiǎn)稱(chēng)HUIM)是數(shù)據(jù)挖掘(Data Mining,簡(jiǎn)稱(chēng)DM)和知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,簡(jiǎn)稱(chēng)KDD)領(lǐng)域的重要課題。當(dāng)數(shù)據(jù)集較大或者不同項(xiàng)的數(shù)量較多時(shí),高效用項(xiàng)集挖掘就是一個(gè)NP問(wèn)題。演化算法是經(jīng)常被用來(lái)解決NP問(wèn)題的方法之一。最近,一些基于演化算法挖掘高效用項(xiàng)集的算法被提出,比如HUPEumu-GARM、HUIM-PSO等。這些算法在時(shí)間方面比傳統(tǒng)算法高效,但是需要多次遍歷數(shù)據(jù)集;此外只能挖掘到較少的高效用項(xiàng)集。為了解決以上問(wèn)題,現(xiàn)提出以下幾個(gè)算法:1)提出了基于人工蜂群算法的高效用項(xiàng)集挖掘算法HUIM-ABC。運(yùn)用人工蜂群算法(Artificial Bee Colony,簡(jiǎn)稱(chēng)ABC)挖掘高效用項(xiàng)集,運(yùn)用位圖表示數(shù)據(jù)集;二進(jìn)制向量表示蜜源、三種蜜蜂和項(xiàng)集;運(yùn)用PBVC和DNSG策略加快算法運(yùn)行,PBVC用于檢測(cè)項(xiàng)集是否合理,DNSG動(dòng)態(tài)調(diào)整不合理項(xiàng)集。2)提出了基于生物啟發(fā)計(jì)算的高效用項(xiàng)集挖掘框架Bio-HUIF。該算法將數(shù)據(jù)集表示成位圖;個(gè)體用二進(jìn)制向量來(lái)表示,...
【文章來(lái)源】:北方工業(yè)大學(xué)北京市
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
單
P2?0?1?1?1?0?0?1?1?0?1?1?0?0?1?C2??圖2-1單點(diǎn)交叉??P1?丨1丨0?1丨0丨1?1丨〇|?|l|〇|l|l|〇?llol?Cl?? ̄— ̄ ̄? ̄ ̄??P2?0?1?1?1?0?0?1?0?1?1?0?1?0?1?C2??圖2-2雙點(diǎn)交叉??最簡(jiǎn)單的交叉操作就是在染色體上隨機(jī)選擇交叉點(diǎn),然后互換染色體片段。??具體的交叉操作如圖2-1和圖2-2所示。??2.2.6變異操作??變異操作主要是為了保持上一代到下一代的多樣性。變異改變?nèi)旧w上的一??個(gè)或者多個(gè)基因位。簡(jiǎn)單的形式就是人為設(shè)定變異操作的變異概率。一般而言,??變異概率設(shè)置都比較小。如果變異的概率設(shè)置的太高,這個(gè)搜索的過(guò)程有可能退??化為隨機(jī)搜索。自適應(yīng)的變異率[37]比固定的變異概率表現(xiàn)要好。??nmax?_?pmin?R?i??^?=(/r?一」^^_xr)x?(2-12)??AT?R??最大變異概率??nmin??&?:最小變異概率??%?:迭代次數(shù)??r:時(shí)間或者迭代次數(shù)??及:排名總數(shù)??在算法HUPE_-GARM中,變異概率是隨著迭代次數(shù)的增加而減小的,并??且子代的變異概率是與適應(yīng)度相關(guān)的。最初,較大的變異概率是為了更加充分的??搜索解空間。子代的變異率與它的排名有關(guān)。排名高的個(gè)體相較于排名低的個(gè)體??變異率低。適應(yīng)度最高的個(gè)體可以達(dá)到最優(yōu)解。最小變異概率是為了限制群體的??11??
因?yàn)榛谘莼惴ㄍ诰颍龋眨刹⒉荒艽_保在一定的迭代次數(shù)內(nèi)挖掘到所有的??高效項(xiàng)集,我們就需要對(duì)比不同算法挖掘到的HUIs個(gè)數(shù)。Two-Phase算法從4??個(gè)數(shù)據(jù)集中可以挖掘到所有的HUIs。圖3-2展示對(duì)比試驗(yàn)結(jié)果。??正如圖3-2所示,HUIM-ABC算法在4個(gè)數(shù)據(jù)集中比其他三個(gè)基于演化算??法都可以挖掘到更多的HUIs。平均來(lái)看,HUIM-ABC算法分別在Chess、??Mushroom、Accident_10°/〇和?Connect?數(shù)據(jù)集中可以挖掘到所有?HUIs?的?91.34%,??87.10%,96.65%和91.59%。當(dāng)閾值設(shè)置較高時(shí),例如,Chess數(shù)據(jù)集相對(duì)閾值??30.5%
【參考文獻(xiàn)】:
期刊論文
[1]利用三角模糊數(shù)的語(yǔ)言變量項(xiàng)集減項(xiàng)算法[J]. 陳宇,王娜,王晉東. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(08)
[2]基于經(jīng)驗(yàn)Rademacher復(fù)雜度的頻繁項(xiàng)集發(fā)現(xiàn)隨機(jī)抽樣方法[J]. 葉嘉,趙成貴,吳紅剛. 中國(guó)管理信息化. 2017(07)
[3]基于Nodeset的最大頻繁項(xiàng)集挖掘算法[J]. 林晨,顧君忠. 計(jì)算機(jī)工程. 2016(12)
[4]基于云計(jì)算的最大頻繁項(xiàng)集挖掘算法[J]. 孫鶴旭,孫澤賢,林濤. 中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(03)
[5]滑動(dòng)窗口下數(shù)據(jù)流完全加權(quán)最大頻繁項(xiàng)集挖掘[J]. 王少鵬,聞?dòng)⒂?趙宏. 東北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(07)
[6]基于投影的高效用項(xiàng)集挖掘算法[J]. 王敬華,羅相洲,吳倩. 小型微型計(jì)算機(jī)系統(tǒng). 2016(06)
[7]基于間隔鏈表改進(jìn)的頻繁項(xiàng)集挖掘算法[J]. 徐永秀,劉旭敏,徐維祥. 計(jì)算機(jī)應(yīng)用. 2016(04)
[8]基于開(kāi)項(xiàng)集剪枝的常量條件函數(shù)依賴(lài)挖掘[J]. 周金陵,刁興春,曹建軍. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(03)
[9]基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法[J]. 劉琰,張進(jìn),陳靜,尹美娟,張偉麗. 計(jì)算機(jī)工程與應(yīng)用. 2017(04)
[10]基于頻繁項(xiàng)集的海量短文本聚類(lèi)與主題抽取[J]. 彭敏,黃佳佳,朱佳暉,黃濟(jì)民,劉紀(jì)平. 計(jì)算機(jī)研究與發(fā)展. 2015(09)
本文編號(hào):3393775
【文章來(lái)源】:北方工業(yè)大學(xué)北京市
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
單
P2?0?1?1?1?0?0?1?1?0?1?1?0?0?1?C2??圖2-1單點(diǎn)交叉??P1?丨1丨0?1丨0丨1?1丨〇|?|l|〇|l|l|〇?llol?Cl?? ̄— ̄ ̄? ̄ ̄??P2?0?1?1?1?0?0?1?0?1?1?0?1?0?1?C2??圖2-2雙點(diǎn)交叉??最簡(jiǎn)單的交叉操作就是在染色體上隨機(jī)選擇交叉點(diǎn),然后互換染色體片段。??具體的交叉操作如圖2-1和圖2-2所示。??2.2.6變異操作??變異操作主要是為了保持上一代到下一代的多樣性。變異改變?nèi)旧w上的一??個(gè)或者多個(gè)基因位。簡(jiǎn)單的形式就是人為設(shè)定變異操作的變異概率。一般而言,??變異概率設(shè)置都比較小。如果變異的概率設(shè)置的太高,這個(gè)搜索的過(guò)程有可能退??化為隨機(jī)搜索。自適應(yīng)的變異率[37]比固定的變異概率表現(xiàn)要好。??nmax?_?pmin?R?i??^?=(/r?一」^^_xr)x?(2-12)??AT?R??最大變異概率??nmin??&?:最小變異概率??%?:迭代次數(shù)??r:時(shí)間或者迭代次數(shù)??及:排名總數(shù)??在算法HUPE_-GARM中,變異概率是隨著迭代次數(shù)的增加而減小的,并??且子代的變異概率是與適應(yīng)度相關(guān)的。最初,較大的變異概率是為了更加充分的??搜索解空間。子代的變異率與它的排名有關(guān)。排名高的個(gè)體相較于排名低的個(gè)體??變異率低。適應(yīng)度最高的個(gè)體可以達(dá)到最優(yōu)解。最小變異概率是為了限制群體的??11??
因?yàn)榛谘莼惴ㄍ诰颍龋眨刹⒉荒艽_保在一定的迭代次數(shù)內(nèi)挖掘到所有的??高效項(xiàng)集,我們就需要對(duì)比不同算法挖掘到的HUIs個(gè)數(shù)。Two-Phase算法從4??個(gè)數(shù)據(jù)集中可以挖掘到所有的HUIs。圖3-2展示對(duì)比試驗(yàn)結(jié)果。??正如圖3-2所示,HUIM-ABC算法在4個(gè)數(shù)據(jù)集中比其他三個(gè)基于演化算??法都可以挖掘到更多的HUIs。平均來(lái)看,HUIM-ABC算法分別在Chess、??Mushroom、Accident_10°/〇和?Connect?數(shù)據(jù)集中可以挖掘到所有?HUIs?的?91.34%,??87.10%,96.65%和91.59%。當(dāng)閾值設(shè)置較高時(shí),例如,Chess數(shù)據(jù)集相對(duì)閾值??30.5%
【參考文獻(xiàn)】:
期刊論文
[1]利用三角模糊數(shù)的語(yǔ)言變量項(xiàng)集減項(xiàng)算法[J]. 陳宇,王娜,王晉東. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(08)
[2]基于經(jīng)驗(yàn)Rademacher復(fù)雜度的頻繁項(xiàng)集發(fā)現(xiàn)隨機(jī)抽樣方法[J]. 葉嘉,趙成貴,吳紅剛. 中國(guó)管理信息化. 2017(07)
[3]基于Nodeset的最大頻繁項(xiàng)集挖掘算法[J]. 林晨,顧君忠. 計(jì)算機(jī)工程. 2016(12)
[4]基于云計(jì)算的最大頻繁項(xiàng)集挖掘算法[J]. 孫鶴旭,孫澤賢,林濤. 中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(03)
[5]滑動(dòng)窗口下數(shù)據(jù)流完全加權(quán)最大頻繁項(xiàng)集挖掘[J]. 王少鵬,聞?dòng)⒂?趙宏. 東北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(07)
[6]基于投影的高效用項(xiàng)集挖掘算法[J]. 王敬華,羅相洲,吳倩. 小型微型計(jì)算機(jī)系統(tǒng). 2016(06)
[7]基于間隔鏈表改進(jìn)的頻繁項(xiàng)集挖掘算法[J]. 徐永秀,劉旭敏,徐維祥. 計(jì)算機(jī)應(yīng)用. 2016(04)
[8]基于開(kāi)項(xiàng)集剪枝的常量條件函數(shù)依賴(lài)挖掘[J]. 周金陵,刁興春,曹建軍. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(03)
[9]基于最大頻繁項(xiàng)集挖掘的微博炒作群體發(fā)現(xiàn)方法[J]. 劉琰,張進(jìn),陳靜,尹美娟,張偉麗. 計(jì)算機(jī)工程與應(yīng)用. 2017(04)
[10]基于頻繁項(xiàng)集的海量短文本聚類(lèi)與主題抽取[J]. 彭敏,黃佳佳,朱佳暉,黃濟(jì)民,劉紀(jì)平. 計(jì)算機(jī)研究與發(fā)展. 2015(09)
本文編號(hào):3393775
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3393775.html
最近更新
教材專(zhuān)著