基于重要性采樣的流聚類算法研究
發(fā)布時(shí)間:2021-06-22 08:56
近年來,流數(shù)據(jù)分析已成為數(shù)據(jù)挖掘領(lǐng)域研究的熱點(diǎn),其發(fā)展非常迅速,但當(dāng)前大多數(shù)的流聚類算法都是線性的,在現(xiàn)實(shí)世界中這些線性的聚類算法并不能達(dá)到令人滿意的聚類質(zhì)量。因此,如何讓真實(shí)世界中的數(shù)據(jù)有更高的聚類質(zhì)量是當(dāng)前亟待解決的問題。針對(duì)上述問題,提出一種基于核方法的高效率聚類算法。首先,利用重要性采樣的方法來采集數(shù)據(jù)流中的子集,并用樣本點(diǎn)構(gòu)造其核矩陣;其次,利用樣本點(diǎn)的皮爾森相關(guān)系數(shù)的計(jì)量方法對(duì)核矩陣中的點(diǎn)進(jìn)行實(shí)時(shí)的聚類,得到一個(gè)帶有標(biāo)記的樣本核矩陣,利用該矩陣對(duì)數(shù)據(jù)流中的點(diǎn)進(jìn)行劃分,將其投影到頂部特征向量所跨越的高維空間中;最后,利用核模糊c均值將高維空間數(shù)據(jù)點(diǎn)映射到低維空間中得到聚類結(jié)果,并用衰退聚類機(jī)制進(jìn)行更新。數(shù)據(jù)集實(shí)驗(yàn)測(cè)試結(jié)果表明,本文算法與傳統(tǒng)聚類算法相比,評(píng)價(jià)指標(biāo)中SSE相對(duì)較低,ARI、NMI相對(duì)較高,而且能夠?qū)崿F(xiàn)實(shí)時(shí)聚類,有效避免數(shù)據(jù)處理過程中的維數(shù)災(zāi)難。綜上,本文算法僅需從數(shù)據(jù)流中采樣少量的樣本點(diǎn),所產(chǎn)生的近似誤差具有較好的有界性,同時(shí)使用核方法使得數(shù)據(jù)點(diǎn)在特征空間之中變得線性可分。而且有效地減少了調(diào)整復(fù)雜參數(shù)的需要,同時(shí)與傳統(tǒng)基于內(nèi)核的聚類算法在同等條件下相比,加速效果...
【文章來源】:遼寧工程技術(shù)大學(xué)遼寧省
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
流數(shù)據(jù)處理過程圖
滑動(dòng)窗口模型圖
流數(shù)據(jù)實(shí)時(shí)處理過程
【參考文獻(xiàn)】:
期刊論文
[1]差異性采樣下的流數(shù)據(jù)聚類算法分析[J]. 趙立新. 計(jì)算機(jī)產(chǎn)品與流通. 2019(01)
[2]基于森林自動(dòng)機(jī)處理XML流數(shù)據(jù)方法[J]. 何志學(xué),廖湖聲. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(10)
[3]基于改進(jìn)的密度峰值算法的K-means算法[J]. 杜洪波,白阿珍,朱立軍. 統(tǒng)計(jì)與決策. 2018(18)
[4]一種基于滑動(dòng)窗口模型的數(shù)據(jù)流加權(quán)頻繁模式挖掘方法[J]. 石秀金,蔡藝松. 智能計(jì)算機(jī)與應(yīng)用. 2018(02)
[5]基于馬氏距離的模糊聚類優(yōu)化算法——KM-FCM[J]. 祖志文,李秦. 河北科技大學(xué)學(xué)報(bào). 2018(02)
[6]基于差異性采樣的流數(shù)據(jù)聚類算法[J]. 邱云飛,孫夢(mèng)冉. 計(jì)算機(jī)應(yīng)用研究. 2019(06)
[7]云計(jì)算環(huán)境下關(guān)聯(lián)性大數(shù)據(jù)實(shí)時(shí)流式可控聚類算法[J]. 李鵬飛,劉春宇,海軍. 科學(xué)技術(shù)與工程. 2018(07)
[8]基于奇異值分解(SVD)的橋梁監(jiān)測(cè)數(shù)據(jù)去噪方法[J]. 邱志偉,岳順,岳建平,汪學(xué)琴. 工程勘察. 2017(12)
[9]一種基于模糊核聚類的譜聚類算法[J]. 范子靜,羅澤,馬永征. 計(jì)算機(jī)工程. 2017(11)
[10]基于空間模糊核聚類的腦腫瘤圖像分割方法[J]. 張騰達(dá),呂曉琪,任曉穎,谷宇,張明. 控制工程. 2017(10)
博士論文
[1]實(shí)時(shí)流數(shù)據(jù)分析的關(guān)鍵技術(shù)及應(yīng)用[D]. 楊定裕.上海交通大學(xué) 2015
碩士論文
[1]基于STORM的流數(shù)據(jù)分類挖掘算法的研究[D]. 張發(fā)楊.南京郵電大學(xué) 2016
[2]基于DStream模型流處理系統(tǒng)動(dòng)態(tài)配置研究[D]. 劉金.山東大學(xué) 2016
[3]基于宏森林自動(dòng)機(jī)的XML流數(shù)據(jù)查詢技術(shù)[D]. 馮學(xué)智.北京工業(yè)大學(xué) 2015
[4]面向數(shù)據(jù)流挖掘算法的研究與改進(jìn)[D]. 錢瑞.南京郵電大學(xué) 2015
[5]基于滑動(dòng)窗口的不確定數(shù)據(jù)流聚類算法研究[D]. 劉均偉.西安電子科技大學(xué) 2013
[6]流數(shù)據(jù)的層次聚類和頻繁模式的挖掘算法研究[D]. 屠強(qiáng).南京理工大學(xué) 2011
[7]基于密度單元覆蓋的聚類數(shù)據(jù)流算法研究[D]. 施鴻喜.鄭州大學(xué) 2007
本文編號(hào):3242548
【文章來源】:遼寧工程技術(shù)大學(xué)遼寧省
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
流數(shù)據(jù)處理過程圖
滑動(dòng)窗口模型圖
流數(shù)據(jù)實(shí)時(shí)處理過程
【參考文獻(xiàn)】:
期刊論文
[1]差異性采樣下的流數(shù)據(jù)聚類算法分析[J]. 趙立新. 計(jì)算機(jī)產(chǎn)品與流通. 2019(01)
[2]基于森林自動(dòng)機(jī)處理XML流數(shù)據(jù)方法[J]. 何志學(xué),廖湖聲. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(10)
[3]基于改進(jìn)的密度峰值算法的K-means算法[J]. 杜洪波,白阿珍,朱立軍. 統(tǒng)計(jì)與決策. 2018(18)
[4]一種基于滑動(dòng)窗口模型的數(shù)據(jù)流加權(quán)頻繁模式挖掘方法[J]. 石秀金,蔡藝松. 智能計(jì)算機(jī)與應(yīng)用. 2018(02)
[5]基于馬氏距離的模糊聚類優(yōu)化算法——KM-FCM[J]. 祖志文,李秦. 河北科技大學(xué)學(xué)報(bào). 2018(02)
[6]基于差異性采樣的流數(shù)據(jù)聚類算法[J]. 邱云飛,孫夢(mèng)冉. 計(jì)算機(jī)應(yīng)用研究. 2019(06)
[7]云計(jì)算環(huán)境下關(guān)聯(lián)性大數(shù)據(jù)實(shí)時(shí)流式可控聚類算法[J]. 李鵬飛,劉春宇,海軍. 科學(xué)技術(shù)與工程. 2018(07)
[8]基于奇異值分解(SVD)的橋梁監(jiān)測(cè)數(shù)據(jù)去噪方法[J]. 邱志偉,岳順,岳建平,汪學(xué)琴. 工程勘察. 2017(12)
[9]一種基于模糊核聚類的譜聚類算法[J]. 范子靜,羅澤,馬永征. 計(jì)算機(jī)工程. 2017(11)
[10]基于空間模糊核聚類的腦腫瘤圖像分割方法[J]. 張騰達(dá),呂曉琪,任曉穎,谷宇,張明. 控制工程. 2017(10)
博士論文
[1]實(shí)時(shí)流數(shù)據(jù)分析的關(guān)鍵技術(shù)及應(yīng)用[D]. 楊定裕.上海交通大學(xué) 2015
碩士論文
[1]基于STORM的流數(shù)據(jù)分類挖掘算法的研究[D]. 張發(fā)楊.南京郵電大學(xué) 2016
[2]基于DStream模型流處理系統(tǒng)動(dòng)態(tài)配置研究[D]. 劉金.山東大學(xué) 2016
[3]基于宏森林自動(dòng)機(jī)的XML流數(shù)據(jù)查詢技術(shù)[D]. 馮學(xué)智.北京工業(yè)大學(xué) 2015
[4]面向數(shù)據(jù)流挖掘算法的研究與改進(jìn)[D]. 錢瑞.南京郵電大學(xué) 2015
[5]基于滑動(dòng)窗口的不確定數(shù)據(jù)流聚類算法研究[D]. 劉均偉.西安電子科技大學(xué) 2013
[6]流數(shù)據(jù)的層次聚類和頻繁模式的挖掘算法研究[D]. 屠強(qiáng).南京理工大學(xué) 2011
[7]基于密度單元覆蓋的聚類數(shù)據(jù)流算法研究[D]. 施鴻喜.鄭州大學(xué) 2007
本文編號(hào):3242548
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3242548.html
最近更新
教材專著