高維非線性數(shù)據(jù)上的聚類(lèi)算法研究
發(fā)布時(shí)間:2021-09-23 11:10
聚類(lèi)是一種重要的數(shù)據(jù)挖掘技術(shù),它可以將獲取的數(shù)據(jù)根據(jù)一定的約束條件劃分為不同的類(lèi)別。聚類(lèi)的主要研究目標(biāo)是同一類(lèi)簇中數(shù)據(jù)點(diǎn)間的相似性以及不同類(lèi)簇之間數(shù)據(jù)點(diǎn)間的相異性。由于現(xiàn)有數(shù)據(jù)普遍具有高維性和非線性,針對(duì)高維非線性數(shù)據(jù)的聚類(lèi)已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域的重要研究課題。本文在對(duì)高維非線性數(shù)據(jù)進(jìn)行深入分析的基礎(chǔ)上,針對(duì)傳統(tǒng)降維算法的不足,提出了一種一種基于SU的特征提取算法,并在此基礎(chǔ)上提出了一種基于加權(quán)流形距離的非線性數(shù)據(jù)聚類(lèi)算法。本文取得的主要成果如下:針對(duì)傳統(tǒng)降維算法泛化能力差,許多算法需要經(jīng)驗(yàn)指導(dǎo),并且無(wú)法對(duì)非線性增量數(shù)據(jù)進(jìn)行處理等問(wèn)題,本文借助信息論相關(guān)理論提出了一種相似度量方法-對(duì)稱(chēng)不確定性SU,提出了一種基于SU的特征提取算法(RFE-SU)。該算法解決了傳統(tǒng)主成分分析算法中相關(guān)系數(shù)無(wú)法衡量數(shù)據(jù)間非線性關(guān)系的缺點(diǎn),并在此基礎(chǔ)上,通過(guò)基于滑動(dòng)窗口技術(shù)的多級(jí)聯(lián)動(dòng)緩沖區(qū)機(jī)制,對(duì)基于SU的特征提取算法進(jìn)行擴(kuò)展,使其能應(yīng)用于增量數(shù)據(jù)的降維處理。在采用RFE-SU算法對(duì)數(shù)據(jù)高維非線性數(shù)據(jù)降維的基礎(chǔ)上,本文以信息論和流形學(xué)習(xí)為基礎(chǔ),提出了一種基于加權(quán)流形距離的非線性數(shù)據(jù)聚類(lèi)算法(WMD-NLDat...
【文章來(lái)源】:遼寧大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
降維效果示意圖
k義 1(反 k 近鄰密度) 記 N(x)k為樣本點(diǎn) x 的 k 鄰域, ()~Nxk為 x 的反反 K 近鄰密度可描述為:()|~|()||()|~|NxNxNxDoNkkkx (4.6據(jù)近鄰密度指標(biāo),可以描述局部流形的結(jié)構(gòu)。xDoN 越大,則x 越能代范圍內(nèi)的其他樣本點(diǎn)。義 2(中心點(diǎn)) 如果樣本點(diǎn)x的 xDoN ,則認(rèn)為x是中心點(diǎn)。心點(diǎn)一般被它自身的反 k 近鄰點(diǎn)所包圍,就好像它們的中心點(diǎn)。與均的鄰域中心不同,中心點(diǎn)采用密度概念和距離結(jié)合,每個(gè)中心點(diǎn)都在,能切實(shí)地描述局部鄰域結(jié)構(gòu),更符合客觀流形的結(jié)構(gòu)。索數(shù)據(jù)集中的每個(gè)中心點(diǎn),將互為最近鄰的每個(gè)中心點(diǎn)連接起,將每點(diǎn)連接到距離最近的中心點(diǎn)上,構(gòu)建一個(gè)基于中心點(diǎn)的鄰域圖,該鄰分地體現(xiàn)數(shù)據(jù)集潛在的結(jié)構(gòu)信息,還能很好地區(qū)分邊界點(diǎn)的類(lèi)別。
e weight of each featurej . //根據(jù)第 3權(quán)重j 。//計(jì)算每個(gè)樣本的 k 近鄰和反 k 近鄰e k neighbor and Anti-k neighbor ofix .eixDoNof eachix .ncy graph with center point. //將符合 圖coreG , 并 將 其 放 入 新 的 矩 coreG 中每個(gè)連接在中心點(diǎn)上的樣本點(diǎn)essed data set Y。是用來(lái)縮減整個(gè)數(shù)據(jù)集的數(shù)據(jù)規(guī)模,采表其鄰域內(nèi)的其他數(shù)據(jù)點(diǎn),這樣就保集的內(nèi)部結(jié)構(gòu),保證數(shù)據(jù)集的性質(zhì)不
【參考文獻(xiàn)】:
期刊論文
[1]基于區(qū)域劃分的DBSCAN多密度聚類(lèi)算法[J]. 韓利釗,錢(qián)雪忠,羅靖,宋威. 計(jì)算機(jī)應(yīng)用研究. 2018(06)
[2]一種加權(quán)主成分距離的聚類(lèi)分析方法[J]. 呂巖威,李平. 統(tǒng)計(jì)研究. 2016(11)
[3]基于改進(jìn)流形距離和人工蜂群的二階段聚類(lèi)算法[J]. 夏卓群,歐慧,李平,武志偉,戴傲. 控制與決策. 2016(03)
[4]聚類(lèi)算法綜述[J]. 伍育紅. 計(jì)算機(jī)科學(xué). 2015(S1)
[5]高維數(shù)據(jù)挖掘中基于稀疏回歸的嵌入式特征提取方法[J]. 林書(shū)亮. 中國(guó)西部科技. 2013(12)
[6]基于互信息的主成分分析特征選擇算法[J]. 范雪莉,馮海泓,原猛. 控制與決策. 2013(06)
[7]數(shù)據(jù)挖掘中聚類(lèi)算法研究進(jìn)展[J]. 周濤,陸惠玲. 計(jì)算機(jī)工程與應(yīng)用. 2012(12)
[8]基于互信息的無(wú)監(jiān)督特征選擇[J]. 徐峻嶺,周毓明,陳林,徐寶文. 計(jì)算機(jī)研究與發(fā)展. 2012(02)
[9]復(fù)雜分布數(shù)據(jù)的二階段聚類(lèi)算法[J]. 公茂果,王爽,馬萌,曹宇,焦李成,馬文萍. 軟件學(xué)報(bào). 2011(11)
[10]基于流形距離的量子進(jìn)化聚類(lèi)算法[J]. 李陽(yáng)陽(yáng),石洪竺,焦李成,馬文萍. 電子學(xué)報(bào). 2011(10)
博士論文
[1]譜聚類(lèi)與維數(shù)約簡(jiǎn)算法及其應(yīng)用[D]. 楊藝芳.西安電子科技大學(xué) 2016
[2]流形學(xué)習(xí)理論與方法及其應(yīng)用研究[D]. 詹宇斌.國(guó)防科學(xué)技術(shù)大學(xué) 2011
本文編號(hào):3405598
【文章來(lái)源】:遼寧大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
降維效果示意圖
k義 1(反 k 近鄰密度) 記 N(x)k為樣本點(diǎn) x 的 k 鄰域, ()~Nxk為 x 的反反 K 近鄰密度可描述為:()|~|()||()|~|NxNxNxDoNkkkx (4.6據(jù)近鄰密度指標(biāo),可以描述局部流形的結(jié)構(gòu)。xDoN 越大,則x 越能代范圍內(nèi)的其他樣本點(diǎn)。義 2(中心點(diǎn)) 如果樣本點(diǎn)x的 xDoN ,則認(rèn)為x是中心點(diǎn)。心點(diǎn)一般被它自身的反 k 近鄰點(diǎn)所包圍,就好像它們的中心點(diǎn)。與均的鄰域中心不同,中心點(diǎn)采用密度概念和距離結(jié)合,每個(gè)中心點(diǎn)都在,能切實(shí)地描述局部鄰域結(jié)構(gòu),更符合客觀流形的結(jié)構(gòu)。索數(shù)據(jù)集中的每個(gè)中心點(diǎn),將互為最近鄰的每個(gè)中心點(diǎn)連接起,將每點(diǎn)連接到距離最近的中心點(diǎn)上,構(gòu)建一個(gè)基于中心點(diǎn)的鄰域圖,該鄰分地體現(xiàn)數(shù)據(jù)集潛在的結(jié)構(gòu)信息,還能很好地區(qū)分邊界點(diǎn)的類(lèi)別。
e weight of each featurej . //根據(jù)第 3權(quán)重j 。//計(jì)算每個(gè)樣本的 k 近鄰和反 k 近鄰e k neighbor and Anti-k neighbor ofix .eixDoNof eachix .ncy graph with center point. //將符合 圖coreG , 并 將 其 放 入 新 的 矩 coreG 中每個(gè)連接在中心點(diǎn)上的樣本點(diǎn)essed data set Y。是用來(lái)縮減整個(gè)數(shù)據(jù)集的數(shù)據(jù)規(guī)模,采表其鄰域內(nèi)的其他數(shù)據(jù)點(diǎn),這樣就保集的內(nèi)部結(jié)構(gòu),保證數(shù)據(jù)集的性質(zhì)不
【參考文獻(xiàn)】:
期刊論文
[1]基于區(qū)域劃分的DBSCAN多密度聚類(lèi)算法[J]. 韓利釗,錢(qián)雪忠,羅靖,宋威. 計(jì)算機(jī)應(yīng)用研究. 2018(06)
[2]一種加權(quán)主成分距離的聚類(lèi)分析方法[J]. 呂巖威,李平. 統(tǒng)計(jì)研究. 2016(11)
[3]基于改進(jìn)流形距離和人工蜂群的二階段聚類(lèi)算法[J]. 夏卓群,歐慧,李平,武志偉,戴傲. 控制與決策. 2016(03)
[4]聚類(lèi)算法綜述[J]. 伍育紅. 計(jì)算機(jī)科學(xué). 2015(S1)
[5]高維數(shù)據(jù)挖掘中基于稀疏回歸的嵌入式特征提取方法[J]. 林書(shū)亮. 中國(guó)西部科技. 2013(12)
[6]基于互信息的主成分分析特征選擇算法[J]. 范雪莉,馮海泓,原猛. 控制與決策. 2013(06)
[7]數(shù)據(jù)挖掘中聚類(lèi)算法研究進(jìn)展[J]. 周濤,陸惠玲. 計(jì)算機(jī)工程與應(yīng)用. 2012(12)
[8]基于互信息的無(wú)監(jiān)督特征選擇[J]. 徐峻嶺,周毓明,陳林,徐寶文. 計(jì)算機(jī)研究與發(fā)展. 2012(02)
[9]復(fù)雜分布數(shù)據(jù)的二階段聚類(lèi)算法[J]. 公茂果,王爽,馬萌,曹宇,焦李成,馬文萍. 軟件學(xué)報(bào). 2011(11)
[10]基于流形距離的量子進(jìn)化聚類(lèi)算法[J]. 李陽(yáng)陽(yáng),石洪竺,焦李成,馬文萍. 電子學(xué)報(bào). 2011(10)
博士論文
[1]譜聚類(lèi)與維數(shù)約簡(jiǎn)算法及其應(yīng)用[D]. 楊藝芳.西安電子科技大學(xué) 2016
[2]流形學(xué)習(xí)理論與方法及其應(yīng)用研究[D]. 詹宇斌.國(guó)防科學(xué)技術(shù)大學(xué) 2011
本文編號(hào):3405598
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3405598.html
最近更新
教材專(zhuān)著