基于維數(shù)約簡(jiǎn)的無(wú)監(jiān)督聚類算法研究
發(fā)布時(shí)間:2020-09-28 09:43
近年來(lái),隨著數(shù)據(jù)獲取能力的不斷提高和計(jì)算機(jī)的飛速發(fā)展,人們獲得的數(shù)據(jù)信息越來(lái)越多,數(shù)據(jù)維數(shù)越來(lái)越高,如何尋找這些海量高維數(shù)據(jù)信息中潛在的規(guī)律,更好地為人類服務(wù),是目前機(jī)器學(xué)習(xí)面臨的挑戰(zhàn)之一.在沒有標(biāo)簽信息的情況下,對(duì)高維數(shù)據(jù)實(shí)施維數(shù)約簡(jiǎn)的同時(shí)進(jìn)行歸類分析,挖掘數(shù)據(jù)的內(nèi)在結(jié)構(gòu),是當(dāng)前機(jī)器學(xué)習(xí)的一個(gè)難點(diǎn)、也是熱點(diǎn)之一.本文主要研究了在沒有標(biāo)簽信息的情況下,以矩陣分解為基礎(chǔ),對(duì)原始高維數(shù)據(jù)樣本維數(shù)約簡(jiǎn)的同時(shí)進(jìn)行聚類分析,從而揭示數(shù)據(jù)樣本的內(nèi)在本質(zhì)結(jié)構(gòu).具體而言,本文的主要研究工作和創(chuàng)新性內(nèi)容如下:1.針對(duì)現(xiàn)有基于回歸的特征選擇算法,通常選用0-1偽標(biāo)簽矩陣作為目標(biāo)矩陣,使得模型成為一個(gè)NP-難問題,提出一種基于矩陣分解的魯棒特征選擇算法(RUFSM).RUFSM首先將目標(biāo)矩陣分解為兩個(gè)矩陣(正交聚類中心矩陣和低維稀疏表示矩陣)的乘積,不僅使得模型易于迭代求解,而且特征選擇矩陣(投影矩陣)能更好地選擇具有類別辨別性的特征;其次,聚類中心的正交性約束和低維表示的稀疏性約束不僅保證異類投影樣本相互遠(yuǎn)離,同時(shí)使得同類之間相互靠近;最后,l2,1范數(shù)作為誤差度量能有效消除噪聲樣本和離群樣本對(duì)數(shù)據(jù)樣本本質(zhì)屬性特征的影響,同時(shí)進(jìn)行的魯棒特征選擇和魯棒聚類能保證算法得到總體最優(yōu)解.大量實(shí)驗(yàn)結(jié)果表明提出的RUFSM算法無(wú)論在魯棒性上還是聚類性能上都超過了相關(guān)魯棒特征選擇算法.2.針對(duì)低秩表示目標(biāo)函數(shù)中核范數(shù)的不可微問題,提出一種非負(fù)的圖正則化低秩因子分解算法(GLCF).GLCF算法首先利用矩陣?yán)碚?將保持全局結(jié)構(gòu)的低秩約束巧妙地轉(zhuǎn)化為兩因子Frobenius范數(shù)之和的最小化問題,考慮到非負(fù)約束在聚類分析中的語(yǔ)義相關(guān)性,對(duì)因子分解矩陣進(jìn)行非負(fù)約束,同時(shí)利用流形正則化項(xiàng)使得低維表示保持了原始樣本的局部幾何結(jié)構(gòu);其次,給出一種優(yōu)化目標(biāo)函數(shù)的多步更新規(guī)則,并從理論上證明了該算法的收斂性;最后,分析了提出的多步更新規(guī)則與梯度下降算法的相互關(guān)系,且針對(duì)負(fù)值數(shù)據(jù)樣本給出一種多步更新規(guī)則.與相關(guān)基于非負(fù)約束的矩陣分解算法相比,實(shí)驗(yàn)結(jié)果表明了提出的GLCF算法具有更好的聚類性能.3.針對(duì)現(xiàn)有的基于低秩表示的子空間聚類算法通常直接選用含有噪聲的原始數(shù)據(jù)樣本作為字典求取原始樣本的低秩表示,且構(gòu)建親和矩陣和聚類分兩步獨(dú)立進(jìn)行的缺點(diǎn),提出了一種圖正則化緊湊低秩表示算法(GCLRR).首先,GCLRR算法為了消除噪聲樣本作為字典對(duì)低秩表示的影響,用原始數(shù)據(jù)的線性組合作為字典,不僅使得字典在算法優(yōu)化過程中通過學(xué)習(xí)得到,而且使得低維表示隨著字典優(yōu)化更新;其次,正交的線性組合系數(shù)矩陣與低維低秩表示矩陣可認(rèn)為是對(duì)LRR算法中低秩表示矩陣的分解,因此,算法優(yōu)化過程中得到的低維低秩表示可直接用于聚類;最后,分別保持全局結(jié)構(gòu)和局部結(jié)構(gòu)的低秩和流形正則化直接約束在低維表示上,使得低維表示具有良好的類別屬性.聚類實(shí)驗(yàn)結(jié)果表明GCLRR算法在挖掘數(shù)據(jù)樣本潛在子空間方面,優(yōu)于最新的LRR相關(guān)算法.
【學(xué)位單位】:蘭州大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2017
【中圖分類】:TP311.13
【文章目錄】:
中文摘要
英文摘要
第一章 緒論
1.1 課題研究背景及意義
1.2 聚類研究現(xiàn)狀
1.2.1 劃分法聚類
1.2.2 層次法聚類
1.2.3 模糊聚類
1.2.4 密度聚類
1.2.5 非負(fù)矩陣分解聚類
1.2.6 子空間聚類
1.3 維數(shù)約簡(jiǎn)研究現(xiàn)狀
1.3.1 特征選擇方法
1.3.2 特征抽取方法
1.4 相關(guān)問題
1.4.1 流形正則化
1.4.2 聚類評(píng)價(jià)準(zhǔn)則
1.4.3 論文實(shí)驗(yàn)數(shù)據(jù)庫(kù)匯總
1.5 本文的研究?jī)?nèi)容、研究方法與創(chuàng)新點(diǎn)
1.6 本文的結(jié)構(gòu)安排
第二章 基于矩陣分解的魯棒無(wú)監(jiān)督特征選擇
2.1 引言
2.2 RUFSM算法目標(biāo)函數(shù)
2.3 RUFSM算分求解
2.3.1 更新W
2.3.2 更新B
2.3.3 更新H
2.3.4 更新E
2.4 算法分析
2.4.1 RUFSM算法與其它相關(guān)特征選擇算法的關(guān)系
2.4.2 復(fù)雜度和收斂性分析
2.5 實(shí)驗(yàn)結(jié)果與分析
2.5.1 比較算法
2.5.2 參數(shù)設(shè)置
2.5.3 參數(shù)敏感性分析
2.5.4 收斂性分析
2.5.5 實(shí)驗(yàn)結(jié)果和分析
2.6 本章小結(jié)
第三章 圖正則化低秩因子分解算法
3.1 引言
3.2 相關(guān)工作
3.2.1 非負(fù)矩陣分解 (NMF)
3.2.2 因子分解 (CF)
3.2.3 局部連續(xù)因子分解 (LCCF)
3.3 GLCF目標(biāo)函數(shù)
3.4 GLCF多步更新規(guī)則
3.5 GLCF算法收斂性分析
3.6 GLCF算法分析
3.6.1 計(jì)算復(fù)雜度分析
3.6.2 與梯度下降法的關(guān)系
3.6.3 針對(duì)負(fù)值數(shù)據(jù)矩陣求解算法
3.7 實(shí)驗(yàn)結(jié)果及分析
3.7.1 對(duì)比算法
3.7.2 參數(shù)設(shè)置
3.7.3 實(shí)驗(yàn)結(jié)果
3.7.4 參數(shù)選擇
3.8 本章小結(jié)
第四章 基于子空間聚類的緊湊低秩表示
4.1 引言
4.2 低秩表示
4.3 圖正則化緊湊低秩表示GCLRR算法框架
4.4 圖正則化緊湊低秩表示GCLRR算法優(yōu)化
4.4.1 更新J
4.4.2 更新Z
4.4.3 更新W
4.4.4 更新H
4.4.5 更新E
4.5 模型分析
4.5.1 與LRR的相互關(guān)系
4.5.2 與基于LRR算法的相互關(guān)系
4.5.3 復(fù)雜度分析
4.6 實(shí)驗(yàn)結(jié)果與分析
4.6.1 參數(shù)設(shè)置
4.6.2 聚類結(jié)果
4.6.2.1 人工數(shù)據(jù)集聚類結(jié)果
4.6.2.2 ORL人臉圖像數(shù)據(jù)庫(kù)上聚類結(jié)果
4.6.2.3 PIE人臉圖像數(shù)據(jù)庫(kù)上聚類結(jié)果
4.6.2.4 COIL20物體圖像數(shù)據(jù)庫(kù)上聚類結(jié)果
4.6.3 參數(shù)敏感性分析
4.6.4 實(shí)驗(yàn)結(jié)論
4.7 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望及未來(lái)工作
參考文獻(xiàn)
攻讀博士學(xué)位期間完成的成果
致謝
本文編號(hào):2828639
【學(xué)位單位】:蘭州大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2017
【中圖分類】:TP311.13
【文章目錄】:
中文摘要
英文摘要
第一章 緒論
1.1 課題研究背景及意義
1.2 聚類研究現(xiàn)狀
1.2.1 劃分法聚類
1.2.2 層次法聚類
1.2.3 模糊聚類
1.2.4 密度聚類
1.2.5 非負(fù)矩陣分解聚類
1.2.6 子空間聚類
1.3 維數(shù)約簡(jiǎn)研究現(xiàn)狀
1.3.1 特征選擇方法
1.3.2 特征抽取方法
1.4 相關(guān)問題
1.4.1 流形正則化
1.4.2 聚類評(píng)價(jià)準(zhǔn)則
1.4.3 論文實(shí)驗(yàn)數(shù)據(jù)庫(kù)匯總
1.5 本文的研究?jī)?nèi)容、研究方法與創(chuàng)新點(diǎn)
1.6 本文的結(jié)構(gòu)安排
第二章 基于矩陣分解的魯棒無(wú)監(jiān)督特征選擇
2.1 引言
2.2 RUFSM算法目標(biāo)函數(shù)
2.3 RUFSM算分求解
2.3.1 更新W
2.3.2 更新B
2.3.3 更新H
2.3.4 更新E
2.4 算法分析
2.4.1 RUFSM算法與其它相關(guān)特征選擇算法的關(guān)系
2.4.2 復(fù)雜度和收斂性分析
2.5 實(shí)驗(yàn)結(jié)果與分析
2.5.1 比較算法
2.5.2 參數(shù)設(shè)置
2.5.3 參數(shù)敏感性分析
2.5.4 收斂性分析
2.5.5 實(shí)驗(yàn)結(jié)果和分析
2.6 本章小結(jié)
第三章 圖正則化低秩因子分解算法
3.1 引言
3.2 相關(guān)工作
3.2.1 非負(fù)矩陣分解 (NMF)
3.2.2 因子分解 (CF)
3.2.3 局部連續(xù)因子分解 (LCCF)
3.3 GLCF目標(biāo)函數(shù)
3.4 GLCF多步更新規(guī)則
3.5 GLCF算法收斂性分析
3.6 GLCF算法分析
3.6.1 計(jì)算復(fù)雜度分析
3.6.2 與梯度下降法的關(guān)系
3.6.3 針對(duì)負(fù)值數(shù)據(jù)矩陣求解算法
3.7 實(shí)驗(yàn)結(jié)果及分析
3.7.1 對(duì)比算法
3.7.2 參數(shù)設(shè)置
3.7.3 實(shí)驗(yàn)結(jié)果
3.7.4 參數(shù)選擇
3.8 本章小結(jié)
第四章 基于子空間聚類的緊湊低秩表示
4.1 引言
4.2 低秩表示
4.3 圖正則化緊湊低秩表示GCLRR算法框架
4.4 圖正則化緊湊低秩表示GCLRR算法優(yōu)化
4.4.1 更新J
4.4.2 更新Z
4.4.3 更新W
4.4.4 更新H
4.4.5 更新E
4.5 模型分析
4.5.1 與LRR的相互關(guān)系
4.5.2 與基于LRR算法的相互關(guān)系
4.5.3 復(fù)雜度分析
4.6 實(shí)驗(yàn)結(jié)果與分析
4.6.1 參數(shù)設(shè)置
4.6.2 聚類結(jié)果
4.6.2.1 人工數(shù)據(jù)集聚類結(jié)果
4.6.2.2 ORL人臉圖像數(shù)據(jù)庫(kù)上聚類結(jié)果
4.6.2.3 PIE人臉圖像數(shù)據(jù)庫(kù)上聚類結(jié)果
4.6.2.4 COIL20物體圖像數(shù)據(jù)庫(kù)上聚類結(jié)果
4.6.3 參數(shù)敏感性分析
4.6.4 實(shí)驗(yàn)結(jié)論
4.7 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望及未來(lái)工作
參考文獻(xiàn)
攻讀博士學(xué)位期間完成的成果
致謝
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 雷小鋒;謝昆青;林帆;夏征義;;一種基于K-Means局部最優(yōu)性的高效聚類算法[J];軟件學(xué)報(bào);2008年07期
相關(guān)博士學(xué)位論文 前2條
1 何力;維數(shù)約簡(jiǎn)中的若干問題[D];復(fù)旦大學(xué);2010年
2 侯臣平;基于圖優(yōu)化框架的數(shù)據(jù)維數(shù)約簡(jiǎn)方法及應(yīng)用研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2009年
本文編號(hào):2828639
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2828639.html
最近更新
教材專著