聚類(lèi)式最小角回歸與聚類(lèi)式坐標(biāo)下降仿真及實(shí)例分析
發(fā)布時(shí)間:2017-08-20 00:20
本文關(guān)鍵詞:聚類(lèi)式最小角回歸與聚類(lèi)式坐標(biāo)下降仿真及實(shí)例分析
更多相關(guān)文章: 聚類(lèi)式最小角回歸 聚類(lèi)式坐標(biāo)下降 模型選擇 高斯混合模型
【摘要】:隨著人工智能的興起,機(jī)器學(xué)習(xí)作為人工智能的核心被更多的人熟知。機(jī)器學(xué)習(xí)本質(zhì)上分為有監(jiān)督學(xué)習(xí)問(wèn)題和無(wú)監(jiān)督學(xué)習(xí)問(wèn)題。有監(jiān)督學(xué)習(xí)問(wèn)題中,數(shù)據(jù)本身具備類(lèi)別標(biāo)簽,學(xué)習(xí)問(wèn)題的目標(biāo)是完成分類(lèi)或回歸。有監(jiān)督學(xué)習(xí)過(guò)程中,變量的輸入和輸出是能夠被充分觀察到的。而無(wú)監(jiān)督學(xué)習(xí)問(wèn)題中,數(shù)據(jù)本身沒(méi)有類(lèi)別標(biāo)簽,學(xué)習(xí)問(wèn)題的目標(biāo)是完成聚類(lèi)。無(wú)監(jiān)督學(xué)習(xí)過(guò)程中,聚類(lèi)結(jié)果可以不代表明確類(lèi)別含義。而模型選擇作為機(jī)器學(xué)習(xí)中的重要一環(huán),是幫助分析數(shù)據(jù)有效性、探求變量間相關(guān)關(guān)系以及試洽實(shí)際案例的有力工具。傳統(tǒng)的模型選擇方法往往假定了源數(shù)據(jù)是獨(dú)立同分布的,這使得目前模型選擇問(wèn)題的研究,主要針對(duì)有限維特征的情況?墒,大規(guī)模數(shù)據(jù)的案例中,源數(shù)據(jù)來(lái)自不同的數(shù)據(jù)生成過(guò)程,已經(jīng)是不爭(zhēng)的公判。這使得數(shù)據(jù)異質(zhì)性問(wèn)題成為模型選擇乃至機(jī)器學(xué)習(xí)中不可忽視的問(wèn)題。在許多實(shí)際問(wèn)題中,數(shù)據(jù)異質(zhì)性具體體現(xiàn)為:(1)數(shù)據(jù)明確屬于不同的來(lái)源(如本文4.3.1小節(jié)中的花卉數(shù)據(jù)),但可能我們不知道具體的分類(lèi)。(2)我們明確知曉存在不同的分類(lèi)(例如本文4.3.2中300個(gè)城市的各項(xiàng)指標(biāo)),但不同城市之間又存在特征(城市大小,發(fā)展程度等)的相似性,因此實(shí)際中不可能分成300個(gè)類(lèi)別去處理數(shù)據(jù)。此時(shí),將源數(shù)據(jù)劃分為多少個(gè)類(lèi)別才合適,就變成一個(gè)重要的問(wèn)題。為了解決數(shù)據(jù)異質(zhì)性對(duì)模型選擇帶來(lái)的糟糕影響,本文提出一類(lèi)聚類(lèi)式算法解決這一問(wèn)題:用分層模型實(shí)現(xiàn)對(duì)源數(shù)據(jù)的聚類(lèi),在每一層內(nèi)部獨(dú)立完成有監(jiān)督學(xué)習(xí),并計(jì)算每一種聚類(lèi)結(jié)果對(duì)應(yīng)的學(xué)習(xí)過(guò)程的BIC分?jǐn)?shù),選擇BIC得分最小的那一層做為數(shù)據(jù)生成過(guò)程的個(gè)數(shù)。聚類(lèi)式算法,本質(zhì)上對(duì)有監(jiān)督學(xué)習(xí)問(wèn)題求解算法的改進(jìn)。傳統(tǒng)模型選擇對(duì)于源數(shù)據(jù)獨(dú)立同分布的假設(shè),可以看做,將源數(shù)據(jù)的數(shù)據(jù)生成過(guò)程個(gè)數(shù)假設(shè)為n=1。聚類(lèi)式算法,將數(shù)據(jù)生成過(guò)程的個(gè)數(shù)n推廣到任意正整數(shù)。而數(shù)據(jù)生成過(guò)程的數(shù)量,由算法外層的聚類(lèi)分析完成;谏鲜鱿敕,再考慮到高斯分布的廣泛性、Lasso回歸的優(yōu)良特征,本文重點(diǎn)研究了聚類(lèi)式最小角回歸與聚類(lèi)式坐標(biāo)下降兩個(gè)算法,通過(guò)Python隨機(jī)數(shù)據(jù)對(duì)新算法進(jìn)行了仿真模擬,通過(guò)Matlab數(shù)據(jù)集對(duì)新算法進(jìn)行了實(shí)例分析。從仿真結(jié)果發(fā)現(xiàn),兩個(gè)聚類(lèi)式算法的仿真模擬結(jié)果一致,并且明顯比原估計(jì)穩(wěn)定。從實(shí)例分析結(jié)果看,聚類(lèi)式算法的BIC分?jǐn)?shù)較為理想,說(shuō)明預(yù)測(cè)結(jié)果較好。
【關(guān)鍵詞】:聚類(lèi)式最小角回歸 聚類(lèi)式坐標(biāo)下降 模型選擇 高斯混合模型
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP181;F224
【目錄】:
- 中文摘要8-10
- 英文摘要10-12
- 第一章 引言12-16
- §1.1 研究背景及意義12-13
- §1.2 模型選擇問(wèn)題13-14
- §1.3 論文的結(jié)構(gòu)14-16
- 第二章 規(guī)范化與模型選擇16-26
- §2.1 偏倚與誤差的兩難選擇16-17
- §2.2 AIC、BIC準(zhǔn)則與Lasso17-19
- §2.3 交叉驗(yàn)證19-22
- §2.4 特征選擇22-24
- §2.5 貝葉斯統(tǒng)計(jì)與規(guī)范化24-26
- 第三章 聚類(lèi)分析算法26-36
- §3.1 聚類(lèi)分析簡(jiǎn)介26-28
- §3.2 K均值方法28-30
- §3.3 高斯混合模型30-33
- §3.4 因子分析法33-34
- §3.5 最大熵解釋34-36
- 第四章 聚類(lèi)式算法的提出與實(shí)現(xiàn)36-55
- §4.1 聚類(lèi)式最小角回歸36-43
- §4.1.1 算法改進(jìn)36-40
- §4.1.2 仿真模擬40-43
- §4.2 聚類(lèi)式坐標(biāo)下降43-49
- §4.2.1 算法改進(jìn)43-46
- §4.2.2 仿真模擬46-49
- §4.3 實(shí)例分析49-55
- §4.3.1 花萼長(zhǎng)度預(yù)測(cè)49-54
- §4.3.2 300 城市人口健康預(yù)測(cè)54-55
- 第五章 總結(jié)與展望55-57
- 參考文獻(xiàn)57-60
- 致謝60-61
- 學(xué)位論文評(píng)閱及答辯情況表61
【相似文獻(xiàn)】
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 耿書(shū)敏;聚類(lèi)式最小角回歸與聚類(lèi)式坐標(biāo)下降仿真及實(shí)例分析[D];山東大學(xué);2016年
2 周蓓;Johansen協(xié)整檢驗(yàn)中DGP誤設(shè)的研究與應(yīng)用[D];華中科技大學(xué);2008年
,本文編號(hào):703717
本文鏈接:http://sikaile.net/jingjilunwen/hongguanjingjilunwen/703717.html
最近更新
教材專(zhuān)著