天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

聚類式最小角回歸與聚類式坐標(biāo)下降仿真及實(shí)例分析

發(fā)布時間:2017-08-20 00:20

  本文關(guān)鍵詞:聚類式最小角回歸與聚類式坐標(biāo)下降仿真及實(shí)例分析


  更多相關(guān)文章: 聚類式最小角回歸 聚類式坐標(biāo)下降 模型選擇 高斯混合模型


【摘要】:隨著人工智能的興起,機(jī)器學(xué)習(xí)作為人工智能的核心被更多的人熟知。機(jī)器學(xué)習(xí)本質(zhì)上分為有監(jiān)督學(xué)習(xí)問題和無監(jiān)督學(xué)習(xí)問題。有監(jiān)督學(xué)習(xí)問題中,數(shù)據(jù)本身具備類別標(biāo)簽,學(xué)習(xí)問題的目標(biāo)是完成分類或回歸。有監(jiān)督學(xué)習(xí)過程中,變量的輸入和輸出是能夠被充分觀察到的。而無監(jiān)督學(xué)習(xí)問題中,數(shù)據(jù)本身沒有類別標(biāo)簽,學(xué)習(xí)問題的目標(biāo)是完成聚類。無監(jiān)督學(xué)習(xí)過程中,聚類結(jié)果可以不代表明確類別含義。而模型選擇作為機(jī)器學(xué)習(xí)中的重要一環(huán),是幫助分析數(shù)據(jù)有效性、探求變量間相關(guān)關(guān)系以及試洽實(shí)際案例的有力工具。傳統(tǒng)的模型選擇方法往往假定了源數(shù)據(jù)是獨(dú)立同分布的,這使得目前模型選擇問題的研究,主要針對有限維特征的情況?墒,大規(guī)模數(shù)據(jù)的案例中,源數(shù)據(jù)來自不同的數(shù)據(jù)生成過程,已經(jīng)是不爭的公判。這使得數(shù)據(jù)異質(zhì)性問題成為模型選擇乃至機(jī)器學(xué)習(xí)中不可忽視的問題。在許多實(shí)際問題中,數(shù)據(jù)異質(zhì)性具體體現(xiàn)為:(1)數(shù)據(jù)明確屬于不同的來源(如本文4.3.1小節(jié)中的花卉數(shù)據(jù)),但可能我們不知道具體的分類。(2)我們明確知曉存在不同的分類(例如本文4.3.2中300個城市的各項(xiàng)指標(biāo)),但不同城市之間又存在特征(城市大小,發(fā)展程度等)的相似性,因此實(shí)際中不可能分成300個類別去處理數(shù)據(jù)。此時,將源數(shù)據(jù)劃分為多少個類別才合適,就變成一個重要的問題。為了解決數(shù)據(jù)異質(zhì)性對模型選擇帶來的糟糕影響,本文提出一類聚類式算法解決這一問題:用分層模型實(shí)現(xiàn)對源數(shù)據(jù)的聚類,在每一層內(nèi)部獨(dú)立完成有監(jiān)督學(xué)習(xí),并計算每一種聚類結(jié)果對應(yīng)的學(xué)習(xí)過程的BIC分?jǐn)?shù),選擇BIC得分最小的那一層做為數(shù)據(jù)生成過程的個數(shù)。聚類式算法,本質(zhì)上對有監(jiān)督學(xué)習(xí)問題求解算法的改進(jìn)。傳統(tǒng)模型選擇對于源數(shù)據(jù)獨(dú)立同分布的假設(shè),可以看做,將源數(shù)據(jù)的數(shù)據(jù)生成過程個數(shù)假設(shè)為n=1。聚類式算法,將數(shù)據(jù)生成過程的個數(shù)n推廣到任意正整數(shù)。而數(shù)據(jù)生成過程的數(shù)量,由算法外層的聚類分析完成;谏鲜鱿敕,再考慮到高斯分布的廣泛性、Lasso回歸的優(yōu)良特征,本文重點(diǎn)研究了聚類式最小角回歸與聚類式坐標(biāo)下降兩個算法,通過Python隨機(jī)數(shù)據(jù)對新算法進(jìn)行了仿真模擬,通過Matlab數(shù)據(jù)集對新算法進(jìn)行了實(shí)例分析。從仿真結(jié)果發(fā)現(xiàn),兩個聚類式算法的仿真模擬結(jié)果一致,并且明顯比原估計穩(wěn)定。從實(shí)例分析結(jié)果看,聚類式算法的BIC分?jǐn)?shù)較為理想,說明預(yù)測結(jié)果較好。
【關(guān)鍵詞】:聚類式最小角回歸 聚類式坐標(biāo)下降 模型選擇 高斯混合模型
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP181;F224
【目錄】:
  • 中文摘要8-10
  • 英文摘要10-12
  • 第一章 引言12-16
  • §1.1 研究背景及意義12-13
  • §1.2 模型選擇問題13-14
  • §1.3 論文的結(jié)構(gòu)14-16
  • 第二章 規(guī)范化與模型選擇16-26
  • §2.1 偏倚與誤差的兩難選擇16-17
  • §2.2 AIC、BIC準(zhǔn)則與Lasso17-19
  • §2.3 交叉驗(yàn)證19-22
  • §2.4 特征選擇22-24
  • §2.5 貝葉斯統(tǒng)計與規(guī)范化24-26
  • 第三章 聚類分析算法26-36
  • §3.1 聚類分析簡介26-28
  • §3.2 K均值方法28-30
  • §3.3 高斯混合模型30-33
  • §3.4 因子分析法33-34
  • §3.5 最大熵解釋34-36
  • 第四章 聚類式算法的提出與實(shí)現(xiàn)36-55
  • §4.1 聚類式最小角回歸36-43
  • §4.1.1 算法改進(jìn)36-40
  • §4.1.2 仿真模擬40-43
  • §4.2 聚類式坐標(biāo)下降43-49
  • §4.2.1 算法改進(jìn)43-46
  • §4.2.2 仿真模擬46-49
  • §4.3 實(shí)例分析49-55
  • §4.3.1 花萼長度預(yù)測49-54
  • §4.3.2 300 城市人口健康預(yù)測54-55
  • 第五章 總結(jié)與展望55-57
  • 參考文獻(xiàn)57-60
  • 致謝60-61
  • 學(xué)位論文評閱及答辯情況表61

【相似文獻(xiàn)】

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 耿書敏;聚類式最小角回歸與聚類式坐標(biāo)下降仿真及實(shí)例分析[D];山東大學(xué);2016年

2 周蓓;Johansen協(xié)整檢驗(yàn)中DGP誤設(shè)的研究與應(yīng)用[D];華中科技大學(xué);2008年

,

本文編號:703717

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/hongguanjingjilunwen/703717.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶08f03***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com