基于SIR的數(shù)據(jù)降維算法研究及其應(yīng)用
發(fā)布時(shí)間:2022-02-09 01:26
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,很多領(lǐng)域都產(chǎn)生了大量的高維數(shù)據(jù),如何刻畫高維數(shù)據(jù)的內(nèi)在結(jié)構(gòu)并從中提取出對(duì)自己有用的信息顯得非常重要。充分降維方法正是解決這一問題的有效手段之一,目前評(píng)價(jià)充分降維方法的好壞(降維效果)通常是用平方多重相關(guān)系數(shù)的大小來表示的。針對(duì)充分降維,本文主要以應(yīng)用為主,對(duì)三種不同類型數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)集提出了改進(jìn)的降維方法,主要工作如下。一,以含有離群點(diǎn)的數(shù)據(jù)集為研究對(duì)象,本文將K-medoids聚類算法與切片逆回歸方法相結(jié)合,提出了K-medoids逆回歸算法。通過對(duì)由線性模型和非線性模型產(chǎn)生出的模擬數(shù)據(jù)所進(jìn)行的仿真實(shí)驗(yàn)發(fā)現(xiàn),該算法相比于切片逆回歸、切片平均方差估計(jì)和海森主方向等傳統(tǒng)的充分降維方法不僅有較高的降維正確率,而且有很好的降維效果。本文將上述方法應(yīng)用于實(shí)際數(shù)據(jù),數(shù)據(jù)分析進(jìn)一步說明了新方法的有效性。二,以響應(yīng)變量為二分變量的數(shù)據(jù)集為研究對(duì)象,以切片逆回歸為代表的傳統(tǒng)充分降維方法大多不可用。本文對(duì)切片逆回歸、切片平均方差估計(jì)和海森主方向三種方法進(jìn)行了研究,給出了三種方法的核矩陣的具體形式和其相對(duì)應(yīng)的檢驗(yàn)方法。通過研究發(fā)現(xiàn),改進(jìn)的方法可應(yīng)用于響應(yīng)變量為二分變量的數(shù)據(jù)集,并...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:58 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
模型3.2的數(shù)據(jù)分布情況
圖 3.2 模型 3.3 的數(shù)據(jù)分布情況圖 3.2 截取的是樣本量為 n 200時(shí)的一個(gè)數(shù)據(jù)分布情況,可以清楚地看到該模型在二維和三維空間內(nèi)沒有顯著的線性關(guān)系,并且可以看到其中是含有很多離群點(diǎn)的。接下來使用 SIR、SAVE、PHD 和 K -medoids IR 對(duì)其進(jìn)行降維分析。表 3.3 描述了在不同樣本數(shù) 和不同切片數(shù) 下 SIR、SAVE、PHD 和 IR四種降維算法在重復(fù)試驗(yàn) 100 次時(shí)的降維正確率。通過上表可以發(fā)現(xiàn),對(duì)于非線性模型,SIR 方法的降維正確率很低,說明該方法對(duì)非線性模型的降維效果不好。對(duì)于 SAVE 方法,離群點(diǎn)對(duì)它的影響最大,其每次的降維正確率都不確定,時(shí)高時(shí)低。對(duì)于 PHD 方法,可以看出隨著樣本量的增多,其降維正確率有顯著的提升。而改進(jìn)的 IR方法仍保持較高的正確率。表 3.3 非線性模型 3.3 下四種算法的降維正確率Method HN100 200 400SIR10 0.07 0.25 0.4415 0.06 0.18 0.37
圖 3.4 BHP 的數(shù)據(jù)分布情況表 3.5 和表 3.6 描述了當(dāng)聚類數(shù)或切片數(shù)為 15 時(shí),SIR、SAVE、PHD 和 K -medoidIR 四種方法對(duì)波士頓房價(jià)數(shù)據(jù)集的降維結(jié)果及降維效果。取顯著性水平為 0.05,從卡方檢驗(yàn)結(jié)果可以看出,當(dāng)原假設(shè)為 d 0 vs. d 1時(shí),前三種方法的P值=0.00<0.05,拒絕原假設(shè),所以繼續(xù)向下檢驗(yàn)。對(duì)于 SIR 方法一直檢驗(yàn)到 d 6 vs. d 7時(shí),其P值=0.328>0.05 ,接受原假設(shè),所以認(rèn)為最終將 13 維模型降維到 6 維,并且2R=0.990說明降維效果很好。對(duì)于 SAVE 方法其檢驗(yàn)不通過,降維失敗。對(duì)于 PHD 方法,其降維到 11 維,其降維結(jié)果也不理想。而對(duì)于本章提出的方法,其最終降到 3 維,與最開始數(shù)據(jù)集的預(yù)測維數(shù)一樣,而且2R =0.8793可以看出降維效果是比較好的。表 3.5 切片數(shù)為 15 時(shí)的降維結(jié)果0 1H vs.HP_values P_valuesSIR SAVE PHD K -medoids d 0 vs. d 10.00e+00 0.00e+00 0.00e+00 d 12 vs. d 110.00e+00d 1v s. d 20.00e+00 0.00e+00 0.00e+00 d 11v s. d 107.75e-153d 2 vs. d 30.00e+00 0.00e+00 0.00e+00 d 10 vs. d 98.94e-95
【參考文獻(xiàn)】:
期刊論文
[1]數(shù)據(jù)降維方法分析與研究[J]. 吳曉婷,閆德勤. 計(jì)算機(jī)應(yīng)用研究. 2009(08)
[2]分段逆回歸與神經(jīng)網(wǎng)絡(luò)組合建模方法[J]. 黃薇,王惠文,張志慧. 系統(tǒng)工程. 2004(04)
[3]SIR方法在小型二次電池市場分析上的應(yīng)用[J]. 周文琴,馮鳴鳴,王惠文. 數(shù)理統(tǒng)計(jì)與管理. 2001(06)
[4]虛擬變量在線性回歸模型中的應(yīng)用[J]. 章曉英. 重慶工業(yè)管理學(xué)院學(xué)報(bào). 1998(02)
博士論文
[1]充分降維理論和方法的拓展研究[D]. 於州.華東師范大學(xué) 2010
碩士論文
[1]SIR降維方法與半?yún)?shù)可加回歸的應(yīng)用研究[D]. 李巖巖.重慶工商大學(xué) 2016
[2]Isomap與LLE在降維方面的優(yōu)劣分析[D]. 何博睿.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2016
[3]充分降維理論中PHD方法的局部影響分析[D]. 王智慧.云南財(cái)經(jīng)大學(xué) 2015
[4]聚類分析中K-均值與K-中心點(diǎn)算法的研究[D]. 吳文亮.華南理工大學(xué) 2011
本文編號(hào):3616123
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:58 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
模型3.2的數(shù)據(jù)分布情況
圖 3.2 模型 3.3 的數(shù)據(jù)分布情況圖 3.2 截取的是樣本量為 n 200時(shí)的一個(gè)數(shù)據(jù)分布情況,可以清楚地看到該模型在二維和三維空間內(nèi)沒有顯著的線性關(guān)系,并且可以看到其中是含有很多離群點(diǎn)的。接下來使用 SIR、SAVE、PHD 和 K -medoids IR 對(duì)其進(jìn)行降維分析。表 3.3 描述了在不同樣本數(shù) 和不同切片數(shù) 下 SIR、SAVE、PHD 和 IR四種降維算法在重復(fù)試驗(yàn) 100 次時(shí)的降維正確率。通過上表可以發(fā)現(xiàn),對(duì)于非線性模型,SIR 方法的降維正確率很低,說明該方法對(duì)非線性模型的降維效果不好。對(duì)于 SAVE 方法,離群點(diǎn)對(duì)它的影響最大,其每次的降維正確率都不確定,時(shí)高時(shí)低。對(duì)于 PHD 方法,可以看出隨著樣本量的增多,其降維正確率有顯著的提升。而改進(jìn)的 IR方法仍保持較高的正確率。表 3.3 非線性模型 3.3 下四種算法的降維正確率Method HN100 200 400SIR10 0.07 0.25 0.4415 0.06 0.18 0.37
圖 3.4 BHP 的數(shù)據(jù)分布情況表 3.5 和表 3.6 描述了當(dāng)聚類數(shù)或切片數(shù)為 15 時(shí),SIR、SAVE、PHD 和 K -medoidIR 四種方法對(duì)波士頓房價(jià)數(shù)據(jù)集的降維結(jié)果及降維效果。取顯著性水平為 0.05,從卡方檢驗(yàn)結(jié)果可以看出,當(dāng)原假設(shè)為 d 0 vs. d 1時(shí),前三種方法的P值=0.00<0.05,拒絕原假設(shè),所以繼續(xù)向下檢驗(yàn)。對(duì)于 SIR 方法一直檢驗(yàn)到 d 6 vs. d 7時(shí),其P值=0.328>0.05 ,接受原假設(shè),所以認(rèn)為最終將 13 維模型降維到 6 維,并且2R=0.990說明降維效果很好。對(duì)于 SAVE 方法其檢驗(yàn)不通過,降維失敗。對(duì)于 PHD 方法,其降維到 11 維,其降維結(jié)果也不理想。而對(duì)于本章提出的方法,其最終降到 3 維,與最開始數(shù)據(jù)集的預(yù)測維數(shù)一樣,而且2R =0.8793可以看出降維效果是比較好的。表 3.5 切片數(shù)為 15 時(shí)的降維結(jié)果0 1H vs.HP_values P_valuesSIR SAVE PHD K -medoids d 0 vs. d 10.00e+00 0.00e+00 0.00e+00 d 12 vs. d 110.00e+00d 1v s. d 20.00e+00 0.00e+00 0.00e+00 d 11v s. d 107.75e-153d 2 vs. d 30.00e+00 0.00e+00 0.00e+00 d 10 vs. d 98.94e-95
【參考文獻(xiàn)】:
期刊論文
[1]數(shù)據(jù)降維方法分析與研究[J]. 吳曉婷,閆德勤. 計(jì)算機(jī)應(yīng)用研究. 2009(08)
[2]分段逆回歸與神經(jīng)網(wǎng)絡(luò)組合建模方法[J]. 黃薇,王惠文,張志慧. 系統(tǒng)工程. 2004(04)
[3]SIR方法在小型二次電池市場分析上的應(yīng)用[J]. 周文琴,馮鳴鳴,王惠文. 數(shù)理統(tǒng)計(jì)與管理. 2001(06)
[4]虛擬變量在線性回歸模型中的應(yīng)用[J]. 章曉英. 重慶工業(yè)管理學(xué)院學(xué)報(bào). 1998(02)
博士論文
[1]充分降維理論和方法的拓展研究[D]. 於州.華東師范大學(xué) 2010
碩士論文
[1]SIR降維方法與半?yún)?shù)可加回歸的應(yīng)用研究[D]. 李巖巖.重慶工商大學(xué) 2016
[2]Isomap與LLE在降維方面的優(yōu)劣分析[D]. 何博睿.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2016
[3]充分降維理論中PHD方法的局部影響分析[D]. 王智慧.云南財(cái)經(jīng)大學(xué) 2015
[4]聚類分析中K-均值與K-中心點(diǎn)算法的研究[D]. 吳文亮.華南理工大學(xué) 2011
本文編號(hào):3616123
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3616123.html
最近更新
教材專著