基于自步學(xué)習(xí)和魯棒估計(jì)的屬性選擇算法研究
發(fā)布時(shí)間:2022-01-12 16:16
信息化時(shí)代的高維大數(shù)據(jù)通常呈現(xiàn)高維,多樣性的特點(diǎn)。由于這些數(shù)據(jù)在積累的過程沒有經(jīng)過選擇,使得高維大數(shù)據(jù)存在大量的不相關(guān),冗余的屬性,而能有效表達(dá)數(shù)據(jù)功能的屬性被隱藏其中。這不但會(huì)增加存儲(chǔ)數(shù)據(jù)所需的空間,還會(huì)消耗大量的計(jì)算資源,特別是隨著數(shù)據(jù)維度的增加達(dá)到某一個(gè)值時(shí),反而會(huì)導(dǎo)致數(shù)據(jù)挖掘算法性能的下降。因此對(duì)高維數(shù)據(jù)進(jìn)行維數(shù)約簡對(duì)于解決目前高維數(shù)據(jù)面臨的諸多問題具有重要意義。屬性選擇作為維數(shù)約簡的一種有效方法,在可靠性和對(duì)結(jié)果的解釋性上都好于子空間學(xué)習(xí)方法,但子空間學(xué)習(xí)可用于探索數(shù)據(jù)的內(nèi)部結(jié)構(gòu)。所以本文結(jié)合這兩種方法,從自步學(xué)習(xí)和魯棒估計(jì)的角度,針對(duì)目前的屬性選擇算法未能充分考慮噪聲和異常值影響以及忽略實(shí)現(xiàn)世界中的數(shù)據(jù)大多存在的流行結(jié)構(gòu)從而導(dǎo)致的數(shù)據(jù)挖掘算法性能不佳等問題,提出了兩種屬性選擇算法。具體如下:(1)針對(duì)現(xiàn)有屬性選擇模型沒有充分考慮離群訓(xùn)練樣本的影響而導(dǎo)致模型泛化能力差問題,提出一種結(jié)合自步學(xué)習(xí)和稀疏學(xué)習(xí)的有監(jiān)督屬性選擇算法。具體地,首先通過自步學(xué)習(xí)理論優(yōu)先選擇高置信度的樣本來訓(xùn)練初始屬性選擇模型,然后依次加入次高置信度的訓(xùn)練樣本增加初始選擇模型的泛化能力,直至增加的訓(xùn)練樣本使...
【文章來源】:廣西師范大學(xué)廣西壯族自治區(qū)
【文章頁數(shù)】:50 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
多分類結(jié)果
參數(shù)敏感圖
German Statlog Vehicle圖 4-3 收斂圖4.4 小結(jié)本章提出了一種新的魯棒圖降維方法。該方法通過兩種策略消除了原始數(shù)據(jù)中噪聲和異常值的影響。具體的,反向圖嵌入策略使得變換矩陣在原始數(shù)據(jù)的低維屬性空間構(gòu)造,而魯棒估計(jì)器避免了異常值影響所涉及的三個(gè)矩陣(如反向圖嵌入矩陣、變換矩陣和圖矩陣)的學(xué)習(xí)。實(shí)驗(yàn)結(jié)果證明了該方法對(duì)兩類分類和多分類任務(wù)的有效性和魯棒性。
【參考文獻(xiàn)】:
期刊論文
[1]基于自步學(xué)習(xí)多元回歸分析[J]. 甘江璋,鐘智,余浩,雷聰,趙樹之. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(12)
本文編號(hào):3585081
【文章來源】:廣西師范大學(xué)廣西壯族自治區(qū)
【文章頁數(shù)】:50 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
多分類結(jié)果
參數(shù)敏感圖
German Statlog Vehicle圖 4-3 收斂圖4.4 小結(jié)本章提出了一種新的魯棒圖降維方法。該方法通過兩種策略消除了原始數(shù)據(jù)中噪聲和異常值的影響。具體的,反向圖嵌入策略使得變換矩陣在原始數(shù)據(jù)的低維屬性空間構(gòu)造,而魯棒估計(jì)器避免了異常值影響所涉及的三個(gè)矩陣(如反向圖嵌入矩陣、變換矩陣和圖矩陣)的學(xué)習(xí)。實(shí)驗(yàn)結(jié)果證明了該方法對(duì)兩類分類和多分類任務(wù)的有效性和魯棒性。
【參考文獻(xiàn)】:
期刊論文
[1]基于自步學(xué)習(xí)多元回歸分析[J]. 甘江璋,鐘智,余浩,雷聰,趙樹之. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(12)
本文編號(hào):3585081
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3585081.html
最近更新
教材專著