基于最大權(quán)重最小冗余準(zhǔn)則的特征選擇方法研究
本文關(guān)鍵詞:基于最大權(quán)重最小冗余準(zhǔn)則的特征選擇方法研究
更多相關(guān)文章: 特征選擇 過濾式方法 類間散度 類內(nèi)散度
【摘要】:近幾年以來,隨著現(xiàn)代科學(xué)技術(shù)的飛速發(fā)展,數(shù)據(jù)量呈現(xiàn)一種爆炸式增長。而伴隨數(shù)據(jù)量增長的同時,數(shù)據(jù)中包含的不相關(guān)和冗余信息也增多,給已有的機器學(xué)習(xí)算法帶來了嚴峻的挑戰(zhàn)。因此,迫切需要適應(yīng)海量數(shù)據(jù)的準(zhǔn)確性和運算效率等綜合性能較好的特征選擇方法。為此,本文對高維數(shù)據(jù)的特征選擇展開了進一步的研究。首先,針對現(xiàn)有特征選擇方法中基于不同的類間散度和類內(nèi)散度的特征權(quán)重度量方法的缺陷,我們提出一種新的度量特征權(quán)重的函數(shù),這種度量具有一定的泛化特征。并進一步討論該形式與其它基于類間散度和類內(nèi)散度準(zhǔn)則的特征權(quán)重度量的關(guān)系。其次,針對現(xiàn)有特征選擇方法中相關(guān)性和冗余度評價方法缺乏多樣化以及最佳特征個數(shù)難以確定的問題,本文提出基于最大平均權(quán)重最小平均冗余準(zhǔn)則的特征選擇方法(MAWMAR方法)。一方面,在特征權(quán)重計算過程中采用一般化的特征權(quán)重評價函數(shù),使得特征選擇過程中不僅便于理解和分析,同時適用于處理半監(jiān)督和有監(jiān)督的問題。另一方面,通過建立最大化特征相關(guān)性和最小化特征間冗余信息的分式規(guī)劃模型,該方法不僅有效地權(quán)衡了特征相關(guān)性和冗余性這兩個相互沖突的目標(biāo),同時實現(xiàn)了最優(yōu)特征個數(shù)的選擇。實驗結(jié)果表明MAWNAR比其它特征選擇方法得到了更小更優(yōu)的特征子集。再次,針對基于最大平均權(quán)重最小平均冗余準(zhǔn)則的特征選擇方法容易受特征個數(shù)的影響,本文提出基于最大總權(quán)重最小冗余準(zhǔn)則的特征選擇方法(MaToWMiR方法),該方法綜合考慮了特征相關(guān)性和特征間冗余性進行無關(guān)冗余特征的剔除。MaToWM,MiR不僅保持了使用一般化的特征權(quán)重度量的優(yōu)點,同時降低了特征個數(shù)對特征選擇的影響。實驗結(jié)果表明MaToWMiR有效地去除了無關(guān)冗余特征,降維的同時提高了分類精度。最后,為了考察MAWMAR和MaToWMiR的應(yīng)用范圍,對兩種方法下的模型做了對比分析。首先,利用分支定界法求解MAWMAR和MaToWmIR方法下的模型,通過比較分類準(zhǔn)確率和選擇出的特征個數(shù),說明了兩種方法在不同的數(shù)據(jù)集上具有各自的優(yōu)勢,同時分析了影響上述結(jié)果的主要原因。其次,針對精確算法計算效率低的問題,利用求解精度較高的遺傳算法求解模型。數(shù)值實驗表明,不論是利用分支定界法還是遺傳算法求解,MAWMAR和MaToWMiR在具有相似特點(例如相似的特征權(quán)重分布和冗余度分布)的數(shù)據(jù)集上占有相同的優(yōu)勢。
【關(guān)鍵詞】:特征選擇 過濾式方法 類間散度 類內(nèi)散度
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:F224
【目錄】:
- 摘要4-5
- Abstract5-9
- 1 緒論9-16
- 1.1 研究背景9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-12
- 1.3 研究內(nèi)容和論文結(jié)構(gòu)12-16
- 2 基于最大平均權(quán)重最小平均冗余準(zhǔn)則的特征選擇方法16-43
- 2.1 符號說明16-17
- 2.2 特征權(quán)重評價函數(shù)及性質(zhì)17-18
- 2.3 MAWMAR方法18-30
- 2.3.1 模型建立19-20
- 2.3.2 模型轉(zhuǎn)化20-29
- 2.3.3 MAWMAR算法實現(xiàn)29-30
- 2.4 數(shù)值實驗30-42
- 2.4.1 測試數(shù)據(jù)集31-32
- 2.4.2 實驗設(shè)置32-33
- 2.4.3 參數(shù)的選擇33-34
- 2.4.4 實驗結(jié)果及討論34-42
- 2.5 本章小結(jié)42-43
- 3 基于最大總權(quán)重最小冗余準(zhǔn)則的特征選擇方法43-61
- 3.1 符號說明43
- 3.2 MaTo WMiR方法43-48
- 3.2.1 模型建立43-45
- 3.2.2 模型轉(zhuǎn)化45-47
- 3.2.3 MaTo WMiR算法實現(xiàn)47-48
- 3.3 數(shù)值實驗48-60
- 3.3.1 測試數(shù)據(jù)集49-51
- 3.3.2 實驗設(shè)置51
- 3.3.3 參數(shù)的選擇51-52
- 3.3.4 實驗結(jié)果與討論52-60
- 3.4 本章小結(jié)60-61
- 4 模型對比分析61-75
- 4.1 基于分支定界法求解模型的對比分析61-68
- 4.1.1 測試數(shù)據(jù)集61
- 4.1.2 實驗設(shè)置61-62
- 4.1.3 實驗結(jié)果分析62-64
- 4.1.4 原因分析64-68
- 4.2 基于遺傳算法求解模型的對比分析68-74
- 4.2.1 測試數(shù)據(jù)集69
- 4.2.2 實驗設(shè)置69-70
- 4.2.3 實驗結(jié)果分析70-72
- 4.2.4 原因分析72-74
- 4.3 本章小結(jié)74-75
- 結(jié)論75-77
- 參考文獻77-81
- 攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況81-82
- 致謝82-83
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 劉揚;劉偉江;;特征選擇方法在信用評估指標(biāo)選取中的應(yīng)用[J];數(shù)理統(tǒng)計與管理;2006年06期
2 ;[J];;年期
中國重要會議論文全文數(shù)據(jù)庫 前6條
1 徐燕;王斌;李錦濤;孫春明;;知識增益:文本分類中一種新的特征選擇方法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
2 肖婷;唐雁;;文本分類中特征選擇方法及應(yīng)用[A];2008年計算機應(yīng)用技術(shù)交流會論文集[C];2008年
3 徐燕;孫春明;王斌;李錦濤;;基于詞條頻率的特征選擇算法研究[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
4 陳慶軒;鄭德權(quán);鄭博文;趙鐵軍;李生;;中文文本分類中基于文檔頻度分布的特征選擇方法[A];黑龍江省計算機學(xué)會2009年學(xué)術(shù)交流年會論文集[C];2010年
5 顧成杰;張順頤;劉凱;黃河;;基于粗糙集和禁忌搜索的特征選擇方法[A];江蘇省電子學(xué)會2010年學(xué)術(shù)年會論文集[C];2010年
6 王秀娟;郭軍;鄭康鋒;;基于互信息可信度的特征選擇方法[A];2006通信理論與技術(shù)新進展——第十一屆全國青年通信學(xué)術(shù)會議論文集[C];2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 張逸石;基于冗余—互補散度及特征包絡(luò)前沿的數(shù)據(jù)驅(qū)動特征選擇方法研究[D];華中科技大學(xué);2016年
2 毛勇;基于支持向量機的特征選擇方法的研究與應(yīng)用[D];浙江大學(xué);2006年
3 尹留志;關(guān)于非平衡數(shù)據(jù)特征問題的研究[D];中國科學(xué)技術(shù)大學(xué);2014年
4 裴志利;數(shù)據(jù)挖掘技術(shù)在文本分類和生物信息學(xué)中的應(yīng)用[D];吉林大學(xué);2008年
5 劉明霞;屬性學(xué)習(xí)若干重要問題的研究及應(yīng)用[D];南京航空航天大學(xué);2015年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 曹晉;基于SVDD的特征選擇方法研究及其應(yīng)用[D];蘇州大學(xué);2015年
2 張強;靜態(tài)圖像上的行人檢測方法研究[D];中國科學(xué)技術(shù)大學(xué);2015年
3 張曉梅;基于融合特征的微博主客觀分類方法研究[D];山西大學(xué);2014年
4 王君;基于SVM-RFE的特征選擇方法研究[D];大連理工大學(xué);2015年
5 于海珠;面向文本聚類的特征選擇方法及應(yīng)用研究[D];大連理工大學(xué);2015年
6 趙世琛;文本分類中特征選擇方法研究[D];山西大學(xué);2014年
7 王丹;特征選擇算法研究及其在異常檢測中的應(yīng)用[D];電子科技大學(xué);2014年
8 林艷峰;中文文本分類特征選擇方法的研究與實現(xiàn)[D];西安電子科技大學(xué);2014年
9 盧志浩;基于GEP的kNN算法改進研究[D];廣西師范學(xué)院;2015年
10 王立鵬;面向圖數(shù)據(jù)的特征選擇方法及其應(yīng)用研究[D];南京航空航天大學(xué);2015年
,本文編號:989579
本文鏈接:http://sikaile.net/jingjilunwen/hongguanjingjilunwen/989579.html