基于MIC的高維數(shù)據特征選擇及應用研究
發(fā)布時間:2020-06-19 23:17
【摘要】:隨著大數(shù)據時代的到來,高維數(shù)據的“維度災難”問題也隨之受到更多學者的廣泛關注。高維數(shù)據通常指包含成千上百個特征且具有大量無關信息和冗余特征的數(shù)據集,如在自然語言處理領域、生物工程領域、醫(yī)療領域、金融領域和人臉識別領域等都存在著大量的高維數(shù)據,而其中包含的冗余特征會給后續(xù)的學習和研究帶來極大的不便,更會降低最后分析結果的可信度,甚至會得到錯誤的結果。因此,高維數(shù)據的特征選擇方法成為了國內外學者的研究重點,并且在多個領域都得到了廣泛應用。本文提出利用最大信息系數(shù)(Maximal Information coefficient,簡稱MIC)的方法進行高維數(shù)據的特征選擇。MIC是由哈佛大學的David N.Reshef等人在2011年提出的度量兩個變量之間相互依賴程度的一個指標,且有基于觀測數(shù)據的計算方法。傳統(tǒng)的特征選擇方法(如AIC、BIC)需要先確定模型,不同的模型選擇出的特征集差異較大,且模型的可解釋性較差。本文從理論角度證明了MIC的重要性質。在實驗部分先基于MIC度量進行特征選擇,MIC特征選擇方法不依賴于所選模型,不論后面建模中使用什么模型以及如何使用這些特征,理論上均不會丟失真正有相依關系的特征,此特性充分體現(xiàn)了所選特征子集的穩(wěn)定性。然后建立隨機森林模型來檢驗所選特征的合適與否,首先使用組塊3x2交叉驗證來進行模型訓練集和測試集的劃分而非傳統(tǒng)的k折交叉驗證,接著在得到的6個訓練集上訓練隨機森林模型并分別在對應的測試集上檢驗分類性能,采取袋外誤差OOB(out-of-bag)作為隨機森林模型調參的評價準則,并且將決策樹的個數(shù)k和樹結點的特征選擇個數(shù)p雙參數(shù)組合進行調參而非傳統(tǒng)的單參數(shù)固定調參。最后,將6組實驗結果取均值后與未進行特征選取的數(shù)據在模型性能上進行對比,結果表明模型分類的準確率由67%提高到82.5%,_1F值由65.26%提高到80.73%,充分說明利用MIC進行高維數(shù)據特征選擇的有效性。
【學位授予單位】:山西大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:C81
【圖文】:
第二章 相關概念及理論變量相依性時主要有兩個優(yōu)點:以度量變量之間任意類型關系間的相依性:因為由互信基于變量之間的邊緣和聯(lián)合概率密度函數(shù),而不是基于計特性;行空間維度的變換時,互信息具有不變性。熵的關系以等價的表示為:( , ) ( ) ( | )( ) ( | )( ) ( ) ( , )( , ) ( | ) ( | )I X Y H X H X YH Y H Y XH X H Y H X YH X Y H Y X H X Y .用 Veen 圖表示如下:
基于 MIC 的高維數(shù)據特征選擇及應用研究用的1F 值。12=P RFP R .(4)ROCROC 曲線是以指標“真正例率”(True Positive Rate,簡稱 TPR)為縱軸,以標“假正例率”(False Positive Rate,簡稱 FPR)為橫軸進行作圖描繪的曲線,它兩的定義如下:TPTPRTP FN .FPFPRTN FP .
【學位授予單位】:山西大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:C81
【圖文】:
第二章 相關概念及理論變量相依性時主要有兩個優(yōu)點:以度量變量之間任意類型關系間的相依性:因為由互信基于變量之間的邊緣和聯(lián)合概率密度函數(shù),而不是基于計特性;行空間維度的變換時,互信息具有不變性。熵的關系以等價的表示為:( , ) ( ) ( | )( ) ( | )( ) ( ) ( , )( , ) ( | ) ( | )I X Y H X H X YH Y H Y XH X H Y H X YH X Y H Y X H X Y .用 Veen 圖表示如下:
基于 MIC 的高維數(shù)據特征選擇及應用研究用的1F 值。12=P RFP R .(4)ROCROC 曲線是以指標“真正例率”(True Positive Rate,簡稱 TPR)為縱軸,以標“假正例率”(False Positive Rate,簡稱 FPR)為橫軸進行作圖描繪的曲線,它兩的定義如下:TPTPRTP FN .FPFPRTN FP .
【相似文獻】
相關期刊論文 前10條
1 張何辛;孫效華;郭煒煒;;高維數(shù)據的交互式沉浸可視化——以城市生活質量數(shù)據為例[J];裝飾;2019年06期
2 陳紅彬;;基于大數(shù)據的高維數(shù)據挖掘探究[J];通訊世界;2018年03期
3 于君;范文彬;杜永軍;;智能電網中高維數(shù)據聚類方法研究[J];智能計算機與應用;2016年01期
4 張凌潔;;淺談高維數(shù)據變量選擇現(xiàn)狀與方法[J];數(shù)碼世界;2016年07期
5 李澤安;;淺談高維數(shù)據挖掘的現(xiàn)狀與方法[J];福建電腦;2014年07期
6 宋懷波;何東健;;面向精細農業(yè)的高維數(shù)據本征維數(shù)估計方法研究進展[J];中國科學:信息科學;2010年S1期
7 張航;PP型擬合優(yōu)度檢驗[J];系統(tǒng)科學與數(shù)學;1988年03期
8 余立蘋;李云飛;朱世行;;基于高維數(shù)據流的異常檢測算法[J];計算機工程;2018年01期
9 虞翔;李青;;大數(shù)據環(huán)境下的高維數(shù)據挖掘在入侵檢測中的有效應用[J];電腦編程技巧與維護;2016年22期
10 宋玉林;訾雪e
本文編號:2721479
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/2721479.html
教材專著