天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于MIC的高維數(shù)據特征選擇及應用研究

發(fā)布時間:2020-06-19 23:17
【摘要】:隨著大數(shù)據時代的到來,高維數(shù)據的“維度災難”問題也隨之受到更多學者的廣泛關注。高維數(shù)據通常指包含成千上百個特征且具有大量無關信息和冗余特征的數(shù)據集,如在自然語言處理領域、生物工程領域、醫(yī)療領域、金融領域和人臉識別領域等都存在著大量的高維數(shù)據,而其中包含的冗余特征會給后續(xù)的學習和研究帶來極大的不便,更會降低最后分析結果的可信度,甚至會得到錯誤的結果。因此,高維數(shù)據的特征選擇方法成為了國內外學者的研究重點,并且在多個領域都得到了廣泛應用。本文提出利用最大信息系數(shù)(Maximal Information coefficient,簡稱MIC)的方法進行高維數(shù)據的特征選擇。MIC是由哈佛大學的David N.Reshef等人在2011年提出的度量兩個變量之間相互依賴程度的一個指標,且有基于觀測數(shù)據的計算方法。傳統(tǒng)的特征選擇方法(如AIC、BIC)需要先確定模型,不同的模型選擇出的特征集差異較大,且模型的可解釋性較差。本文從理論角度證明了MIC的重要性質。在實驗部分先基于MIC度量進行特征選擇,MIC特征選擇方法不依賴于所選模型,不論后面建模中使用什么模型以及如何使用這些特征,理論上均不會丟失真正有相依關系的特征,此特性充分體現(xiàn)了所選特征子集的穩(wěn)定性。然后建立隨機森林模型來檢驗所選特征的合適與否,首先使用組塊3x2交叉驗證來進行模型訓練集和測試集的劃分而非傳統(tǒng)的k折交叉驗證,接著在得到的6個訓練集上訓練隨機森林模型并分別在對應的測試集上檢驗分類性能,采取袋外誤差OOB(out-of-bag)作為隨機森林模型調參的評價準則,并且將決策樹的個數(shù)k和樹結點的特征選擇個數(shù)p雙參數(shù)組合進行調參而非傳統(tǒng)的單參數(shù)固定調參。最后,將6組實驗結果取均值后與未進行特征選取的數(shù)據在模型性能上進行對比,結果表明模型分類的準確率由67%提高到82.5%,_1F值由65.26%提高到80.73%,充分說明利用MIC進行高維數(shù)據特征選擇的有效性。
【學位授予單位】:山西大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:C81
【圖文】:

互信息,相依性,變量,互信


第二章 相關概念及理論變量相依性時主要有兩個優(yōu)點:以度量變量之間任意類型關系間的相依性:因為由互信基于變量之間的邊緣和聯(lián)合概率密度函數(shù),而不是基于計特性;行空間維度的變換時,互信息具有不變性。熵的關系以等價的表示為:( , ) ( ) ( | )( ) ( | )( ) ( ) ( , )( , ) ( | ) ( | )I X Y H X H X YH Y H Y XH X H Y H X YH X Y H Y X H X Y .用 Veen 圖表示如下:

曲線,圖線,高維數(shù)據,特征選擇


基于 MIC 的高維數(shù)據特征選擇及應用研究用的1F 值。12=P RFP R .(4)ROCROC 曲線是以指標“真正例率”(True Positive Rate,簡稱 TPR)為縱軸,以標“假正例率”(False Positive Rate,簡稱 FPR)為橫軸進行作圖描繪的曲線,它兩的定義如下:TPTPRTP FN .FPFPRTN FP .

【相似文獻】

相關期刊論文 前10條

1 張何辛;孫效華;郭煒煒;;高維數(shù)據的交互式沉浸可視化——以城市生活質量數(shù)據為例[J];裝飾;2019年06期

2 陳紅彬;;基于大數(shù)據的高維數(shù)據挖掘探究[J];通訊世界;2018年03期

3 于君;范文彬;杜永軍;;智能電網中高維數(shù)據聚類方法研究[J];智能計算機與應用;2016年01期

4 張凌潔;;淺談高維數(shù)據變量選擇現(xiàn)狀與方法[J];數(shù)碼世界;2016年07期

5 李澤安;;淺談高維數(shù)據挖掘的現(xiàn)狀與方法[J];福建電腦;2014年07期

6 宋懷波;何東健;;面向精細農業(yè)的高維數(shù)據本征維數(shù)估計方法研究進展[J];中國科學:信息科學;2010年S1期

7 張航;PP型擬合優(yōu)度檢驗[J];系統(tǒng)科學與數(shù)學;1988年03期

8 余立蘋;李云飛;朱世行;;基于高維數(shù)據流的異常檢測算法[J];計算機工程;2018年01期

9 虞翔;李青;;大數(shù)據環(huán)境下的高維數(shù)據挖掘在入侵檢測中的有效應用[J];電腦編程技巧與維護;2016年22期

10 宋玉林;訾雪e

本文編號:2721479


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/2721479.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶2f727***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日韩人妻有码一区二区| 亚洲综合精品天堂夜夜| 亚洲精品国产第一区二区多人| 亚洲日本加勒比在线播放| 正在播放国产又粗又长| 国产精品午夜性色视频| 欧美有码黄片免费在线视频| 色婷婷视频国产一区视频| 日韩人妻精品免费一区二区三区| 国产午夜福利在线免费观看| 亚洲精品蜜桃在线观看| 成人国产一区二区三区精品麻豆| 久久精品国产熟女精品| 日本成人三级在线播放| 国产精品一区日韩欧美| 91偷拍与自偷拍精品| 日韩和欧美的一区二区三区| 国产中文另类天堂二区| 国产午夜福利片在线观看| 欧美日韩亚洲国产综合网| 六月丁香六月综合缴情| 日本欧美一区二区三区在线播| 国产大屁股喷水在线观看视频| 东京干男人都知道的天堂| 一级片二级片欧美日韩| 国产亚洲欧美另类久久久| 视频一区二区三区自拍偷| 中文字幕人妻综合一区二区 | 亚洲高清一区二区高清| 女生更色还是男生更色| 办公室丝袜高跟秘书国产| 在线观看免费视频你懂的| 日本淫片一区二区三区| 男人大臿蕉香蕉大视频| 国产一区二区精品丝袜| 日本人妻免费一区二区三区| 国产盗摄精品一区二区视频| 经典欧美熟女激情综合网| 久热久热精品视频在线观看 | 在线免费国产一区二区| 亚洲欧美一二区日韩高清在线|