基于MIC改進(jìn)的PCA和CFS特征降維算法研究

發(fā)布時間：2021-03-11 03:21

　　大數(shù)據(jù)時代的到來和信息技術(shù)的發(fā)展產(chǎn)生了大量數(shù)據(jù),機(jī)器學(xué)習(xí)以及近年來的深度學(xué)習(xí)等技術(shù)是探索數(shù)據(jù)的重要手段和有力武器,其關(guān)鍵點(diǎn)在于特征的處理和提取上。特征工程是機(jī)器學(xué)習(xí)重要預(yù)備階段,數(shù)據(jù)特征對模型學(xué)習(xí)的效果至關(guān)重要。數(shù)據(jù)中往往存在著對數(shù)據(jù)分析無關(guān)或者多余的特征,存在著冗余信息,這些冗余信息和噪聲,不僅會影響分析數(shù)據(jù)的結(jié)果精度,還會增加較多的計算量。特征降維可精簡數(shù)據(jù)結(jié)構(gòu),增加模型的可解釋性,減少模型計算量,并提升模型學(xué)習(xí)效果。特征降維可分為兩個大的方面:特征抽取和特征選擇。本文旨在對特征降維算法進(jìn)行改進(jìn)優(yōu)化和推廣,提高特征降維的有效性,使其適用性更強(qiáng)。本文對特征降維中的特征抽取算法主成分分析（Principal component analysis,PCA）和特征選擇算法中基于關(guān)聯(lián)性的特征選擇算法（Correlation-based Feature Selection algorithm,CFS）,利用最大信息系數(shù)（Maximum information coefficient,MIC）的優(yōu)勢分別對這兩者進(jìn)行改進(jìn)分析研究。本文主要研究工作如下:第一,針對主成分分析中協(xié)方差矩陣只能衡量變量之...

【文章來源】：湖北工業(yè)大學(xué)湖北省

【文章頁數(shù)】：64 頁

【學(xué)位級別】：碩士

【部分圖文】：

特征抽取分類本文第一個研究點(diǎn)是針對線性特征抽取算法中主成分分析（PCA）進(jìn)行研究，

框架圖,特征選擇,框架,過程

湖北工業(yè)大學(xué)碩士學(xué)位論文8圖2-1特征抽取分類本文第一個研究點(diǎn)是針對線性特征抽取算法中主成分分析（PCA）進(jìn)行研究，首先分析其原理、根據(jù)算法只能度量變量間存在的線性關(guān)系的局限和數(shù)據(jù)服從高斯分布的假設(shè)特點(diǎn)，對數(shù)據(jù)變換，然后對計算中矩陣進(jìn)行改進(jìn)和推廣，使其能度量變量間的復(fù)雜關(guān)系，從而提出一種更優(yōu)的算法，使其更有效，提高算法特征抽取能力，最后通過模擬和實(shí)驗(yàn)來對比改進(jìn)前后，以及對比和其他常用算法的效果。2.1.2特征選擇特征選擇通常分為四個階段過程：（1）特征子集產(chǎn)生，（2）特征子集評估，（3）評估停止，（4）結(jié)果驗(yàn)證。特征選擇基本框架如下面圖形表示：圖2-2特征選擇過程框架特征子集生成主要的搜索策略有三種：全局最優(yōu)搜索，如分支界定法；隨機(jī)搜索策略，如模擬退火算法，遺傳算法，粒子群算法；啟發(fā)式搜索，如序列向前選擇算法、序列向后選擇算法、增l去r法等等。特征選擇根據(jù)特征間不同的評價度量方式可以分為過濾式、封裝式、嵌入式三種。過濾式特征選擇是先選擇出特征，再將這些特征送入模型學(xué)習(xí)，特征選擇過程和訓(xùn)練模型是分開先后進(jìn)行的，一般計算速度較快，可操作性較大，缺點(diǎn)是可能選擇的特征正確率可能不高，常

示意圖,示意圖,藍(lán)色,正方形

湖北工業(yè)大學(xué)碩士學(xué)位論文13其中((1),(2),,())nTiiiixxxx，((1),(2),,(n))Tjjjjxxxx向量。p1時，距離稱為曼哈頓距離，p2時，就是常用的歐氏距離，且使用較多。然后選擇K個距離最近的實(shí)例進(jìn)行判斷。若是分類任務(wù)問題，輸出的就是待分類樣本所屬的類別，對其最近的K個實(shí)例的類別進(jìn)行投票表決，屬于哪個類別的樣本點(diǎn)多則新樣本則屬于哪個類別，一般K是選擇奇數(shù)；若是回歸任務(wù)問題，則對其最近的K個距離最近的實(shí)例進(jìn)行取平均作為新樣本的預(yù)測值。K近鄰算法示意圖如下：圖2-3KNN示意圖如上圖所示，分別用藍(lán)色正方形和紅色三角形表示兩類樣本數(shù)據(jù)，中間綠色小圓圈表示待分類的數(shù)據(jù)。用K近鄰的思想來進(jìn)行分類：若K=3，則綠色圓點(diǎn)的最鄰近的3個點(diǎn)在上面實(shí)線圓圈內(nèi)，是2個紅色三角形和1個藍(lán)色正方形，根據(jù)投票方式，紅色的三角形數(shù)量比藍(lán)色正方形多，因此待分類的綠點(diǎn)屬于紅色的三角形一類；同理，若K=5，綠色圓點(diǎn)的最鄰近的5個點(diǎn)見上圖虛線圓圈內(nèi)，是2個紅色三角形和3個藍(lán)色的正方形，根據(jù)投票的方式，藍(lán)色正方形數(shù)量多于紅色三角形數(shù)量，判定綠色的點(diǎn)屬于藍(lán)色的正方形一類。K值選擇過小，模型容易過擬合，特別是當(dāng)有噪聲存在時誤差更大；同時如果K值選擇過大，模型過于簡單，預(yù)測誤差會變大，K值一般可通過交叉驗(yàn)證來選擇。KNN算法原理較簡單，容易實(shí)施，新的數(shù)據(jù)可以直接加入數(shù)據(jù)集而不必重新訓(xùn)練，經(jīng)常被使用；當(dāng)數(shù)據(jù)量較大時，計算量較大，對樣本不平衡數(shù)據(jù)得到預(yù)測誤差會偏大，合適K值不容易選擇。KNN一般在文本分類、模式識別、聚類分析、多分類領(lǐng)域應(yīng)用較多。

【參考文獻(xiàn)】：
期刊論文
[1]基于主成分分析的唐山市新型城鎮(zhèn)化水平研究[J]. 張思佳,許沁怡,王天瑞,張春玲.  現(xiàn)代商貿(mào)工業(yè). 2018(31)
[2]基于信息量改進(jìn)主成分分析的高光譜圖像特征提取方法[J]. 任智偉,吳玲達(dá).  兵器裝備工程學(xué)報. 2018(07)
[3]ReliefF和APSO混合降維算法研究[J]. 陳俊穎,陸慧娟,嚴(yán)珂,葉敏超.  中國計量大學(xué)學(xué)報. 2017(02)
[4]基于對數(shù)變換和最大信息系數(shù)PCA的過程監(jiān)測[J]. 王中偉,宋宏,李帥,周曉鋒.  科學(xué)技術(shù)與工程. 2017(16)
[5]基于對稱不確定性和SVM遞歸特征消除的信息基因選擇方法[J]. 葉明全,高凌云,伍長榮,萬春圓.  模式識別與人工智能. 2017(05)
[6]糧食主產(chǎn)區(qū)新型城鎮(zhèn)化發(fā)展水平綜合評價[J]. 姚旭兵,羅光強(qiáng),吳振順,段超群.  商業(yè)經(jīng)濟(jì)研究. 2017(05)
[7]基于歸一化互信息的FCBF特征選擇算法[J]. 段宏湘,張秋余,張墨逸.  華中科技大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[8]主成分分析與線性判別分析兩種數(shù)據(jù)降維算法的對比研究[J]. 董虎勝.  現(xiàn)代計算機(jī)(專業(yè)版). 2016(29)
[9]一種基于改進(jìn)的遺傳算法的癌癥特征基因選擇方法[J]. 范方云,孫俊,王夢梅.  江南大學(xué)學(xué)報(自然科學(xué)版). 2015(04)
[10]一種基因表達(dá)數(shù)據(jù)的混合特征選擇方法[J]. 黃道斌,葉明全,張玲,胡天寒,楊利.  宿州學(xué)院學(xué)報. 2014(08)

碩士論文
[1]基于穩(wěn)健主成分回歸的潤滑油產(chǎn)量預(yù)測模型[D]. 程嫻.大連理工大學(xué) 2017
[2]最大信息系數(shù)及其在腦網(wǎng)絡(luò)分析中的應(yīng)用[D]. 蔣杭進(jìn).中國科學(xué)院研究生院（武漢物理與數(shù)學(xué)研究所） 2013

本文編號：3075771

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3075771.html

上一篇：最優(yōu)密度聚類與雙統(tǒng)計量有效性分析
下一篇：基于Stacking模型融合的船舶航行狀態(tài)預(yù)測

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于MIC改進(jìn)的PCA和CFS特征降維算法研究