天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于MIC改進(jìn)的PCA和CFS特征降維算法研究

發(fā)布時間:2021-03-11 03:21
  大數(shù)據(jù)時代的到來和信息技術(shù)的發(fā)展產(chǎn)生了大量數(shù)據(jù),機(jī)器學(xué)習(xí)以及近年來的深度學(xué)習(xí)等技術(shù)是探索數(shù)據(jù)的重要手段和有力武器,其關(guān)鍵點(diǎn)在于特征的處理和提取上。特征工程是機(jī)器學(xué)習(xí)重要預(yù)備階段,數(shù)據(jù)特征對模型學(xué)習(xí)的效果至關(guān)重要。數(shù)據(jù)中往往存在著對數(shù)據(jù)分析無關(guān)或者多余的特征,存在著冗余信息,這些冗余信息和噪聲,不僅會影響分析數(shù)據(jù)的結(jié)果精度,還會增加較多的計算量。特征降維可精簡數(shù)據(jù)結(jié)構(gòu),增加模型的可解釋性,減少模型計算量,并提升模型學(xué)習(xí)效果。特征降維可分為兩個大的方面:特征抽取和特征選擇。本文旨在對特征降維算法進(jìn)行改進(jìn)優(yōu)化和推廣,提高特征降維的有效性,使其適用性更強(qiáng)。本文對特征降維中的特征抽取算法主成分分析(Principal component analysis,PCA)和特征選擇算法中基于關(guān)聯(lián)性的特征選擇算法(Correlation-based Feature Selection algorithm,CFS),利用最大信息系數(shù)(Maximum information coefficient,MIC)的優(yōu)勢分別對這兩者進(jìn)行改進(jìn)分析研究。本文主要研究工作如下:第一,針對主成分分析中協(xié)方差矩陣只能衡量變量之... 

【文章來源】:湖北工業(yè)大學(xué)湖北省

【文章頁數(shù)】:64 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于MIC改進(jìn)的PCA和CFS特征降維算法研究


特征抽取分類本文第一個研究點(diǎn)是針對線性特征抽取算法中主成分分析(PCA)進(jìn)行研究,

框架圖,特征選擇,框架,過程


湖北工業(yè)大學(xué)碩士學(xué)位論文8圖2-1特征抽取分類本文第一個研究點(diǎn)是針對線性特征抽取算法中主成分分析(PCA)進(jìn)行研究,首先分析其原理、根據(jù)算法只能度量變量間存在的線性關(guān)系的局限和數(shù)據(jù)服從高斯分布的假設(shè)特點(diǎn),對數(shù)據(jù)變換,然后對計算中矩陣進(jìn)行改進(jìn)和推廣,使其能度量變量間的復(fù)雜關(guān)系,從而提出一種更優(yōu)的算法,使其更有效,提高算法特征抽取能力,最后通過模擬和實(shí)驗(yàn)來對比改進(jìn)前后,以及對比和其他常用算法的效果。2.1.2特征選擇特征選擇通常分為四個階段過程:(1)特征子集產(chǎn)生,(2)特征子集評估,(3)評估停止,(4)結(jié)果驗(yàn)證。特征選擇基本框架如下面圖形表示:圖2-2特征選擇過程框架特征子集生成主要的搜索策略有三種:全局最優(yōu)搜索,如分支界定法;隨機(jī)搜索策略,如模擬退火算法,遺傳算法,粒子群算法;啟發(fā)式搜索,如序列向前選擇算法、序列向后選擇算法、增l去r法等等。特征選擇根據(jù)特征間不同的評價度量方式可以分為過濾式、封裝式、嵌入式三種。過濾式特征選擇是先選擇出特征,再將這些特征送入模型學(xué)習(xí),特征選擇過程和訓(xùn)練模型是分開先后進(jìn)行的,一般計算速度較快,可操作性較大,缺點(diǎn)是可能選擇的特征正確率可能不高,常

示意圖,示意圖,藍(lán)色,正方形


湖北工業(yè)大學(xué)碩士學(xué)位論文13其中((1),(2),,())nTiiiixxxx,((1),(2),,(n))Tjjjjxxxx向量。p1時,距離稱為曼哈頓距離,p2時,就是常用的歐氏距離,且使用較多。然后選擇K個距離最近的實(shí)例進(jìn)行判斷。若是分類任務(wù)問題,輸出的就是待分類樣本所屬的類別,對其最近的K個實(shí)例的類別進(jìn)行投票表決,屬于哪個類別的樣本點(diǎn)多則新樣本則屬于哪個類別,一般K是選擇奇數(shù);若是回歸任務(wù)問題,則對其最近的K個距離最近的實(shí)例進(jìn)行取平均作為新樣本的預(yù)測值。K近鄰算法示意圖如下:圖2-3KNN示意圖如上圖所示,分別用藍(lán)色正方形和紅色三角形表示兩類樣本數(shù)據(jù),中間綠色小圓圈表示待分類的數(shù)據(jù)。用K近鄰的思想來進(jìn)行分類:若K=3,則綠色圓點(diǎn)的最鄰近的3個點(diǎn)在上面實(shí)線圓圈內(nèi),是2個紅色三角形和1個藍(lán)色正方形,根據(jù)投票方式,紅色的三角形數(shù)量比藍(lán)色正方形多,因此待分類的綠點(diǎn)屬于紅色的三角形一類;同理,若K=5,綠色圓點(diǎn)的最鄰近的5個點(diǎn)見上圖虛線圓圈內(nèi),是2個紅色三角形和3個藍(lán)色的正方形,根據(jù)投票的方式,藍(lán)色正方形數(shù)量多于紅色三角形數(shù)量,判定綠色的點(diǎn)屬于藍(lán)色的正方形一類。K值選擇過小,模型容易過擬合,特別是當(dāng)有噪聲存在時誤差更大;同時如果K值選擇過大,模型過于簡單,預(yù)測誤差會變大,K值一般可通過交叉驗(yàn)證來選擇。KNN算法原理較簡單,容易實(shí)施,新的數(shù)據(jù)可以直接加入數(shù)據(jù)集而不必重新訓(xùn)練,經(jīng)常被使用;當(dāng)數(shù)據(jù)量較大時,計算量較大,對樣本不平衡數(shù)據(jù)得到預(yù)測誤差會偏大,合適K值不容易選擇。KNN一般在文本分類、模式識別、聚類分析、多分類領(lǐng)域應(yīng)用較多。

【參考文獻(xiàn)】:
期刊論文
[1]基于主成分分析的唐山市新型城鎮(zhèn)化水平研究[J]. 張思佳,許沁怡,王天瑞,張春玲.  現(xiàn)代商貿(mào)工業(yè). 2018(31)
[2]基于信息量改進(jìn)主成分分析的高光譜圖像特征提取方法[J]. 任智偉,吳玲達(dá).  兵器裝備工程學(xué)報. 2018(07)
[3]ReliefF和APSO混合降維算法研究[J]. 陳俊穎,陸慧娟,嚴(yán)珂,葉敏超.  中國計量大學(xué)學(xué)報. 2017(02)
[4]基于對數(shù)變換和最大信息系數(shù)PCA的過程監(jiān)測[J]. 王中偉,宋宏,李帥,周曉鋒.  科學(xué)技術(shù)與工程. 2017(16)
[5]基于對稱不確定性和SVM遞歸特征消除的信息基因選擇方法[J]. 葉明全,高凌云,伍長榮,萬春圓.  模式識別與人工智能. 2017(05)
[6]糧食主產(chǎn)區(qū)新型城鎮(zhèn)化發(fā)展水平綜合評價[J]. 姚旭兵,羅光強(qiáng),吳振順,段超群.  商業(yè)經(jīng)濟(jì)研究. 2017(05)
[7]基于歸一化互信息的FCBF特征選擇算法[J]. 段宏湘,張秋余,張墨逸.  華中科技大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[8]主成分分析與線性判別分析兩種數(shù)據(jù)降維算法的對比研究[J]. 董虎勝.  現(xiàn)代計算機(jī)(專業(yè)版). 2016(29)
[9]一種基于改進(jìn)的遺傳算法的癌癥特征基因選擇方法[J]. 范方云,孫俊,王夢梅.  江南大學(xué)學(xué)報(自然科學(xué)版). 2015(04)
[10]一種基因表達(dá)數(shù)據(jù)的混合特征選擇方法[J]. 黃道斌,葉明全,張玲,胡天寒,楊利.  宿州學(xué)院學(xué)報. 2014(08)

碩士論文
[1]基于穩(wěn)健主成分回歸的潤滑油產(chǎn)量預(yù)測模型[D]. 程嫻.大連理工大學(xué) 2017
[2]最大信息系數(shù)及其在腦網(wǎng)絡(luò)分析中的應(yīng)用[D]. 蔣杭進(jìn).中國科學(xué)院研究生院(武漢物理與數(shù)學(xué)研究所) 2013



本文編號:3075771

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3075771.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a8504***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com