天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于MIC改進的PCA和CFS特征降維算法研究

發(fā)布時間:2021-03-11 03:21
  大數(shù)據(jù)時代的到來和信息技術的發(fā)展產(chǎn)生了大量數(shù)據(jù),機器學習以及近年來的深度學習等技術是探索數(shù)據(jù)的重要手段和有力武器,其關鍵點在于特征的處理和提取上。特征工程是機器學習重要預備階段,數(shù)據(jù)特征對模型學習的效果至關重要。數(shù)據(jù)中往往存在著對數(shù)據(jù)分析無關或者多余的特征,存在著冗余信息,這些冗余信息和噪聲,不僅會影響分析數(shù)據(jù)的結果精度,還會增加較多的計算量。特征降維可精簡數(shù)據(jù)結構,增加模型的可解釋性,減少模型計算量,并提升模型學習效果。特征降維可分為兩個大的方面:特征抽取和特征選擇。本文旨在對特征降維算法進行改進優(yōu)化和推廣,提高特征降維的有效性,使其適用性更強。本文對特征降維中的特征抽取算法主成分分析(Principal component analysis,PCA)和特征選擇算法中基于關聯(lián)性的特征選擇算法(Correlation-based Feature Selection algorithm,CFS),利用最大信息系數(shù)(Maximum information coefficient,MIC)的優(yōu)勢分別對這兩者進行改進分析研究。本文主要研究工作如下:第一,針對主成分分析中協(xié)方差矩陣只能衡量變量之... 

【文章來源】:湖北工業(yè)大學湖北省

【文章頁數(shù)】:64 頁

【學位級別】:碩士

【部分圖文】:

基于MIC改進的PCA和CFS特征降維算法研究


特征抽取分類本文第一個研究點是針對線性特征抽取算法中主成分分析(PCA)進行研究,

框架圖,特征選擇,框架,過程


湖北工業(yè)大學碩士學位論文8圖2-1特征抽取分類本文第一個研究點是針對線性特征抽取算法中主成分分析(PCA)進行研究,首先分析其原理、根據(jù)算法只能度量變量間存在的線性關系的局限和數(shù)據(jù)服從高斯分布的假設特點,對數(shù)據(jù)變換,然后對計算中矩陣進行改進和推廣,使其能度量變量間的復雜關系,從而提出一種更優(yōu)的算法,使其更有效,提高算法特征抽取能力,最后通過模擬和實驗來對比改進前后,以及對比和其他常用算法的效果。2.1.2特征選擇特征選擇通常分為四個階段過程:(1)特征子集產(chǎn)生,(2)特征子集評估,(3)評估停止,(4)結果驗證。特征選擇基本框架如下面圖形表示:圖2-2特征選擇過程框架特征子集生成主要的搜索策略有三種:全局最優(yōu)搜索,如分支界定法;隨機搜索策略,如模擬退火算法,遺傳算法,粒子群算法;啟發(fā)式搜索,如序列向前選擇算法、序列向后選擇算法、增l去r法等等。特征選擇根據(jù)特征間不同的評價度量方式可以分為過濾式、封裝式、嵌入式三種。過濾式特征選擇是先選擇出特征,再將這些特征送入模型學習,特征選擇過程和訓練模型是分開先后進行的,一般計算速度較快,可操作性較大,缺點是可能選擇的特征正確率可能不高,常

示意圖,示意圖,藍色,正方形


湖北工業(yè)大學碩士學位論文13其中((1),(2),,())nTiiiixxxx,((1),(2),,(n))Tjjjjxxxx向量。p1時,距離稱為曼哈頓距離,p2時,就是常用的歐氏距離,且使用較多。然后選擇K個距離最近的實例進行判斷。若是分類任務問題,輸出的就是待分類樣本所屬的類別,對其最近的K個實例的類別進行投票表決,屬于哪個類別的樣本點多則新樣本則屬于哪個類別,一般K是選擇奇數(shù);若是回歸任務問題,則對其最近的K個距離最近的實例進行取平均作為新樣本的預測值。K近鄰算法示意圖如下:圖2-3KNN示意圖如上圖所示,分別用藍色正方形和紅色三角形表示兩類樣本數(shù)據(jù),中間綠色小圓圈表示待分類的數(shù)據(jù)。用K近鄰的思想來進行分類:若K=3,則綠色圓點的最鄰近的3個點在上面實線圓圈內,是2個紅色三角形和1個藍色正方形,根據(jù)投票方式,紅色的三角形數(shù)量比藍色正方形多,因此待分類的綠點屬于紅色的三角形一類;同理,若K=5,綠色圓點的最鄰近的5個點見上圖虛線圓圈內,是2個紅色三角形和3個藍色的正方形,根據(jù)投票的方式,藍色正方形數(shù)量多于紅色三角形數(shù)量,判定綠色的點屬于藍色的正方形一類。K值選擇過小,模型容易過擬合,特別是當有噪聲存在時誤差更大;同時如果K值選擇過大,模型過于簡單,預測誤差會變大,K值一般可通過交叉驗證來選擇。KNN算法原理較簡單,容易實施,新的數(shù)據(jù)可以直接加入數(shù)據(jù)集而不必重新訓練,經(jīng)常被使用;當數(shù)據(jù)量較大時,計算量較大,對樣本不平衡數(shù)據(jù)得到預測誤差會偏大,合適K值不容易選擇。KNN一般在文本分類、模式識別、聚類分析、多分類領域應用較多。

【參考文獻】:
期刊論文
[1]基于主成分分析的唐山市新型城鎮(zhèn)化水平研究[J]. 張思佳,許沁怡,王天瑞,張春玲.  現(xiàn)代商貿工業(yè). 2018(31)
[2]基于信息量改進主成分分析的高光譜圖像特征提取方法[J]. 任智偉,吳玲達.  兵器裝備工程學報. 2018(07)
[3]ReliefF和APSO混合降維算法研究[J]. 陳俊穎,陸慧娟,嚴珂,葉敏超.  中國計量大學學報. 2017(02)
[4]基于對數(shù)變換和最大信息系數(shù)PCA的過程監(jiān)測[J]. 王中偉,宋宏,李帥,周曉鋒.  科學技術與工程. 2017(16)
[5]基于對稱不確定性和SVM遞歸特征消除的信息基因選擇方法[J]. 葉明全,高凌云,伍長榮,萬春圓.  模式識別與人工智能. 2017(05)
[6]糧食主產(chǎn)區(qū)新型城鎮(zhèn)化發(fā)展水平綜合評價[J]. 姚旭兵,羅光強,吳振順,段超群.  商業(yè)經(jīng)濟研究. 2017(05)
[7]基于歸一化互信息的FCBF特征選擇算法[J]. 段宏湘,張秋余,張墨逸.  華中科技大學學報(自然科學版). 2017(01)
[8]主成分分析與線性判別分析兩種數(shù)據(jù)降維算法的對比研究[J]. 董虎勝.  現(xiàn)代計算機(專業(yè)版). 2016(29)
[9]一種基于改進的遺傳算法的癌癥特征基因選擇方法[J]. 范方云,孫俊,王夢梅.  江南大學學報(自然科學版). 2015(04)
[10]一種基因表達數(shù)據(jù)的混合特征選擇方法[J]. 黃道斌,葉明全,張玲,胡天寒,楊利.  宿州學院學報. 2014(08)

碩士論文
[1]基于穩(wěn)健主成分回歸的潤滑油產(chǎn)量預測模型[D]. 程嫻.大連理工大學 2017
[2]最大信息系數(shù)及其在腦網(wǎng)絡分析中的應用[D]. 蔣杭進.中國科學院研究生院(武漢物理與數(shù)學研究所) 2013



本文編號:3075771

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3075771.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶a8504***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产精品超碰在线观看| 精品国模一区二区三区欧美| 午夜精品麻豆视频91| 午夜精品一区二区三区国产| 国产激情一区二区三区不卡| 亚洲av熟女国产一区二区三区站| 日本加勒比在线观看一区| 日韩精品在线观看一区| 69精品一区二区蜜桃视频| 欧美精品女同一区二区| 午夜国产精品福利在线观看| 中文字幕亚洲人妻在线视频| 亚洲精品一区三区三区| 国产不卡免费高清视频| 亚洲中文字幕剧情在线播放| 美日韩一区二区精品系列| 热情的邻居在线中文字幕| 精品女同在线一区二区| 男女午夜福利院在线观看| 日韩专区欧美中文字幕| 国产精品夜色一区二区三区不卡| 91精品国产综合久久福利| 日韩精品中文字幕亚洲| 少妇视频一区二区三区| 欧美色欧美亚洲日在线| 亚洲精品一区二区三区免| 亚洲高清欧美中文字幕| 大香蕉再在线大香蕉再在线| 日韩三级黄色大片免费观看| 韩日黄片在线免费观看| 久久三级国外久久久三级| 99视频精品免费视频| 狠色婷婷久久一区二区三区| 成人国产一区二区三区精品麻豆| 日韩欧美国产三级在线观看| 91麻豆精品欧美视频| 丰满少妇被猛烈插入在线观看| 老熟妇乱视频一区二区| 欧美国产在线观看精品| 国产一区二区三区口爆在线| 国产原创中文av在线播放 |