基于MIC改進的PCA和CFS特征降維算法研究
發(fā)布時間:2021-03-11 03:21
大數(shù)據(jù)時代的到來和信息技術的發(fā)展產(chǎn)生了大量數(shù)據(jù),機器學習以及近年來的深度學習等技術是探索數(shù)據(jù)的重要手段和有力武器,其關鍵點在于特征的處理和提取上。特征工程是機器學習重要預備階段,數(shù)據(jù)特征對模型學習的效果至關重要。數(shù)據(jù)中往往存在著對數(shù)據(jù)分析無關或者多余的特征,存在著冗余信息,這些冗余信息和噪聲,不僅會影響分析數(shù)據(jù)的結果精度,還會增加較多的計算量。特征降維可精簡數(shù)據(jù)結構,增加模型的可解釋性,減少模型計算量,并提升模型學習效果。特征降維可分為兩個大的方面:特征抽取和特征選擇。本文旨在對特征降維算法進行改進優(yōu)化和推廣,提高特征降維的有效性,使其適用性更強。本文對特征降維中的特征抽取算法主成分分析(Principal component analysis,PCA)和特征選擇算法中基于關聯(lián)性的特征選擇算法(Correlation-based Feature Selection algorithm,CFS),利用最大信息系數(shù)(Maximum information coefficient,MIC)的優(yōu)勢分別對這兩者進行改進分析研究。本文主要研究工作如下:第一,針對主成分分析中協(xié)方差矩陣只能衡量變量之...
【文章來源】:湖北工業(yè)大學湖北省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
特征抽取分類本文第一個研究點是針對線性特征抽取算法中主成分分析(PCA)進行研究,
湖北工業(yè)大學碩士學位論文8圖2-1特征抽取分類本文第一個研究點是針對線性特征抽取算法中主成分分析(PCA)進行研究,首先分析其原理、根據(jù)算法只能度量變量間存在的線性關系的局限和數(shù)據(jù)服從高斯分布的假設特點,對數(shù)據(jù)變換,然后對計算中矩陣進行改進和推廣,使其能度量變量間的復雜關系,從而提出一種更優(yōu)的算法,使其更有效,提高算法特征抽取能力,最后通過模擬和實驗來對比改進前后,以及對比和其他常用算法的效果。2.1.2特征選擇特征選擇通常分為四個階段過程:(1)特征子集產(chǎn)生,(2)特征子集評估,(3)評估停止,(4)結果驗證。特征選擇基本框架如下面圖形表示:圖2-2特征選擇過程框架特征子集生成主要的搜索策略有三種:全局最優(yōu)搜索,如分支界定法;隨機搜索策略,如模擬退火算法,遺傳算法,粒子群算法;啟發(fā)式搜索,如序列向前選擇算法、序列向后選擇算法、增l去r法等等。特征選擇根據(jù)特征間不同的評價度量方式可以分為過濾式、封裝式、嵌入式三種。過濾式特征選擇是先選擇出特征,再將這些特征送入模型學習,特征選擇過程和訓練模型是分開先后進行的,一般計算速度較快,可操作性較大,缺點是可能選擇的特征正確率可能不高,常
湖北工業(yè)大學碩士學位論文13其中((1),(2),,())nTiiiixxxx,((1),(2),,(n))Tjjjjxxxx向量。p1時,距離稱為曼哈頓距離,p2時,就是常用的歐氏距離,且使用較多。然后選擇K個距離最近的實例進行判斷。若是分類任務問題,輸出的就是待分類樣本所屬的類別,對其最近的K個實例的類別進行投票表決,屬于哪個類別的樣本點多則新樣本則屬于哪個類別,一般K是選擇奇數(shù);若是回歸任務問題,則對其最近的K個距離最近的實例進行取平均作為新樣本的預測值。K近鄰算法示意圖如下:圖2-3KNN示意圖如上圖所示,分別用藍色正方形和紅色三角形表示兩類樣本數(shù)據(jù),中間綠色小圓圈表示待分類的數(shù)據(jù)。用K近鄰的思想來進行分類:若K=3,則綠色圓點的最鄰近的3個點在上面實線圓圈內,是2個紅色三角形和1個藍色正方形,根據(jù)投票方式,紅色的三角形數(shù)量比藍色正方形多,因此待分類的綠點屬于紅色的三角形一類;同理,若K=5,綠色圓點的最鄰近的5個點見上圖虛線圓圈內,是2個紅色三角形和3個藍色的正方形,根據(jù)投票的方式,藍色正方形數(shù)量多于紅色三角形數(shù)量,判定綠色的點屬于藍色的正方形一類。K值選擇過小,模型容易過擬合,特別是當有噪聲存在時誤差更大;同時如果K值選擇過大,模型過于簡單,預測誤差會變大,K值一般可通過交叉驗證來選擇。KNN算法原理較簡單,容易實施,新的數(shù)據(jù)可以直接加入數(shù)據(jù)集而不必重新訓練,經(jīng)常被使用;當數(shù)據(jù)量較大時,計算量較大,對樣本不平衡數(shù)據(jù)得到預測誤差會偏大,合適K值不容易選擇。KNN一般在文本分類、模式識別、聚類分析、多分類領域應用較多。
【參考文獻】:
期刊論文
[1]基于主成分分析的唐山市新型城鎮(zhèn)化水平研究[J]. 張思佳,許沁怡,王天瑞,張春玲. 現(xiàn)代商貿工業(yè). 2018(31)
[2]基于信息量改進主成分分析的高光譜圖像特征提取方法[J]. 任智偉,吳玲達. 兵器裝備工程學報. 2018(07)
[3]ReliefF和APSO混合降維算法研究[J]. 陳俊穎,陸慧娟,嚴珂,葉敏超. 中國計量大學學報. 2017(02)
[4]基于對數(shù)變換和最大信息系數(shù)PCA的過程監(jiān)測[J]. 王中偉,宋宏,李帥,周曉鋒. 科學技術與工程. 2017(16)
[5]基于對稱不確定性和SVM遞歸特征消除的信息基因選擇方法[J]. 葉明全,高凌云,伍長榮,萬春圓. 模式識別與人工智能. 2017(05)
[6]糧食主產(chǎn)區(qū)新型城鎮(zhèn)化發(fā)展水平綜合評價[J]. 姚旭兵,羅光強,吳振順,段超群. 商業(yè)經(jīng)濟研究. 2017(05)
[7]基于歸一化互信息的FCBF特征選擇算法[J]. 段宏湘,張秋余,張墨逸. 華中科技大學學報(自然科學版). 2017(01)
[8]主成分分析與線性判別分析兩種數(shù)據(jù)降維算法的對比研究[J]. 董虎勝. 現(xiàn)代計算機(專業(yè)版). 2016(29)
[9]一種基于改進的遺傳算法的癌癥特征基因選擇方法[J]. 范方云,孫俊,王夢梅. 江南大學學報(自然科學版). 2015(04)
[10]一種基因表達數(shù)據(jù)的混合特征選擇方法[J]. 黃道斌,葉明全,張玲,胡天寒,楊利. 宿州學院學報. 2014(08)
碩士論文
[1]基于穩(wěn)健主成分回歸的潤滑油產(chǎn)量預測模型[D]. 程嫻.大連理工大學 2017
[2]最大信息系數(shù)及其在腦網(wǎng)絡分析中的應用[D]. 蔣杭進.中國科學院研究生院(武漢物理與數(shù)學研究所) 2013
本文編號:3075771
【文章來源】:湖北工業(yè)大學湖北省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
特征抽取分類本文第一個研究點是針對線性特征抽取算法中主成分分析(PCA)進行研究,
湖北工業(yè)大學碩士學位論文8圖2-1特征抽取分類本文第一個研究點是針對線性特征抽取算法中主成分分析(PCA)進行研究,首先分析其原理、根據(jù)算法只能度量變量間存在的線性關系的局限和數(shù)據(jù)服從高斯分布的假設特點,對數(shù)據(jù)變換,然后對計算中矩陣進行改進和推廣,使其能度量變量間的復雜關系,從而提出一種更優(yōu)的算法,使其更有效,提高算法特征抽取能力,最后通過模擬和實驗來對比改進前后,以及對比和其他常用算法的效果。2.1.2特征選擇特征選擇通常分為四個階段過程:(1)特征子集產(chǎn)生,(2)特征子集評估,(3)評估停止,(4)結果驗證。特征選擇基本框架如下面圖形表示:圖2-2特征選擇過程框架特征子集生成主要的搜索策略有三種:全局最優(yōu)搜索,如分支界定法;隨機搜索策略,如模擬退火算法,遺傳算法,粒子群算法;啟發(fā)式搜索,如序列向前選擇算法、序列向后選擇算法、增l去r法等等。特征選擇根據(jù)特征間不同的評價度量方式可以分為過濾式、封裝式、嵌入式三種。過濾式特征選擇是先選擇出特征,再將這些特征送入模型學習,特征選擇過程和訓練模型是分開先后進行的,一般計算速度較快,可操作性較大,缺點是可能選擇的特征正確率可能不高,常
湖北工業(yè)大學碩士學位論文13其中((1),(2),,())nTiiiixxxx,((1),(2),,(n))Tjjjjxxxx向量。p1時,距離稱為曼哈頓距離,p2時,就是常用的歐氏距離,且使用較多。然后選擇K個距離最近的實例進行判斷。若是分類任務問題,輸出的就是待分類樣本所屬的類別,對其最近的K個實例的類別進行投票表決,屬于哪個類別的樣本點多則新樣本則屬于哪個類別,一般K是選擇奇數(shù);若是回歸任務問題,則對其最近的K個距離最近的實例進行取平均作為新樣本的預測值。K近鄰算法示意圖如下:圖2-3KNN示意圖如上圖所示,分別用藍色正方形和紅色三角形表示兩類樣本數(shù)據(jù),中間綠色小圓圈表示待分類的數(shù)據(jù)。用K近鄰的思想來進行分類:若K=3,則綠色圓點的最鄰近的3個點在上面實線圓圈內,是2個紅色三角形和1個藍色正方形,根據(jù)投票方式,紅色的三角形數(shù)量比藍色正方形多,因此待分類的綠點屬于紅色的三角形一類;同理,若K=5,綠色圓點的最鄰近的5個點見上圖虛線圓圈內,是2個紅色三角形和3個藍色的正方形,根據(jù)投票的方式,藍色正方形數(shù)量多于紅色三角形數(shù)量,判定綠色的點屬于藍色的正方形一類。K值選擇過小,模型容易過擬合,特別是當有噪聲存在時誤差更大;同時如果K值選擇過大,模型過于簡單,預測誤差會變大,K值一般可通過交叉驗證來選擇。KNN算法原理較簡單,容易實施,新的數(shù)據(jù)可以直接加入數(shù)據(jù)集而不必重新訓練,經(jīng)常被使用;當數(shù)據(jù)量較大時,計算量較大,對樣本不平衡數(shù)據(jù)得到預測誤差會偏大,合適K值不容易選擇。KNN一般在文本分類、模式識別、聚類分析、多分類領域應用較多。
【參考文獻】:
期刊論文
[1]基于主成分分析的唐山市新型城鎮(zhèn)化水平研究[J]. 張思佳,許沁怡,王天瑞,張春玲. 現(xiàn)代商貿工業(yè). 2018(31)
[2]基于信息量改進主成分分析的高光譜圖像特征提取方法[J]. 任智偉,吳玲達. 兵器裝備工程學報. 2018(07)
[3]ReliefF和APSO混合降維算法研究[J]. 陳俊穎,陸慧娟,嚴珂,葉敏超. 中國計量大學學報. 2017(02)
[4]基于對數(shù)變換和最大信息系數(shù)PCA的過程監(jiān)測[J]. 王中偉,宋宏,李帥,周曉鋒. 科學技術與工程. 2017(16)
[5]基于對稱不確定性和SVM遞歸特征消除的信息基因選擇方法[J]. 葉明全,高凌云,伍長榮,萬春圓. 模式識別與人工智能. 2017(05)
[6]糧食主產(chǎn)區(qū)新型城鎮(zhèn)化發(fā)展水平綜合評價[J]. 姚旭兵,羅光強,吳振順,段超群. 商業(yè)經(jīng)濟研究. 2017(05)
[7]基于歸一化互信息的FCBF特征選擇算法[J]. 段宏湘,張秋余,張墨逸. 華中科技大學學報(自然科學版). 2017(01)
[8]主成分分析與線性判別分析兩種數(shù)據(jù)降維算法的對比研究[J]. 董虎勝. 現(xiàn)代計算機(專業(yè)版). 2016(29)
[9]一種基于改進的遺傳算法的癌癥特征基因選擇方法[J]. 范方云,孫俊,王夢梅. 江南大學學報(自然科學版). 2015(04)
[10]一種基因表達數(shù)據(jù)的混合特征選擇方法[J]. 黃道斌,葉明全,張玲,胡天寒,楊利. 宿州學院學報. 2014(08)
碩士論文
[1]基于穩(wěn)健主成分回歸的潤滑油產(chǎn)量預測模型[D]. 程嫻.大連理工大學 2017
[2]最大信息系數(shù)及其在腦網(wǎng)絡分析中的應用[D]. 蔣杭進.中國科學院研究生院(武漢物理與數(shù)學研究所) 2013
本文編號:3075771
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3075771.html
最近更新
教材專著