天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 領導決策論文 >

基于鄰域一致性的高維小樣本特征選擇算法研究

發(fā)布時間:2021-11-09 16:02
  隨著大數(shù)據(jù)技術的蓬勃發(fā)展,面向語義分析、圖像識別和基因選擇的應用得到廣泛普及,這些領域的數(shù)據(jù)呈現(xiàn)出高維小樣本特點,即特征空間高維度,而樣本數(shù)量過少。高維小樣本數(shù)據(jù)存在著特征維數(shù)與樣本數(shù)量不協(xié)調(diào)和類別分布偏斜等問題,作為應用驅動的本質(zhì)特征,面向高維小樣本的分類學習面臨著計算低效、預測精度不高、無法識別小類樣本,以及模型過擬合、穩(wěn)定性欠佳、存儲開銷大等諸多挑戰(zhàn)。為了充分挖掘高維小樣本數(shù)據(jù)的應用價值,基于高維小樣本數(shù)據(jù)的知識發(fā)現(xiàn)成為備受關注的研究熱點。特征選擇通過刪除數(shù)據(jù)特征空間中與標記無關的特征、噪聲特征或冗余特征,以此來對數(shù)據(jù)的特征空間進行降維。本文以高維小樣本數(shù)據(jù)為研究對象,圍繞高維小樣本數(shù)據(jù)特征選擇存在的挑戰(zhàn)性問題,重點關注真實場景中不同的應用需求,展開對監(jiān)督學習模式下的高維小樣本數(shù)據(jù)特征選擇算法的研究。主要研究內(nèi)容包括:(1)針對由特征高維性與樣本數(shù)量不協(xié)調(diào)帶來的問題,提出基于子空間學習的高維小樣本數(shù)據(jù)特征選擇算法。首先,利用特征擾動策略,定義基準特征和基準特征空間,構建具有差異性的多個特征子空間。其次,提出基于子空間學習的高維小樣本數(shù)據(jù)特征選擇算法。最后,選取八個數(shù)據(jù)集與七個算法... 

【文章來源】:閩南師范大學福建省

【文章頁數(shù)】:74 頁

【學位級別】:碩士

【部分圖文】:

基于鄰域一致性的高維小樣本特征選擇算法研究


圖1.1分類效果隨特征維度變化示意圖

框架圖,特征選擇,框架,子集


閩南師范大學工學碩士學位論文–12–余特征、噪聲特征和不相關特征被刪除,有用的特征被保留。文獻[38]給出了特征選擇的基本框架,如圖2.1所示。圖2.1特征選擇基本框架Fig.2.1Thebasicframeworkoffeatureselection如圖2.1所示,特征選擇的一般過程包括子集生成,評價函數(shù),停止準則和驗證過程四個基本步驟。(1)子集生成(SubsetGeneration):基于某種搜索策略生成特征子集的過程。(2)評價函數(shù)(EvaluationFunction):評價特征子集與決策的相關程度。(3)停止準則(StoppingCriterion):當評價函數(shù)值達到某個閾值后停止搜索。(4)驗證過程(ValidationProcedure):在測試數(shù)據(jù)上驗證特征子集的有效性。特征選擇的形式化定義如下:假設給定論域空間內(nèi)的決策系統(tǒng)U,F,L,U=x1,x2,,xmT表示樣本集合,其中,集合U包含m個樣本。F=f1,f2,,fnT表示特征空間,其中,集合F包含n個特征。L=l1,l2,,lcT表示包含c個不同類的標記向量。特征選擇就是從集合F中選擇一個特征子集S,其中,SF,使得在特征子集S上的映射函數(shù)h:xl依據(jù)某些評價標準“盡可能地好”。2.2.1基于搜索策略的特征選擇方法分類

示意圖,特征選擇,評價函數(shù),方法


閩南師范大學工學碩士學位論文–14–2.2.2基于評價函數(shù)的特征選擇方法分類特征選擇技術依據(jù)評價函數(shù)是否獨立于驗證過程可分為過濾式(Filter)、封裝式(Wrapper)和嵌入式(Embedded)[44]。過濾式方法的評價函數(shù)與驗證過程無關,一般直接利用所有訓練數(shù)據(jù)的統(tǒng)計性能評估特征的重要度,如方差、互信息、相關系數(shù)和卡方檢驗等。該方法獨立于分類器,運行速度快但其對特征的評估與分類器的性能存在較大的偏差。封裝式方法利用分類器的預測精度評估特征子集是否與學習目標相關,其過程是在確定評價函數(shù)后,對不同特征子集反復做交叉驗證,進而搜索最佳特征子集。該方法對特征的評估與分類器的性能偏差小,但時間復雜度高,不適合應用于大規(guī)模數(shù)據(jù)集。嵌入式方法融合特征選擇過程與分類器訓練過程,在分類器訓練過程中自動進行特征選擇,如決策樹、L1正則化。過濾式、封裝式和嵌入式方法的示意圖如圖2.2所示。接下來,分別對Filter、Wrapper和Embedded方法進行分析。(a)過濾式(b)封裝式(c)嵌入式圖2.2基于評價函數(shù)的特征選擇方法分類Fig.2.2Classificationoffeatureselectionmethodbasedonevaluationfunction(1)過濾式(Filter)特征選擇方法過濾式方法運用評價函數(shù)來判別特征之間的冗余性和特征與標記的相關性,如圖2.2(a)所示。實際上,評價函數(shù)的優(yōu)劣決定著特征子集在多大程度上與標記相關[45]。過濾法的優(yōu)勢在于可以快速去除冗余、噪聲和不相關特征,時效性高,通用性好。不過,

【參考文獻】:
期刊論文
[1]基于鄰域交互增益信息的多標記流特征選擇算法[J]. 陳超逸,林耀進,唐莉,王晨曦.  南京大學學報(自然科學). 2020(01)
[2]基于鄰域粗糙集的大規(guī)模層次分類在線流特征選擇[J]. 白盛興,林耀進,王晨曦,陳晟煜.  模式識別與人工智能. 2019(09)
[3]基于鄰域粗糙集的高維類不平衡數(shù)據(jù)在線流特征選擇[J]. 陳祥焰,林耀進,王晨曦.  模式識別與人工智能. 2019(08)
[4]大規(guī)模分類任務的分層學習方法綜述[J]. 胡清華,王煜,周玉燦,趙紅,錢宇華,梁吉業(yè).  中國科學:信息科學. 2018(05)
[5]結合近鄰傳播聚類的選擇性集成分類方法[J]. 孟軍,張晶,姜丁菱,何馨宇,李麗雙.  計算機研究與發(fā)展. 2018(05)
[6]一種用于文本分類的去冗余特征選擇新方法(英文)[J]. You-wei WANG,Li-zhou FENG.  Frontiers of Information Technology & Electronic Engineering. 2018(02)
[7]非平衡基因數(shù)據(jù)的差異表達基因選擇算法研究[J]. 謝娟英,王明釗,周穎,高紅超,許升全.  計算機學報. 2019(06)
[8]基于疾病信息網(wǎng)絡的表型相似基因搜索[J]. 侯泳旭,段磊,李嶺,盧莉,唐常杰.  軟件學報. 2018(03)
[9]特征選擇穩(wěn)定性研究綜述[J]. 劉藝,曹建軍,刁興春,周星.  軟件學報. 2018(09)
[10]基于多特征空間的粗糙數(shù)據(jù)分析方法[J]. 楊習貝,徐蘇平,戚湧,於東軍.  江蘇科技大學學報(自然科學版). 2016(04)

博士論文
[1]在線流特征選擇算法研究[D]. 周鵬.合肥工業(yè)大學 2018
[2]面向高維小樣本數(shù)據(jù)的分類特征選擇算法研究[D]. 張靖.合肥工業(yè)大學 2014
[3]流特征下的在線知識發(fā)現(xiàn)研究[D]. 俞奎.合肥工業(yè)大學 2013
[4]文本分類中特征選擇技術的研究[D]. 王博.國防科學技術大學 2009

碩士論文
[1]高維小樣本數(shù)據(jù)的特征選擇研究及其穩(wěn)定性分析[D]. 寧永鵬.廈門大學 2014



本文編號:3485657

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3485657.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶9ac77***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com