基于特征選擇的數(shù)據(jù)降維
發(fā)布時(shí)間:2021-06-24 04:09
特征選擇是數(shù)據(jù)降維中最常用的手段,與之相對(duì)應(yīng)的是特征生成,二者共同構(gòu)成數(shù)據(jù)降維的兩種主要方式。數(shù)據(jù)降維是應(yīng)用統(tǒng)計(jì)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、模式識(shí)別等領(lǐng)域中及其關(guān)鍵的問(wèn)題。特征選擇有利于降低數(shù)據(jù)處理的時(shí)間復(fù)雜度和計(jì)算機(jī)存儲(chǔ)的空間復(fù)雜度,還可以提高學(xué)習(xí)模型的準(zhǔn)確性、魯棒性以及泛化能力。本文從監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)兩個(gè)方面對(duì)特征選擇算法進(jìn)行分類和描述,主要利用信息論中關(guān)鍵概念互信息設(shè)計(jì)特征選擇算法。本文的主要內(nèi)容包括:(1)在監(jiān)督學(xué)習(xí)的特征選擇中,利用互信息作為工具,講述了Parzen Window特征選擇以及最大相關(guān)-最小冗余(MRMR)特征選擇算法。(2)在非監(jiān)督學(xué)習(xí)的特征選擇中,我們利用鄰域互信息作為特征間的相似性度量,新設(shè)計(jì)了一種,基于特征聚類的特征選擇算法。且該算法可直接處理混合數(shù)據(jù)(同時(shí)含有連續(xù)型特征和種類特征),而不需要做種類數(shù)據(jù)的數(shù)值化,也不需要做連續(xù)數(shù)據(jù)的離散化處理。(3)將鄰域互信息應(yīng)用于Parzen Window和MRMR特征選擇,解決基于監(jiān)督學(xué)習(xí)混合數(shù)據(jù)的特征選擇。(4)利用UCI機(jī)器學(xué)習(xí)網(wǎng)頁(yè)上的數(shù)據(jù)集對(duì)算法進(jìn)行測(cè)試和比較,并應(yīng)用特征選擇算法分析來(lái)自中國(guó)統(tǒng)計(jì)年鑒2013上有...
【文章來(lái)源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 課題的意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 目前研究存在的不足
1.4 本文的主要內(nèi)容與結(jié)構(gòu)
1.5 本章總結(jié)
2 特征選擇的定義和必要性
2.1 特征選擇的定義
2.2 特征選擇的步驟
2.3 特征選擇的必要性
2.4 本章總結(jié)
3 基于監(jiān)督學(xué)習(xí)的特征選擇
3.1 熵(entropy)和互信息(mutual information)
3.2 互信息的估計(jì)和特征選擇
3.3 本章總結(jié)
4 基于非監(jiān)督學(xué)習(xí)的特征選擇
4.1 聚類
4.2 相似性度量(similarity measure)
4.3 鄰域互信息(Neighborhood Mutual Information, NMI)
4.4 基于NMI的混合數(shù)據(jù)非監(jiān)督特征選擇
4.5 本章總結(jié)
5 實(shí)驗(yàn)設(shè)計(jì)和算法比較
5.1 數(shù)據(jù)集以及評(píng)價(jià)標(biāo)準(zhǔn)
5.2 算法比較
5.3 統(tǒng)計(jì)數(shù)據(jù)實(shí)例分析
5.4 本章總結(jié)
6 總結(jié)與展望
6.1 全文總結(jié)
6.2 本文的不足與未來(lái)的展望
致謝
參考文獻(xiàn)
附表
【參考文獻(xiàn)】:
期刊論文
[1]一種基于新的特征選擇的海量網(wǎng)絡(luò)文本挖掘算法研究[J]. 張人上,曲開社. 計(jì)算機(jī)應(yīng)用研究. 2014(09)
[2]基于支持向量機(jī)的特征選擇算法綜述[J]. 代琨,于宏毅,馬學(xué)剛,李青. 信息工程大學(xué)學(xué)報(bào). 2014(01)
[3]結(jié)合鄰域相關(guān)影像與最大相關(guān)性最小冗余性特征選擇的面向?qū)ο笞兓瘷z測(cè)[J]. 鄒利東,潘耀忠,朱文泉,周公器,李宜展. 中國(guó)圖象圖形學(xué)報(bào). 2014(01)
[4]稀疏特征選擇在過(guò)程工業(yè)故障診斷中的應(yīng)用[J]. 于春梅. 計(jì)算機(jī)工程與應(yīng)用. 2014(18)
[5]特征選擇方法綜述[J]. 姚旭,王曉丹,張玉璽,權(quán)文. 控制與決策. 2012(02)
[6]基于模擬退火的多標(biāo)記數(shù)據(jù)特征選擇[J]. 張永波,游錄金,陳杰新. 計(jì)算機(jī)工程與設(shè)計(jì). 2011(07)
[7]一種特征選擇的動(dòng)態(tài)規(guī)劃方法[J]. 章新華. 自動(dòng)化學(xué)報(bào). 1998(05)
[8]一種最優(yōu)特征集的選擇算法[J]. 朱明,王俊普,蔡慶生. 計(jì)算機(jī)研究與發(fā)展. 1998(09)
[9]最優(yōu)特征子集選擇問(wèn)題[J]. 陳彬,洪家榮,王亞?wèn)|. 計(jì)算機(jī)學(xué)報(bào). 1997(02)
本文編號(hào):3246337
【文章來(lái)源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 課題的意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 目前研究存在的不足
1.4 本文的主要內(nèi)容與結(jié)構(gòu)
1.5 本章總結(jié)
2 特征選擇的定義和必要性
2.1 特征選擇的定義
2.2 特征選擇的步驟
2.3 特征選擇的必要性
2.4 本章總結(jié)
3 基于監(jiān)督學(xué)習(xí)的特征選擇
3.1 熵(entropy)和互信息(mutual information)
3.2 互信息的估計(jì)和特征選擇
3.3 本章總結(jié)
4 基于非監(jiān)督學(xué)習(xí)的特征選擇
4.1 聚類
4.2 相似性度量(similarity measure)
4.3 鄰域互信息(Neighborhood Mutual Information, NMI)
4.4 基于NMI的混合數(shù)據(jù)非監(jiān)督特征選擇
4.5 本章總結(jié)
5 實(shí)驗(yàn)設(shè)計(jì)和算法比較
5.1 數(shù)據(jù)集以及評(píng)價(jià)標(biāo)準(zhǔn)
5.2 算法比較
5.3 統(tǒng)計(jì)數(shù)據(jù)實(shí)例分析
5.4 本章總結(jié)
6 總結(jié)與展望
6.1 全文總結(jié)
6.2 本文的不足與未來(lái)的展望
致謝
參考文獻(xiàn)
附表
【參考文獻(xiàn)】:
期刊論文
[1]一種基于新的特征選擇的海量網(wǎng)絡(luò)文本挖掘算法研究[J]. 張人上,曲開社. 計(jì)算機(jī)應(yīng)用研究. 2014(09)
[2]基于支持向量機(jī)的特征選擇算法綜述[J]. 代琨,于宏毅,馬學(xué)剛,李青. 信息工程大學(xué)學(xué)報(bào). 2014(01)
[3]結(jié)合鄰域相關(guān)影像與最大相關(guān)性最小冗余性特征選擇的面向?qū)ο笞兓瘷z測(cè)[J]. 鄒利東,潘耀忠,朱文泉,周公器,李宜展. 中國(guó)圖象圖形學(xué)報(bào). 2014(01)
[4]稀疏特征選擇在過(guò)程工業(yè)故障診斷中的應(yīng)用[J]. 于春梅. 計(jì)算機(jī)工程與應(yīng)用. 2014(18)
[5]特征選擇方法綜述[J]. 姚旭,王曉丹,張玉璽,權(quán)文. 控制與決策. 2012(02)
[6]基于模擬退火的多標(biāo)記數(shù)據(jù)特征選擇[J]. 張永波,游錄金,陳杰新. 計(jì)算機(jī)工程與設(shè)計(jì). 2011(07)
[7]一種特征選擇的動(dòng)態(tài)規(guī)劃方法[J]. 章新華. 自動(dòng)化學(xué)報(bào). 1998(05)
[8]一種最優(yōu)特征集的選擇算法[J]. 朱明,王俊普,蔡慶生. 計(jì)算機(jī)研究與發(fā)展. 1998(09)
[9]最優(yōu)特征子集選擇問(wèn)題[J]. 陳彬,洪家榮,王亞?wèn)|. 計(jì)算機(jī)學(xué)報(bào). 1997(02)
本文編號(hào):3246337
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3246337.html
最近更新
教材專著