特征選擇與特征學(xué)習(xí)算法研究
本文選題:特征選擇 切入點(diǎn):特征學(xué)習(xí) 出處:《中國(guó)科學(xué)技術(shù)大學(xué)》2017年碩士論文 論文類(lèi)型:學(xué)位論文
【摘要】:信息時(shí)代的到來(lái)導(dǎo)致在機(jī)器學(xué)習(xí)過(guò)程中,學(xué)習(xí)數(shù)據(jù)趨向于更大規(guī)模,更高維度,并且具有復(fù)雜噪聲,從而給模型的訓(xùn)練與學(xué)習(xí)提出了挑戰(zhàn)。因此,充分地對(duì)數(shù)據(jù)進(jìn)行分析挖掘,提取出數(shù)據(jù)中的關(guān)鍵特征和潛在信息,具有重要的研究?jī)r(jià)值和意義。本文分別從特征選擇和特征學(xué)習(xí)兩個(gè)方面進(jìn)行研究。特征選擇旨在從數(shù)據(jù)中利用一定策略選擇出原始特征集的一個(gè)最優(yōu)子集,F(xiàn)有的特征選擇算法,主要通過(guò)考慮特征與目標(biāo)任務(wù)的相關(guān)度評(píng)估特征的重要性。在監(jiān)督學(xué)習(xí)中,考慮特征與目標(biāo)的統(tǒng)計(jì)相關(guān)性,在無(wú)監(jiān)督學(xué)習(xí)中,根據(jù)特征與樣本結(jié)構(gòu)的契合程度,評(píng)估特征在樣本集上的區(qū)分能力。除了考慮特征的相關(guān)度,本文提出結(jié)合特征相關(guān)度和冗余度的特征選擇算法FSIR2,算法基于譜特征選擇理論評(píng)估特征的相關(guān)度,同時(shí)考慮特征集內(nèi)部的冗余度,通過(guò)最大化特征與目標(biāo)的相關(guān)度,最小化特征之間的冗余度,進(jìn)而確定最優(yōu)特征子集。算法適用于監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩種條件。不同于特征選擇,特征學(xué)習(xí)致力于將原始特征集映射到新的特征空間,學(xué)習(xí)數(shù)據(jù)的最優(yōu)表達(dá),F(xiàn)有的特征學(xué)習(xí)算法主要分為傳統(tǒng)學(xué)習(xí)算法和基于神經(jīng)網(wǎng)絡(luò)的算法兩種。目前,大量工作基于卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等進(jìn)行監(jiān)督特征學(xué)習(xí),而充分利用大量低成本的的無(wú)監(jiān)督數(shù)據(jù)進(jìn)行特征學(xué)習(xí)的研究工作不足。本文提出基于卷積自編碼網(wǎng)絡(luò)的特征學(xué)習(xí)算法SoundAutoEncoder。算法針對(duì)視頻數(shù)據(jù)中的音頻數(shù)據(jù)進(jìn)行無(wú)監(jiān)督的特征學(xué)習(xí),一方面利用卷積自編碼網(wǎng)絡(luò),以充分挖掘音頻數(shù)據(jù)中的有效信息進(jìn)行特征學(xué)習(xí);另一方面利用視頻數(shù)據(jù)中圖像數(shù)據(jù)與音頻數(shù)據(jù)的天然一致性,通過(guò)完善的視覺(jué)識(shí)別模型提取圖像數(shù)據(jù)中的語(yǔ)義信息,進(jìn)而指導(dǎo)音頻數(shù)據(jù)的特征學(xué)習(xí)過(guò)程。對(duì)于FSIR2算法,本文在監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩種條件下,在10個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),測(cè)試其所選特征集上的分類(lèi)、聚類(lèi)準(zhǔn)確率,以及特征之間的冗余度。在與相對(duì)表現(xiàn)最好的算法MCFS的對(duì)比中,FSIR2算法在聚類(lèi)結(jié)果的準(zhǔn)確率、NMI上提升了 4%,在冗余度上降低了 5%,在分類(lèi)結(jié)果的準(zhǔn)確率上與MCFS表現(xiàn)相當(dāng)。對(duì)于SoundAutoEncoder算法,本文通過(guò)在三個(gè)數(shù)據(jù)集上的場(chǎng)景分類(lèi)實(shí)驗(yàn),測(cè)試其特征學(xué)習(xí)能力。在分類(lèi)準(zhǔn)確率的比較中,SoundAutoEncoder相比 SoundNet 算法在 DCASE-2016、ESC-10、ESC-50 數(shù)據(jù)集上分別提升了 0.6%、6.9%、6.3%。
[Abstract]:The advent of the information era resulted in the machine learning process, learning data tend to be larger, the higher dimensions, and it has a complex noise, thus presenting a challenge to the training and learning model. Therefore, analysis of data mining to fully extract the key features in the data and potential information, has important research the value and significance of this paper. Then the feature selection and feature learning to study two aspects. Feature selection is to use some strategies from the data to select an optimal subset of the original feature set. The existing feature selection algorithms, mainly through the importance of the correlation evaluation considering the characteristics features and the target task. In supervised learning, considering the statistical correlation between features and goals, in unsupervised learning, according to the characteristics and structure of the sample fit degree, ability of distinguishing feature in the evaluation sample set. In addition to consider Correlation feature selection algorithm is proposed in this paper, combined with the characteristics of FSIR2 correlation and redundancy, correlation feature selection algorithm based on spectral theory to evaluate characteristics, considering the feature set of redundant internal correlation, by maximizing the features and the target, the redundancy between the minimum feature, and then determine the best feature a subset of algorithm for supervised learning and unsupervised learning conditions. Different from the two kinds of feature selection, feature learning will be dedicated to mapping the original feature set into a new feature space, learning optimal data expression. The existing feature learning algorithm is mainly divided into the traditional learning algorithm and the algorithm based on neural network two. At present, a large number of based on convolutional neural network, recurrent neural networks for supervised feature learning, and make full use of a large number of low cost unsupervised data for the study of job characteristics learning deficiency. In this paper based on the characteristics of self convolution encoding network learning algorithm SoundAutoEncoder. audio data for the video data in the feature of unsupervised learning, on the one hand, using convolution encoding from the network, in order to fully exploit the effective information in audio data for feature learning; using natural consistency of image data and audio data in the video data on the other hand semantic information extraction, image data through visual identification model is perfect, and then guide the characteristics of audio data in the learning process. For the FSIR2 algorithm, based on supervised learning and unsupervised learning under the two conditions, experiments were performed on 10 data sets, the selected feature classification, clustering accuracy. And the redundancy between features. In contrast with the relatively best performance of the MCFS algorithm, the accuracy of FSIR2 algorithm in clustering results, NMI 4% increase in Redundancy is reduced by 5%, and the MCFS performance is quite in the accuracy of the classification results. For SoundAutoEncoder algorithm, this paper through the scene classification experiments on three data sets, to test the characteristics of learning ability. More accurate rate in classification, compared to SoundAutoEncoder SoundNet algorithm in DCASE-2016, ESC-10, ESC-50 data set. Up to 0.6%, 6.9%, 6.3%.
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP18
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 江乃雄;蔡民;;綜合距離特征選擇問(wèn)題解的存在性與唯一性[J];計(jì)算機(jī)應(yīng)用與軟件;1992年01期
2 吉小軍,李世中,李霆;相關(guān)分析在特征選擇中的應(yīng)用[J];測(cè)試技術(shù)學(xué)報(bào);2001年01期
3 賈沛;桑農(nóng);唐紅衛(wèi);;一種改進(jìn)的類(lèi)別依賴(lài)型特征選擇技術(shù)[J];計(jì)算機(jī)與數(shù)子工程;2003年06期
4 靖紅芳;王斌;楊雅輝;徐燕;;基于類(lèi)別分布的特征選擇框架[J];計(jì)算機(jī)研究與發(fā)展;2009年09期
5 吳洪麗;朱顥東;周瑞瓊;;使用特征分辨率和差別對(duì)象對(duì)集的特征選擇[J];計(jì)算機(jī)工程與應(yīng)用;2010年16期
6 楊藝;韓德強(qiáng);韓崇昭;;基于排序融合的特征選擇[J];控制與決策;2011年03期
7 李云;;穩(wěn)定的特征選擇研究[J];微型機(jī)與應(yīng)用;2012年15期
8 錢(qián)學(xué)雙;多重篩選逐步回歸特征選擇法及其應(yīng)用[J];信息與控制;1986年05期
9 宣國(guó)榮;柴佩琪;;基于巴氏距離的特征選擇[J];模式識(shí)別與人工智能;1996年04期
10 范勁松,方廷健;特征選擇和提取要素的分析及其評(píng)價(jià)[J];計(jì)算機(jī)工程與應(yīng)用;2001年13期
相關(guān)會(huì)議論文 前10條
1 靖紅芳;王斌;楊雅輝;;基于類(lèi)別分布的特征選擇框架[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
2 李長(zhǎng)升;盧漢清;;排序?qū)W習(xí)模型中的特征選擇[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
3 劉功申;李建華;李生紅;;基于類(lèi)信息的特征選擇和加權(quán)方法[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
4 倪友平;王思臣;馬桂珍;陳曾平;;分支界定算法在低分辨雷達(dá)飛機(jī)架次判別中的應(yīng)用[A];第十三屆全國(guó)信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2007)論文集[C];2007年
5 李澤輝;聶生東;陳兆學(xué);;應(yīng)用多類(lèi)SVM分割MR腦圖像特征選擇與優(yōu)化的實(shí)驗(yàn)研究[A];中國(guó)儀器儀表學(xué)會(huì)第九屆青年學(xué)術(shù)會(huì)議論文集[C];2007年
6 蒙新泛;王厚峰;;主客觀識(shí)別中的上下文因素的研究[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
7 萬(wàn)京;王建東;;一種基于新的差異性度量的ReliefF方法[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年
8 范麗;許潔萍;;基于GMM的音樂(lè)信號(hào)音色模型研究[A];第四屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2008年
9 陳友;戴磊;程學(xué)旗;;基于MRMHC-C4.5的IP流分類(lèi)[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
10 申f;楊宏暉;袁帥;;用于水聲目標(biāo)識(shí)別的互信息無(wú)監(jiān)督特征選擇[A];第三屆上!靼猜晫W(xué)學(xué)會(huì)學(xué)術(shù)會(huì)議論文集[C];2013年
相關(guān)博士學(xué)位論文 前10條
1 李靜;高維數(shù)據(jù)交互特征選擇和分類(lèi)研究[D];燕山大學(xué);2015年
2 劉風(fēng);基于磁共振成像的多變量模式分析方法學(xué)與應(yīng)用研究[D];電子科技大學(xué);2014年
3 王石平;粗糙擬陣及其在高維數(shù)據(jù)降維中的應(yīng)用研究[D];電子科技大學(xué);2014年
4 代琨;基于支持向量機(jī)的網(wǎng)絡(luò)數(shù)據(jù)特征選擇技術(shù)研究[D];解放軍信息工程大學(xué);2013年
5 王愛(ài)國(guó);微陣列基因表達(dá)數(shù)據(jù)的特征分析方法研究[D];合肥工業(yè)大學(xué);2015年
6 楊峻山;生物組學(xué)數(shù)據(jù)的集成特征選擇研究[D];深圳大學(xué);2017年
7 王博;文本分類(lèi)中特征選擇技術(shù)的研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2009年
8 張明錦;基于特征選擇的多變量數(shù)據(jù)分析方法及其在譜學(xué)研究中的應(yīng)用[D];華東理工大學(xué);2011年
9 高青斌;蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)相關(guān)問(wèn)題研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2006年
10 馮國(guó)忠;文本分類(lèi)中的貝葉斯特征選擇[D];東北師范大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 周瑞;基于支持向量機(jī)特征選擇的移動(dòng)通信網(wǎng)絡(luò)問(wèn)題分析[D];華南理工大學(xué);2015年
2 張金蕾;蛋白質(zhì)SUMO化修飾位點(diǎn)預(yù)測(cè)的數(shù)據(jù)挖掘技術(shù)研究[D];西北農(nóng)林科技大學(xué);2015年
3 陳云風(fēng);基于聚類(lèi)集成技術(shù)的高鐵信號(hào)故障診斷研究[D];西南交通大學(xué);2015年
4 張斌斌;網(wǎng)絡(luò)股評(píng)的傾向性分析[D];中央民族大學(xué);2015年
5 季金勝;高分辨率遙感影像典型地物目標(biāo)的特征選擇及其穩(wěn)定性研究[D];上海交通大學(xué);2015年
6 袁玉錄;基于數(shù)據(jù)分類(lèi)的網(wǎng)絡(luò)通信行為建模方法研究[D];電子科技大學(xué);2015年
7 王虎;基于試驗(yàn)設(shè)計(jì)的白酒譜圖特征選擇及支持向量機(jī)參數(shù)優(yōu)化研究[D];南京財(cái)經(jīng)大學(xué);2015年
8 王維智;基于特征提取和特征選擇的級(jí)聯(lián)深度學(xué)習(xí)模型研究[D];哈爾濱工業(yè)大學(xué);2015年
9 皮陽(yáng);基于聲音的生物種群識(shí)別[D];電子科技大學(xué);2015年
10 劉樹(shù)龍;特征選擇在軟件缺陷預(yù)測(cè)中的應(yīng)用技術(shù)研究[D];南京大學(xué);2015年
,本文編號(hào):1597046
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1597046.html