天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

生物組學(xué)數(shù)據(jù)的集成特征選擇研究

發(fā)布時(shí)間:2017-12-31 10:39

  本文關(guān)鍵詞:生物組學(xué)數(shù)據(jù)的集成特征選擇研究 出處:《深圳大學(xué)》2017年博士論文 論文類型:學(xué)位論文


  更多相關(guān)文章: 生物組學(xué)數(shù)據(jù) 分類 粒子群優(yōu)化算法 特征選擇 模型選擇


【摘要】:高通量技術(shù)的發(fā)展產(chǎn)生了大量與基因、蛋白質(zhì)和代謝相關(guān)的生物組學(xué)數(shù)據(jù)。從生物組學(xué)數(shù)據(jù)中發(fā)現(xiàn)和提煉與疾病相關(guān)的信息一直是生物信息學(xué)領(lǐng)域的熱點(diǎn)問題。通過模式識(shí)別中的特征選擇和分類技術(shù),對(duì)高維生物組學(xué)數(shù)據(jù)中蘊(yùn)藏的重要信息進(jìn)行提取、篩選、識(shí)別和分類是分析生物組學(xué)數(shù)據(jù)的常用方法。生物組學(xué)數(shù)據(jù)具有的高維小樣本、多類間樣本分布不平衡等多種特征和樣本統(tǒng)計(jì)分布特性,對(duì)特征選擇算法在分類泛化性和穩(wěn)定性等方面的表現(xiàn)提出巨大挑戰(zhàn),為了精確和穩(wěn)定地提取與分類目標(biāo)高度相關(guān)的特征子集,需要我們深入地研究和設(shè)計(jì)針對(duì)生物組學(xué)數(shù)據(jù)特征選擇問題的新方法。本文針對(duì)生物組學(xué)數(shù)據(jù)的不同特性,提出了一系列集成特征選擇算法,主要工作概括如下:1.在研究多種特征相關(guān)性度量的基礎(chǔ)上,提出一種基于多種相關(guān)性度量的集成最大相關(guān)最小冗余(maximum Relevance and Minimum Redundancy,mRMR)特征選擇算法。我們分析了最大信息系數(shù)、皮爾遜相關(guān)系數(shù)和互信息量在特征相關(guān)性度量方面的差異,并對(duì)前向搜索算法進(jìn)行改進(jìn),增加可以設(shè)置所選擇特征個(gè)數(shù)和搜索范圍的機(jī)制,基于3種特征相關(guān)性度量和改進(jìn)的搜索算法獲得三組最優(yōu)特征子集并進(jìn)行集成分類學(xué)習(xí)。對(duì)不同類型的多組生物組學(xué)數(shù)據(jù)集的分類對(duì)比實(shí)驗(yàn)結(jié)果表明,集成m RMR特征選擇算法能夠針對(duì)各種類型的生物組學(xué)數(shù)據(jù)有效地選擇最優(yōu)特征子集,并有助于分類算法獲得良好的識(shí)別性能。2.針對(duì)生物組學(xué)數(shù)據(jù)普遍存在多個(gè)最優(yōu)或次優(yōu)特征子集的情況,提出基于小生境二進(jìn)制粒子群優(yōu)化的集成特征選擇算法�;趩我惶卣髯蛹瘶�(gòu)建的分類模型在小樣本生物組學(xué)數(shù)據(jù)上容易產(chǎn)生過擬合而影響分類泛化性能。為了盡量避免該問題,本文通過小生境二進(jìn)制粒子群優(yōu)化算法作為特征子集搜索算法,獲得多個(gè)差異度最大且分類性能最優(yōu)的特征子集并進(jìn)行集成分類學(xué)習(xí),由投票技術(shù)所集成的強(qiáng)分類器體現(xiàn)出優(yōu)良的穩(wěn)定性和泛化性。3.為了克服生物組學(xué)數(shù)據(jù)類間樣本不平衡特性對(duì)特征選擇和分類過程的影響,本文提出一種迭代式集成特征選擇算法。該算法利用2種樣本平衡預(yù)處理方法和3種過濾式生物組學(xué)數(shù)據(jù)特征選擇算法,通過樣本平衡和特征選擇不斷迭代的方式,使特征選擇在一個(gè)趨于平衡的樣本分布中迭代完成。對(duì)多組具有類間樣本不平衡特性的生物組學(xué)數(shù)據(jù)進(jìn)行分類實(shí)驗(yàn),結(jié)果表明,由于克服了樣本不平衡特性對(duì)特征選擇的影響,所設(shè)計(jì)的迭代集成特征選擇算法可以進(jìn)一步提高分類性能。4.針對(duì)迭代集成特征選擇所具有的局限性,本文提出一種基于粒子群優(yōu)化的集成特征和模型選擇算法。該算法將候選樣本平衡模型、特征選擇模型和分類模型的選擇以及相應(yīng)模型的超參數(shù)編碼到粒子中。通過粒子種群的優(yōu)化,自適應(yīng)搜索具有最優(yōu)分類性能的模型組合以及對(duì)應(yīng)模型的超參數(shù)設(shè)置。實(shí)驗(yàn)結(jié)果表明,基于粒子群優(yōu)化的集成特征和模型選擇算法能夠根據(jù)不同生物組學(xué)數(shù)據(jù)的樣本和特征分布特性,自適應(yīng)選擇樣本平衡模型和特征選擇模型的最優(yōu)組合,避免人為選擇和設(shè)置模型所引入的主觀偏差。本文所提出的一系列集成特征選擇算法有助于解決生物組學(xué)數(shù)據(jù)復(fù)雜的樣本和特征分布特性對(duì)特征選擇和分類所造成的困難,所使用的集成特征選擇思路可為后續(xù)相關(guān)生物組學(xué)數(shù)據(jù)分析提供借鑒。
[Abstract]:Produced a large number of genes and the development of high-throughput technologies, biological data and metabolism related proteins. Proteomics data from biological discovery and refining and disease related information has been a hot issue in the field of bioinformatics. By using feature selection in pattern recognition and classification technology, the important information of high dimensional biological group the data contained in the extraction, screening, identification and classification is used to analyze biological omics data. Littlescale bio omics data with the multi class samples of unbalanced distribution of a variety of features and the statistical distribution characteristic, the challenge for the feature selection algorithm in the classification generalization and stability other aspects of the performance, in order to accurately and stably extract feature subset is highly correlated with the classification of the target, we need to further research and design for the new bio omics data feature selection problem Method. In this paper, according to different characteristics of biological data set, put forward a series of integrated feature selection algorithm, the main work is summarized as follows: 1. based on the correlation of various features measurement, and put forward a multiple correlation measure integrated optimization based on (maximum Relevance and Minimum Redundancy, mRMR) feature selection algorithm. We analysis of the maximum information coefficient, Pearson correlation coefficient and mutual information measure of the difference in the characteristics of correlation, and improvement of the forward search algorithm, which can increase the set number of feature selection mechanism and the scope of the search, the search algorithm measure and improve the 3 kinds of features based on the correlation of three groups are obtained and the best subset of features the integrated classification study. The classification and comparison of experimental results of different types of multi omics data sets show that the integrated m RMR feature selection algorithm can pin The biological group various types of data to select the optimal feature subset, and contribute to the classification algorithm to obtain good performance of.2. identification data for biological ubiquitous multiple optimal or sub feature subset selection algorithm is proposed, the integrated characteristics of niche binary particle swarm optimization based on classification generalization performance the classification model of single feature subset construction in small samples of biological omics data on prone to overfitting. Based on in order to avoid this problem, this paper through the niche binary particle swarm optimization algorithm for feature subset search algorithm, obtained a lot of difference and the maximum classification performance of optimal feature subset and ensemble learning, strong the classifier integrated by voting technology showed excellent stability and generalization of.3. in order to overcome the omics data between the sample imbalance characteristics of special Effect of feature selection and classification process, this paper proposes an iterative ensemble feature selection algorithm. 2 kinds of sample pretreatment methods and the balance of 3 kinds of filtering biological omics data feature selection algorithm using the algorithm, the sample balance and iterative feature selection, the feature selection iteration in a balance the distribution of samples. Data classification experiment is performed on groups of biological groups between class imbalance characteristics showed that due to overcome the unbalanced samples characteristics of feature selection, the limitations of the iterative ensemble feature selection algorithm can further improve the classification performance of.4. in accordance with the iterative ensemble feature selection in this paper, a particle swarm optimization model and ensemble feature selection algorithm based on the algorithm. The candidate sample balance model, feature selection and classification model selection model And the corresponding model to super parameter encoding particles. By optimizing the particle population, set parameter has the optimal performance of the classification model combination and the corresponding model of adaptive search. The experimental results show that the particle swarm optimization algorithm for model selection and integration features according to different biological omics data samples and distribution characteristics based on adaptive to select the optimal combination sample balance model and feature selection model, avoid subjective bias introduced by artificial selection and setting of the model. This paper proposed a series of integrated feature selection algorithm helps to solve biological omics samples and feature distribution characteristics of complex data caused by feature selection and classification problems, using integrated features select the ideas for the follow-up biological omics data analysis to provide reference.

【學(xué)位授予單位】:深圳大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2017
【分類號(hào)】:Q811.4;TP18

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 付濤;;基于特征選擇的多示例學(xué)習(xí)算法研究[J];科技通報(bào);2013年08期

2 楊打生,郭延芬;一種特征選擇的信息論算法[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年03期

3 張永;曹東俠;;一種高效的特征選擇機(jī)制應(yīng)用于入侵檢測(cè)[J];甘肅科學(xué)學(xué)報(bào);2011年03期

4 楊錦英;王碧泉;;K—W檢驗(yàn)和熵法在單個(gè)特征選擇中的應(yīng)用[J];華北地震科學(xué);1989年02期

5 劉代志,李夕海,張斌;基于序優(yōu)化方法的特征選擇研究[J];核電子學(xué)與探測(cè)技術(shù);2004年06期

6 劉開第,薛俊鋒,龐彥軍;特征選擇及其常用算法[J];河北建筑科技學(xué)院學(xué)報(bào);2004年04期

7 喻軍;孟曉玲;;一種基于層次分析的特征選擇法[J];中國科技信息;2006年10期

8 南重漢;鄒凌云;;基于分組重量編碼和特征選擇技術(shù)預(yù)測(cè)外膜蛋白[J];第三軍醫(yī)大學(xué)學(xué)報(bào);2013年13期

9 苗玉杰;;差分進(jìn)化在圖像特征選擇中的應(yīng)用研究[J];科技通報(bào);2013年08期

10 趙小杰,種勁松,王宏琦;合成孔徑雷達(dá)圖像的特征選擇[J];遙感技術(shù)與應(yīng)用;2001年03期

相關(guān)會(huì)議論文 前10條

1 靖紅芳;王斌;楊雅輝;;基于類別分布的特征選擇框架[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

2 李長升;盧漢清;;排序?qū)W習(xí)模型中的特征選擇[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年

3 劉功申;李建華;李生紅;;基于類信息的特征選擇和加權(quán)方法[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

4 倪友平;王思臣;馬桂珍;陳曾平;;分支界定算法在低分辨雷達(dá)飛機(jī)架次判別中的應(yīng)用[A];第十三屆全國信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2007)論文集[C];2007年

5 李澤輝;聶生東;陳兆學(xué);;應(yīng)用多類SVM分割MR腦圖像特征選擇與優(yōu)化的實(shí)驗(yàn)研究[A];中國儀器儀表學(xué)會(huì)第九屆青年學(xué)術(shù)會(huì)議論文集[C];2007年

6 蒙新泛;王厚峰;;主客觀識(shí)別中的上下文因素的研究[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

7 萬京;王建東;;一種基于新的差異性度量的ReliefF方法[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年

8 范麗;許潔萍;;基于GMM的音樂信號(hào)音色模型研究[A];第四屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2008年

9 陳友;戴磊;程學(xué)旗;;基于MRMHC-C4.5的IP流分類[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

10 申f;楊宏暉;袁帥;;用于水聲目標(biāo)識(shí)別的互信息無監(jiān)督特征選擇[A];第三屆上�!靼猜晫W(xué)學(xué)會(huì)學(xué)術(shù)會(huì)議論文集[C];2013年

相關(guān)博士學(xué)位論文 前10條

1 李靜;高維數(shù)據(jù)交互特征選擇和分類研究[D];燕山大學(xué);2015年

2 劉風(fēng);基于磁共振成像的多變量模式分析方法學(xué)與應(yīng)用研究[D];電子科技大學(xué);2014年

3 王石平;粗糙擬陣及其在高維數(shù)據(jù)降維中的應(yīng)用研究[D];電子科技大學(xué);2014年

4 代琨;基于支持向量機(jī)的網(wǎng)絡(luò)數(shù)據(jù)特征選擇技術(shù)研究[D];解放軍信息工程大學(xué);2013年

5 王愛國;微陣列基因表達(dá)數(shù)據(jù)的特征分析方法研究[D];合肥工業(yè)大學(xué);2015年

6 楊峻山;生物組學(xué)數(shù)據(jù)的集成特征選擇研究[D];深圳大學(xué);2017年

7 王博;文本分類中特征選擇技術(shù)的研究[D];國防科學(xué)技術(shù)大學(xué);2009年

8 張明錦;基于特征選擇的多變量數(shù)據(jù)分析方法及其在譜學(xué)研究中的應(yīng)用[D];華東理工大學(xué);2011年

9 高青斌;蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)相關(guān)問題研究[D];國防科學(xué)技術(shù)大學(xué);2006年

10 馮國忠;文本分類中的貝葉斯特征選擇[D];東北師范大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 周瑞;基于支持向量機(jī)特征選擇的移動(dòng)通信網(wǎng)絡(luò)問題分析[D];華南理工大學(xué);2015年

2 張金蕾;蛋白質(zhì)SUMO化修飾位點(diǎn)預(yù)測(cè)的數(shù)據(jù)挖掘技術(shù)研究[D];西北農(nóng)林科技大學(xué);2015年

3 陳云風(fēng);基于聚類集成技術(shù)的高鐵信號(hào)故障診斷研究[D];西南交通大學(xué);2015年

4 張斌斌;網(wǎng)絡(luò)股評(píng)的傾向性分析[D];中央民族大學(xué);2015年

5 季金勝;高分辨率遙感影像典型地物目標(biāo)的特征選擇及其穩(wěn)定性研究[D];上海交通大學(xué);2015年

6 袁玉錄;基于數(shù)據(jù)分類的網(wǎng)絡(luò)通信行為建模方法研究[D];電子科技大學(xué);2015年

7 王虎;基于試驗(yàn)設(shè)計(jì)的白酒譜圖特征選擇及支持向量機(jī)參數(shù)優(yōu)化研究[D];南京財(cái)經(jīng)大學(xué);2015年

8 王維智;基于特征提取和特征選擇的級(jí)聯(lián)深度學(xué)習(xí)模型研究[D];哈爾濱工業(yè)大學(xué);2015年

9 皮陽;基于聲音的生物種群識(shí)別[D];電子科技大學(xué);2015年

10 劉樹龍;特征選擇在軟件缺陷預(yù)測(cè)中的應(yīng)用技術(shù)研究[D];南京大學(xué);2015年

,

本文編號(hào):1359422

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1359422.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8bad3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com