面向基因表達(dá)數(shù)據(jù)的分類與特征選擇方法研究
本文選題:基因表達(dá)數(shù)據(jù) 切入點(diǎn):正則極限學(xué)習(xí)機(jī) 出處:《中國計(jì)量大學(xué)》2016年碩士論文
【摘要】:在生物信息學(xué)領(lǐng)域,DNA微陣列技術(shù)的出現(xiàn)是一個(gè)具有里程碑意義的重大技術(shù)突破。隨著研究的不斷深入,它已被廣泛應(yīng)用于藥物研究、基因測序等眾多領(lǐng)域,具有極高的應(yīng)用價(jià)值和廣闊的發(fā)展前景。然而在實(shí)際應(yīng)用中,DNA微陣列技術(shù)研究的基因組對象規(guī)模越來越大,特征維數(shù)也越來越高,最終獲得的基因表達(dá)數(shù)據(jù)不僅具有高維小樣本的特點(diǎn),還含有大量和樣本分類無關(guān)或?qū)颖痉诸愖饔煤苄〉娜哂嗷蚝驮肼暬颉;虮磉_(dá)數(shù)據(jù)的這些特點(diǎn)會(huì)提高機(jī)器學(xué)習(xí)的時(shí)間及空間復(fù)雜度,降低分類精度,最終在疾病診斷等實(shí)際應(yīng)用中會(huì)增加成本,降低疾病預(yù)測的準(zhǔn)確度。因此,為提高基因表達(dá)數(shù)據(jù)的分類精度,本文從兩方面著手進(jìn)行研究:一方面對分類算法進(jìn)行改進(jìn),另一方面通過提出有效的特征選擇方法以篩選出關(guān)鍵基因,剔除冗余和噪聲基因,降低基因特征維數(shù),提高機(jī)器學(xué)習(xí)效率。研究的主要內(nèi)容如下:(1)正則極限學(xué)習(xí)機(jī)(RELM)是在極限學(xué)習(xí)機(jī)(ELM)的基礎(chǔ)上提出來的,具有簡單易用、分類精度較高、泛化能力好等優(yōu)點(diǎn)。然而RELM的輸入層權(quán)值、隱含層偏差是隨機(jī)給定的,會(huì)影響RELM的穩(wěn)定性。另外,RELM為了獲得較理想的分類精度,仍需設(shè)置較多的隱層節(jié)點(diǎn)。針對此問題,通過分析粒子群算法(PSO)的原理,把RELM初始產(chǎn)生的輸入層權(quán)值、隱含層偏差作為粒子帶入PSO進(jìn)行尋優(yōu),提出了一種粒子群改進(jìn)RELM(PSO-RELM)。在UCI數(shù)據(jù)集上的仿真實(shí)驗(yàn)表明,PSO-RELM相對BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(SVM)、RELM具有更好的分類精度和更佳的穩(wěn)定性。(2)提出一種結(jié)合互信息最大化(MIM)和自適應(yīng)遺傳算法(AGA)的特征選擇方法(MIMAGA-Selection),其中選擇ELM作為分類器來計(jì)算樣本的分類精度。首先根據(jù)源數(shù)據(jù)集中各基因和不同類別的互信息最大化進(jìn)行分組和篩選,形成一個(gè)初選基因子集;然后運(yùn)用以樣本分類精度作為適應(yīng)度函數(shù)的自適應(yīng)遺傳算法對初選基因子集進(jìn)行尋優(yōu),最終得到一個(gè)最優(yōu)基因子集。通過在3個(gè)UCI標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,該方法能有效剔除冗余基因和噪聲基因,顯著提高樣本分類精度。
[Abstract]:The emergence of DNA microarray technology in the field of bioinformatics is a landmark breakthrough. With the development of research, it has been widely used in many fields, such as drug research, gene sequencing and so on. It has high application value and broad development prospect. However, in the practical application, the genome objects studied by DNA microarray technology are becoming larger and larger, and the characteristic dimension is becoming higher and higher. The obtained gene expression data not only has the characteristics of high dimension and small sample, It also contains a large number of redundant and noisy genes which are independent of sample classification or have little effect on sample classification. These characteristics of gene expression data can increase the time and space complexity of machine learning and reduce the classification accuracy. Finally, the cost will be increased and the accuracy of disease prediction will be reduced in practical applications such as disease diagnosis. Therefore, in order to improve the classification accuracy of gene expression data, this paper studies from two aspects: on the one hand, the classification algorithm is improved. On the other hand, an effective feature selection method is proposed to screen out key genes, eliminate redundant and noise genes, and reduce the dimension of gene features. To improve the efficiency of machine learning. The main contents of the study are as follows: 1) the regular extreme learning machine (RELM) is put forward on the basis of the extreme learning machine (ELM), which has the advantages of easy to use, high classification accuracy, good generalization ability and so on. However, the input layer weight of RELM, The hidden layer deviation is given at random, which will affect the stability of RELM. In addition, in order to obtain the ideal classification accuracy, more hidden layer nodes still need to be set. In order to solve this problem, the principle of particle swarm optimization (PSO) is analyzed. In this paper, the input layer weights generated initially by RELM and hidden layer deviations are brought into PSO as particles for optimization. An improved particle swarm optimization (PSO) PSO-RELMN is proposed. The simulation results on UCI data sets show that PSO-RELM is relative to BP neural networks. Support Vector Machine (SVM) SVM / RELM has better classification accuracy and better stability. (2) A feature selection method combining mutual information maximization (mim) and adaptive genetic algorithm (AGA) is proposed, in which ELM is selected as the classifier to calculate the score of samples. Class accuracy. First, grouping and filtering based on the maximization of mutual information between genes and different categories in the source dataset, A subset of primary genes is formed, and then an adaptive genetic algorithm based on the accuracy of sample classification as fitness function is used to optimize the subsets of primary genes. Finally, an optimal subset of genes is obtained. Experiments on three UCI standard datasets show that the proposed method can effectively eliminate redundant genes and noise genes and improve the classification accuracy of samples.
【學(xué)位授予單位】:中國計(jì)量大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:Q811.4;TP18
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 朱嬋,許龍飛;聚類算法在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用[J];華僑大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年01期
2 張煥萍;王惠南;宋曉峰;;最小支撐樹算法在基因表達(dá)數(shù)據(jù)聚類分析中的應(yīng)用[J];南京航空航天大學(xué)學(xué)報(bào);2007年02期
3 張玲;伍亞舟;陳軍;易東;;小波-神經(jīng)網(wǎng)絡(luò)方法在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用研究[J];重慶醫(yī)學(xué);2010年17期
4 王祥林;;基于矩陣變換的層次聚類在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用研究[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年24期
5 陳佳妮;段文英;丁徽;;模糊C-均值聚類分析在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用[J];森林工程;2010年02期
6 馬猛;鈕俊清;寧巖;鄭浩然;王煦法;;聚類和關(guān)聯(lián)規(guī)則挖掘在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用研究[J];北京生物醫(yī)學(xué)工程;2008年04期
7 易東 ,張彥琦 ,王文昌 ,張蔚 ,楊夢蘇 ,黃明輝 ,方志俊;基于偽F統(tǒng)計(jì)量的模糊聚類方法在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用[J];中國衛(wèi)生統(tǒng)計(jì);2002年03期
8 郭紅;蔡莉;;采用多目標(biāo)微分進(jìn)化算法的基因表達(dá)數(shù)據(jù)雙向聚類[J];小型微型計(jì)算機(jī)系統(tǒng);2010年10期
9 石玉;李慧敏;蘭社云;;基于稀疏極大邊界特征的癌癥基因表達(dá)數(shù)據(jù)分析[J];鄭州師范教育;2012年04期
10 于彬;;基于SVM-OVA方法的多類別基因表達(dá)數(shù)據(jù)分類[J];青島科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年04期
相關(guān)會(huì)議論文 前1條
1 楊昆;李建中;王朝坤;徐繼偉;;基因表達(dá)數(shù)據(jù)的基于類別樹和SVMs的多類癌癥分類算法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
相關(guān)博士學(xué)位論文 前8條
1 張煥萍;面向基因表達(dá)數(shù)據(jù)的致病基因挖掘方法研究[D];南京航空航天大學(xué);2009年
2 蔡瑞初;基因表達(dá)數(shù)據(jù)挖掘若干關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2010年
3 劉亞杰;基于智能優(yōu)化算法的腫瘤微陣列基因表達(dá)數(shù)據(jù)分類研究[D];云南大學(xué);2014年
4 陸慧娟;基于基因表達(dá)數(shù)據(jù)的腫瘤分類算法研究[D];中國礦業(yè)大學(xué);2012年
5 張麗娟;微陣列基因表達(dá)數(shù)據(jù)分類問題中的屬性選擇技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2008年
6 毛志毅;基因表達(dá)數(shù)據(jù)基因篩選與近紅外光譜微量成分模型優(yōu)化方法研究[D];南開大學(xué);2014年
7 張琛;基因芯片數(shù)據(jù)處理與分析方法研究[D];吉林大學(xué);2011年
8 程慧杰;基于模式識別方法的基因表達(dá)數(shù)據(jù)分析研究[D];哈爾濱工程大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 陳輝輝;基于基因表達(dá)數(shù)據(jù)的信息基因選擇研究[D];山東大學(xué);2016年
2 梁妍;基于多目標(biāo)的基因表達(dá)數(shù)據(jù)雙聚類算法的研究[D];廣西大學(xué);2016年
3 李曉丹;基于基因表達(dá)數(shù)據(jù)的癌癥特征基因選擇方法研究[D];北京工業(yè)大學(xué);2016年
4 席艷秋;基因表達(dá)數(shù)據(jù)的雙向聚類算法的研究[D];揚(yáng)州大學(xué);2011年
5 李銳;基因表達(dá)數(shù)據(jù)的并行聚類及其集成分類研究[D];大連理工大學(xué);2016年
6 王石磊;面向基因表達(dá)數(shù)據(jù)的分類與特征選擇方法研究[D];中國計(jì)量大學(xué);2016年
7 李靖;基于支持向量機(jī)的基因表達(dá)數(shù)據(jù)降維方法的研究[D];蘇州大學(xué);2011年
8 王海鵬;基因表達(dá)數(shù)據(jù)分析的若干問題研究[D];杭州電子科技大學(xué);2011年
9 安平;基因表達(dá)數(shù)據(jù)的雙聚類分析方法研究[D];蘇州大學(xué);2013年
10 李石法;基因表達(dá)數(shù)據(jù)的集成、分析和可視化[D];東南大學(xué);2006年
,本文編號:1673555
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1673555.html