最大化ROC曲線下面積的不平衡基因數(shù)據(jù)集差異表達(dá)基因選擇算法
本文選題:基因選擇 切入點(diǎn):差異表達(dá)基因 出處:《陜西師范大學(xué)學(xué)報(bào)(自然科學(xué)版)》2017年01期 論文類(lèi)型:期刊論文
【摘要】:針對(duì)ARCO(AUC and rank correlation coefficient optimization)算法在進(jìn)行兩類(lèi)問(wèn)題特征選擇時(shí),采用斯皮爾曼等級(jí)相關(guān)系數(shù)度量已選特征子集冗余性帶來(lái)信息損失和特征相關(guān)性與冗余性度量取值范圍不一致的缺陷,提出改進(jìn)的Pearson相關(guān)系數(shù)度量特征冗余性,并歸一化特征相關(guān)性和冗余性度量范圍,得到APCO(AUC and improved Pearson correlation coefficient optimization)算法以克服ARCO算法的不足。同時(shí),針對(duì)實(shí)現(xiàn)多類(lèi)特征選擇的MAUCD(using MAUC as the relevance metric to rank features directly)和MDFS(MAUC decomposition based feature selection method)算法沒(méi)有考慮特征冗余,且MDFS易選擇到局部最優(yōu)特征子集的問(wèn)題,提出適于多類(lèi)問(wèn)題的改進(jìn)Pearson相關(guān)系數(shù)度量特征冗余性,得到基于mRMR(maximal relevance-minimal redundancy)框架的MAUCP和MDFSP算法,克服MAUCD和MDFS算法的缺陷。以SVM、NB和KNN為分類(lèi)工具,構(gòu)造基于所選特征子集的相應(yīng)分類(lèi)器,以其AUC(MAUC)值度量相應(yīng)特征子集的性能。7個(gè)二類(lèi)和3個(gè)多類(lèi)不平衡基因數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明:提出的APCO、MAUCP和MDFSP算法分別優(yōu)于ARCO、MAUCD和MDFS算法,也優(yōu)于其他經(jīng)典基因選擇算法。
[Abstract]:Aiming at the defects of the ARCO(AUC and rank correlation coefficient optimization algorithm, which uses the Spelman rank correlation coefficient to measure the redundancy of the selected feature subset, the information loss and the inconsistent range of the feature correlation and redundancy measures are obtained when the ARCO(AUC and rank correlation coefficient optimization algorithm is used to select the two kinds of features. This paper proposes an improved Pearson correlation coefficient to measure feature redundancy, and normalizes the measurement range of feature correlation and redundancy, and obtains the APCO(AUC and improved Pearson correlation coefficient optimization algorithm to overcome the shortcomings of ARCO algorithm. To solve the problem that MAUCD(using MAUC as the relevance metric to rank features directly) and MDFS(MAUC decomposition based feature selection method realize multi-class feature selection without considering feature redundancy, MDFS is easy to select to the locally optimal feature subset. An improved Pearson correlation coefficient for multi-class problems is proposed to measure feature redundancy. The MAUCP and MDFSP algorithms based on the framework of mRMR(maximal relevance-minimal are proposed to overcome the shortcomings of the MAUCD and MDFS algorithms. SVMNB and KNN are used as classification tools. A corresponding classifier based on the selected feature subset is constructed, and the performance of the corresponding feature subset is measured by its AUCMAUC value. The experimental results of 7 classes and 3 classes of unbalanced gene data sets show that the proposed algorithms are superior to ARCOOMAUCD and MDFS algorithms, respectively. It is also superior to other classical gene selection algorithms.
【作者單位】: 陜西師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院;
【基金】:陜西省科技攻關(guān)項(xiàng)目(2013K12-03-24) 國(guó)家自然科學(xué)基金(61673251) 中央高;究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金(GK201503067)
【分類(lèi)號(hào)】:Q811.4
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳勃杭;王巍;;追問(wèn)“基因選擇”[J];哲學(xué)分析;2013年02期
2 許文龍;王立榮;張相華;馮煥清;;基于腫瘤基因表達(dá)數(shù)據(jù)的簡(jiǎn)單有效的基因選擇算法(英文)[J];中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào);2009年08期
3 段旭;高尚;;微陣列基因選擇約簡(jiǎn)方法[J];電子設(shè)計(jì)工程;2011年21期
4 黃海燕;;高矮胖瘦由你說(shuō)[J];大眾科技;1999年08期
5 張軍英,Y.J.Wang,J.Khan,R.Clarke;基于類(lèi)別空間的基因選擇[J];中國(guó)科學(xué)E輯:技術(shù)科學(xué);2003年12期
6 李小波;;多步驟降維的腫瘤特征基因選擇方法[J];復(fù)旦學(xué)報(bào)(自然科學(xué)版);2008年04期
7 楊昆;徐靜;張彥斌;;基因選擇的0-1規(guī)劃模型和算法[J];計(jì)算機(jī)工程與應(yīng)用;2010年20期
8 陳留院;穆曉霞;李鈞濤;;基于自適應(yīng)雙正則化支持向量機(jī)的群體基因選擇[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2014年01期
9 黃海燕;;胖瘦將由你掌握——人類(lèi)未來(lái)飲食的重大變革[J];大科技;1999年05期
10 張軍英;劉申嶺;Yue Wang;;基于支持向量機(jī)和多層感知器的多病類(lèi)診斷基因選擇方法[J];自然科學(xué)進(jìn)展;2007年10期
相關(guān)會(huì)議論文 前3條
1 任偉;閆桂英;;利用聚類(lèi)算法來(lái)研究基因選擇問(wèn)題[A];中國(guó)運(yùn)籌學(xué)會(huì)第八屆學(xué)術(shù)交流會(huì)論文集[C];2006年
2 張春美;;守望生命,關(guān)注人的尊嚴(yán)——基因倫理的若干熱點(diǎn)問(wèn)題[A];中國(guó)的遺傳學(xué)研究——中國(guó)遺傳學(xué)會(huì)第七次代表大會(huì)暨學(xué)術(shù)討論會(huì)論文摘要匯編[C];2003年
3 李卉卉;袁谷;;血管內(nèi)皮生長(zhǎng)因子(VEGF)基因啟動(dòng)子區(qū)G-四鏈體識(shí)別的研究[A];第六屆全國(guó)化學(xué)生物學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年
相關(guān)重要報(bào)紙文章 前2條
1 鄭詩(shī)亮;薛人望談基因與生命[N];東方早報(bào);2011年
2 本報(bào)記者 章勇;基因選擇和飼養(yǎng)管理可改善羊肉顏色[N];中國(guó)畜牧獸醫(yī)報(bào);2014年
相關(guān)碩士學(xué)位論文 前7條
1 高紅超;基于聚類(lèi)的基因選擇算法和DPC聚類(lèi)算法研究[D];陜西師范大學(xué);2015年
2 周萍;基于頻度與聯(lián)合效應(yīng)的基因選擇[D];西安電子科技大學(xué);2009年
3 曹濤;基于聚類(lèi)的混合基因選擇方法研究[D];湖南大學(xué);2011年
4 姬翔;基于SVM的多病類(lèi)診斷基因選擇方法研究[D];西安電子科技大學(xué);2005年
5 吳希賢;基于優(yōu)化算法的基因選擇與癌癥分類(lèi)[D];湖南大學(xué);2008年
6 劉申嶺;基于SVM的基因選擇[D];西安電子科技大學(xué);2004年
7 陸燕;基于啟發(fā)式聚類(lèi)的混合特征基因選擇方法研究[D];湖南大學(xué);2010年
,本文編號(hào):1571532
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/1571532.html