一種加權(quán)K-均值基因聚類算法
本文選題:微陣列表達數(shù)據(jù) + 聚類分析。 參考:《哈爾濱理工大學(xué)學(xué)報》2017年02期
【摘要】:針對微陣列表達數(shù)據(jù)集中基因-基因之間存在復(fù)雜相關(guān)關(guān)系的問題,基于隨機森林變量重要性分數(shù),提出了一種新的加權(quán)K-均值基因聚類算法。首先,以微陣列表達數(shù)據(jù)中的樣本為對象、基因為特征,訓(xùn)練隨機森林分類器,計算每個基因的變量重要性分數(shù);然后,以基因為對象、樣本為特征、基因的變量重要性分數(shù)為權(quán)重進行K-均值聚類。在Leukemia、Breast、DLBCL等3個微陣列表數(shù)據(jù)集上進行了實驗,結(jié)果表明:所提出的加權(quán)K-均值聚類算法與原始的K-均值聚類算法相比,類間距離與總距離的比值平均高出17.7個百分點,具有更好的同質(zhì)性和差異性。
[Abstract]:In order to solve the problem of complex correlation between genes and genes in microarray expression data sets, a new weighted K-means gene clustering algorithm is proposed based on the importance fraction of random forest variables. First, using samples from microarray expression data as objects, genes as characteristics, training random forest classifiers to calculate variable importance scores for each gene; then, taking genes as objects, samples as characteristics. The importance fraction of gene variables is weighted to cluster the K-means. Experiments were carried out on the data sets of three microarray tables, such as LeukemiaI BreastDLBCL. The results show that the weighted K-means clustering algorithm is 17.7 percentage points higher than the original K-means clustering algorithm, and the ratio of inter-cluster distance to total distance is 17.7% higher than that of the original K-means clustering algorithm. Have better homogeneity and difference.
【作者單位】: 哈爾濱理工大學(xué)軟件學(xué)院;黑龍江工程學(xué)院計算機科學(xué)與技術(shù)學(xué)院;
【基金】:黑龍江省教育廳2014年度科學(xué)技術(shù)研究面上項目(12541124)
【分類號】:TP311.13
【相似文獻】
相關(guān)期刊論文 前10條
1 劉足華;熊惠霖;;基于隨機森林的目標(biāo)檢測與定位[J];計算機工程;2012年13期
2 董師師;黃哲學(xué);;隨機森林理論淺析[J];集成技術(shù);2013年01期
3 陳姝;彭小寧;;基于粒子濾波和在線隨機森林分類的目標(biāo)跟蹤[J];江蘇大學(xué)學(xué)報(自然科學(xué)版);2014年02期
4 王麗婷;丁曉青;方馳;;基于隨機森林的人臉關(guān)鍵點精確定位方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2009年04期
5 李建更;高志坤;;隨機森林針對小樣本數(shù)據(jù)類權(quán)重設(shè)置[J];計算機工程與應(yīng)用;2009年26期
6 吳華芹;;基于訓(xùn)練集劃分的隨機森林算法[J];科技通報;2013年10期
7 程光;王貴錦;何禮;林行剛;;人體姿勢估計中隨機森林訓(xùn)練算法的并行化[J];計算機應(yīng)用研究;2014年05期
8 于延;王建華;;基于云計算平臺的隨機森林算法的研究與實現(xiàn)[J];科技通報;2013年04期
9 劉永春;宋弘;;基于隨機森林的乳腺腫瘤診斷研究[J];電視技術(shù);2014年15期
10 楊帆;林琛;周綺鳳;符長虹;羅林開;;基于隨機森林的潛在k近鄰算法及其在基因表達數(shù)據(jù)分類中的應(yīng)用[J];系統(tǒng)工程理論與實踐;2012年04期
相關(guān)會議論文 前2條
1 謝程利;王金橋;盧漢清;;核森林及其在目標(biāo)檢測中的應(yīng)用[A];第六屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會議(NCMT2010)、第6屆全國人機交互學(xué)術(shù)會議(CHCI2010)、第5屆全國普適計算學(xué)術(shù)會議(PCC2010)論文集[C];2010年
2 武曉巖;方慶偉;;基因表達數(shù)據(jù)分析的隨機森林方法及算法改進[A];黑龍江省第十次統(tǒng)計科學(xué)討論會論文集[C];2008年
相關(guān)碩士學(xué)位論文 前10條
1 賀捷;隨機森林在文本分類中的應(yīng)用[D];華南理工大學(xué);2015年
2 張文婷;交通環(huán)境下基于改進霍夫森林的目標(biāo)檢測與跟蹤[D];華南理工大學(xué);2015年
3 李強;基于多視角特征融合與隨機森林的蛋白質(zhì)結(jié)晶預(yù)測[D];南京理工大學(xué);2015年
4 朱玟謙;一種收斂性隨機森林在人臉檢測中的應(yīng)用研究[D];武漢理工大學(xué);2015年
5 肖宇;基于序列圖像的手勢檢測與識別算法研究[D];電子科技大學(xué);2014年
6 李慧;一種改進的隨機森林并行分類方法在運營商大數(shù)據(jù)的應(yīng)用[D];電子科技大學(xué);2015年
7 趙亞紅;面向多類標(biāo)分類的隨機森林算法研究[D];哈爾濱工業(yè)大學(xué);2014年
8 丁然;基于隨機森林大豆籽粒外觀品質(zhì)識別系統(tǒng)的設(shè)計與實現(xiàn)[D];東北農(nóng)業(yè)大學(xué);2015年
9 邱佳迪;基于隨機森林的惡意移動應(yīng)用動態(tài)檢測方法研究[D];浙江工業(yè)大學(xué);2015年
10 張興;基于Spark大數(shù)據(jù)平臺的火電廠節(jié)能分析[D];太原理工大學(xué);2016年
,本文編號:1861103
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/1861103.html