基于DNA微陣列數(shù)據(jù)的密度峰值聚類(lèi)算法研究與應(yīng)用
發(fā)布時(shí)間:2021-02-26 03:10
在生物信息學(xué)領(lǐng)域中,通過(guò)對(duì)腫瘤樣本的DNA微陣列數(shù)據(jù)進(jìn)行聚類(lèi)分析,來(lái)劃分不同的腫瘤類(lèi)型或亞型一直是研究的重點(diǎn)。利用DNA微陣列數(shù)據(jù)在分子層面上對(duì)腫瘤進(jìn)行分析,不僅可以根據(jù)同一種腫瘤樣本相關(guān)致病基因的不同表達(dá)區(qū)分不同的腫瘤亞型。還可以對(duì)未知亞型的部分腫瘤進(jìn)行亞型的預(yù)測(cè)以及分類(lèi)。而由于基因本身的特點(diǎn)以及DNA微陣列技術(shù)高成本的原因,DNA微陣列數(shù)據(jù)集大多呈現(xiàn)出高維度、小樣本的特點(diǎn)。2014年在Science上提出的密度峰值聚類(lèi)算法(Density Peak Clustering,DPC)由于其參數(shù)簡(jiǎn)單,聚類(lèi)準(zhǔn)確率較高的優(yōu)點(diǎn)受到各個(gè)領(lǐng)域的廣泛認(rèn)可,具有很高的研究?jī)r(jià)值。本文主要針對(duì)DNA微陣列數(shù)據(jù)集的特點(diǎn),以密度峰值聚類(lèi)算法的改進(jìn)為研究方向。并將改進(jìn)后的算法應(yīng)用在DNA微陣列數(shù)據(jù)集上進(jìn)行腫瘤亞型的聚類(lèi)研究。主要研究?jī)?nèi)容有:(1)為了解決DPC算法人為參與關(guān)鍵性參數(shù)的選取的問(wèn)題,本文采用將DPC算法和智能優(yōu)化算法相結(jié)合的方式進(jìn)行改進(jìn)。算法將蝙蝠算法(Bat Algorithm,BA)和DPC算法相結(jié)合。首先對(duì)蝙蝠優(yōu)化算法搜索后期收斂速度變慢,易陷入局部最優(yōu)的缺點(diǎn)加以改進(jìn)。將自適應(yīng)慣性權(quán)重加入到B...
【文章來(lái)源】:蘭州交通大學(xué)甘肅省
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
jain數(shù)據(jù)集運(yùn)行DPC算法時(shí)參數(shù)的決策圖
置。而在算法運(yùn)行的初期,慣性權(quán)重很大,此時(shí)蝙蝠的飛行速度快,增強(qiáng)了蝙蝠算法初期的全局尋優(yōu)能力,同時(shí)有助于避免算法陷入局部最優(yōu)。為了驗(yàn)證改進(jìn)的有效性,將蝙蝠的種群數(shù)量設(shè)置為 10 只,算法的迭代終止次數(shù)設(shè)定為 1000,進(jìn)行實(shí)驗(yàn)仿真。同時(shí)將改進(jìn)后算法和 BA 針對(duì)相同的適應(yīng)度函數(shù)進(jìn)行尋優(yōu)。將算法的適應(yīng)度函數(shù)設(shè)置為多峰函數(shù) Griewangk,函數(shù)具體公式為公式 3.9 所示。 NiiNiiixxf1121cos40001 (3.9) 函數(shù)的搜索空間為n ]600,600[ ,理論最優(yōu)值為 0。兩種算法在函數(shù)上迭代 1000 次的收斂情況如圖 3.1 所示。
基于DNA微陣列數(shù)據(jù)的密度峰值聚類(lèi)算法研究與應(yīng)用-20-兩種算法均可以在一定的迭代次數(shù)之內(nèi)完成尋優(yōu)操作。但是加入慣性權(quán)重之后的改進(jìn)蝙蝠算法,完成目標(biāo)尋優(yōu)所用迭代次數(shù)相較于原始算法大大減小,有效的避免了算法過(guò)早的陷入局部最優(yōu)解,同時(shí)算法的收斂性明顯增強(qiáng)。3.3基于蝙蝠算法的密度峰值聚類(lèi)算法在DPC算法之中,截?cái)嗑嚯x的主要選取方式為人工選齲具體操作為給定一個(gè)NM的數(shù)據(jù)集D,計(jì)算數(shù)據(jù)集中所有樣本點(diǎn)兩兩之間的相似度,得到一個(gè)NM的相似度矩陣F。將相似度矩陣F中所有的數(shù)據(jù)從小到大排列,通過(guò)人工依照一定的比例選取其中的一個(gè)相似度的值作為密度峰值聚類(lèi)算法應(yīng)用在該數(shù)據(jù)集上的截?cái)嗑嚯x取值。但是在實(shí)際操作的過(guò)程中,針對(duì)不同的數(shù)據(jù)集,很難根據(jù)以往經(jīng)驗(yàn)來(lái)進(jìn)行選齲即使經(jīng)過(guò)反復(fù)對(duì)比實(shí)驗(yàn),也很難選取到使得聚類(lèi)結(jié)果最合適的取值。而截?cái)嗑嚯x能夠影響到算法的兩個(gè)重要參數(shù)的計(jì)算,會(huì)對(duì)算法運(yùn)行結(jié)果產(chǎn)生重要影響。例如flame數(shù)據(jù)集是一個(gè)含有240個(gè)樣本點(diǎn)的二維數(shù)據(jù)集。圖3.2表示在flame數(shù)據(jù)集當(dāng)中,截?cái)嗑嚯x依照不同的比例選取時(shí)DPC算法的聚類(lèi)結(jié)果。圖3.2flame數(shù)據(jù)集中截?cái)嗑嚯x不同取值時(shí)的聚類(lèi)結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]應(yīng)用醫(yī)療大數(shù)據(jù)分析提升臨床研究可行性及效力[J]. 馮時(shí),劉爽,朱翀,郭昊,弓孟春. 醫(yī)學(xué)信息學(xué)雜志. 2019(12)
[2]不平衡數(shù)據(jù)挖掘方法綜述[J]. 向鴻鑫,楊云. 計(jì)算機(jī)工程與應(yīng)用. 2019(04)
[3]基于K近鄰和多類(lèi)合并的密度峰值聚類(lèi)算法[J]. 薛小娜,高淑萍,彭弘銘,吳會(huì)會(huì). 吉林大學(xué)學(xué)報(bào)(理學(xué)版). 2019(01)
[4]機(jī)器學(xué)習(xí)方法在文本聚類(lèi)中的應(yīng)用[J]. 熊康平. 電子世界. 2018(22)
[5]基于核密度估計(jì)的K-CFSFDP聚類(lèi)算法[J]. 董曉君,程春玲. 計(jì)算機(jī)科學(xué). 2018(11)
[6]基于免疫網(wǎng)絡(luò)學(xué)習(xí)機(jī)制的中文網(wǎng)絡(luò)短文本聚類(lèi)算法[J]. 沈美英. 自動(dòng)化與儀器儀表. 2018(10)
[7]四氯化碳致小鼠急性肝損傷模型造模要素及中醫(yī)藥防治的數(shù)據(jù)挖掘研究[J]. 胡鳳嬌,宋文杰,王張,梁源,劉光麗. 中藥與臨床. 2018(05)
[8]基于PSO-SVM的腫瘤特征基因表達(dá)數(shù)據(jù)分析[J]. 趙全鋼,陳國(guó)華,趙麗敏. 德州學(xué)院學(xué)報(bào). 2018(04)
[9]基于局部強(qiáng)化最小二乘回歸子空間分割的基因表達(dá)數(shù)據(jù)聚類(lèi)[J]. 簡(jiǎn)彩仁,翁謙. 三明學(xué)院學(xué)報(bào). 2016(06)
[10]Clustering by Fast Search and Find of Density Peaks with Data Field[J]. WANG Shuliang,WANG Dakui,LI Caoyuan,LI Yan,DING Gangyi. Chinese Journal of Electronics. 2016(03)
碩士論文
[1]基于聚類(lèi)的工業(yè)不平衡故障數(shù)據(jù)分類(lèi)方法研究[D]. 陳革成.浙江大學(xué) 2019
[2]基于懲罰高斯混合模型的高維數(shù)據(jù)聚類(lèi)分析[D]. 朱桂菊.蘭州大學(xué) 2016
[3]數(shù)據(jù)挖掘在教學(xué)評(píng)估系統(tǒng)中的應(yīng)用研究[D]. 伍熙熙.北京化工大學(xué) 2015
[4]用計(jì)算生物學(xué)方法根據(jù)基因表達(dá)譜數(shù)據(jù)挖掘大鼠肝再生關(guān)鍵基因研究[D]. 劉云卿.河南師范大學(xué) 2014
[5]基于PSO的基因表達(dá)數(shù)據(jù)聚類(lèi)研究[D]. 靳艷虹.中南大學(xué) 2013
本文編號(hào):3051977
【文章來(lái)源】:蘭州交通大學(xué)甘肅省
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
jain數(shù)據(jù)集運(yùn)行DPC算法時(shí)參數(shù)的決策圖
置。而在算法運(yùn)行的初期,慣性權(quán)重很大,此時(shí)蝙蝠的飛行速度快,增強(qiáng)了蝙蝠算法初期的全局尋優(yōu)能力,同時(shí)有助于避免算法陷入局部最優(yōu)。為了驗(yàn)證改進(jìn)的有效性,將蝙蝠的種群數(shù)量設(shè)置為 10 只,算法的迭代終止次數(shù)設(shè)定為 1000,進(jìn)行實(shí)驗(yàn)仿真。同時(shí)將改進(jìn)后算法和 BA 針對(duì)相同的適應(yīng)度函數(shù)進(jìn)行尋優(yōu)。將算法的適應(yīng)度函數(shù)設(shè)置為多峰函數(shù) Griewangk,函數(shù)具體公式為公式 3.9 所示。 NiiNiiixxf1121cos40001 (3.9) 函數(shù)的搜索空間為n ]600,600[ ,理論最優(yōu)值為 0。兩種算法在函數(shù)上迭代 1000 次的收斂情況如圖 3.1 所示。
基于DNA微陣列數(shù)據(jù)的密度峰值聚類(lèi)算法研究與應(yīng)用-20-兩種算法均可以在一定的迭代次數(shù)之內(nèi)完成尋優(yōu)操作。但是加入慣性權(quán)重之后的改進(jìn)蝙蝠算法,完成目標(biāo)尋優(yōu)所用迭代次數(shù)相較于原始算法大大減小,有效的避免了算法過(guò)早的陷入局部最優(yōu)解,同時(shí)算法的收斂性明顯增強(qiáng)。3.3基于蝙蝠算法的密度峰值聚類(lèi)算法在DPC算法之中,截?cái)嗑嚯x的主要選取方式為人工選齲具體操作為給定一個(gè)NM的數(shù)據(jù)集D,計(jì)算數(shù)據(jù)集中所有樣本點(diǎn)兩兩之間的相似度,得到一個(gè)NM的相似度矩陣F。將相似度矩陣F中所有的數(shù)據(jù)從小到大排列,通過(guò)人工依照一定的比例選取其中的一個(gè)相似度的值作為密度峰值聚類(lèi)算法應(yīng)用在該數(shù)據(jù)集上的截?cái)嗑嚯x取值。但是在實(shí)際操作的過(guò)程中,針對(duì)不同的數(shù)據(jù)集,很難根據(jù)以往經(jīng)驗(yàn)來(lái)進(jìn)行選齲即使經(jīng)過(guò)反復(fù)對(duì)比實(shí)驗(yàn),也很難選取到使得聚類(lèi)結(jié)果最合適的取值。而截?cái)嗑嚯x能夠影響到算法的兩個(gè)重要參數(shù)的計(jì)算,會(huì)對(duì)算法運(yùn)行結(jié)果產(chǎn)生重要影響。例如flame數(shù)據(jù)集是一個(gè)含有240個(gè)樣本點(diǎn)的二維數(shù)據(jù)集。圖3.2表示在flame數(shù)據(jù)集當(dāng)中,截?cái)嗑嚯x依照不同的比例選取時(shí)DPC算法的聚類(lèi)結(jié)果。圖3.2flame數(shù)據(jù)集中截?cái)嗑嚯x不同取值時(shí)的聚類(lèi)結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]應(yīng)用醫(yī)療大數(shù)據(jù)分析提升臨床研究可行性及效力[J]. 馮時(shí),劉爽,朱翀,郭昊,弓孟春. 醫(yī)學(xué)信息學(xué)雜志. 2019(12)
[2]不平衡數(shù)據(jù)挖掘方法綜述[J]. 向鴻鑫,楊云. 計(jì)算機(jī)工程與應(yīng)用. 2019(04)
[3]基于K近鄰和多類(lèi)合并的密度峰值聚類(lèi)算法[J]. 薛小娜,高淑萍,彭弘銘,吳會(huì)會(huì). 吉林大學(xué)學(xué)報(bào)(理學(xué)版). 2019(01)
[4]機(jī)器學(xué)習(xí)方法在文本聚類(lèi)中的應(yīng)用[J]. 熊康平. 電子世界. 2018(22)
[5]基于核密度估計(jì)的K-CFSFDP聚類(lèi)算法[J]. 董曉君,程春玲. 計(jì)算機(jī)科學(xué). 2018(11)
[6]基于免疫網(wǎng)絡(luò)學(xué)習(xí)機(jī)制的中文網(wǎng)絡(luò)短文本聚類(lèi)算法[J]. 沈美英. 自動(dòng)化與儀器儀表. 2018(10)
[7]四氯化碳致小鼠急性肝損傷模型造模要素及中醫(yī)藥防治的數(shù)據(jù)挖掘研究[J]. 胡鳳嬌,宋文杰,王張,梁源,劉光麗. 中藥與臨床. 2018(05)
[8]基于PSO-SVM的腫瘤特征基因表達(dá)數(shù)據(jù)分析[J]. 趙全鋼,陳國(guó)華,趙麗敏. 德州學(xué)院學(xué)報(bào). 2018(04)
[9]基于局部強(qiáng)化最小二乘回歸子空間分割的基因表達(dá)數(shù)據(jù)聚類(lèi)[J]. 簡(jiǎn)彩仁,翁謙. 三明學(xué)院學(xué)報(bào). 2016(06)
[10]Clustering by Fast Search and Find of Density Peaks with Data Field[J]. WANG Shuliang,WANG Dakui,LI Caoyuan,LI Yan,DING Gangyi. Chinese Journal of Electronics. 2016(03)
碩士論文
[1]基于聚類(lèi)的工業(yè)不平衡故障數(shù)據(jù)分類(lèi)方法研究[D]. 陳革成.浙江大學(xué) 2019
[2]基于懲罰高斯混合模型的高維數(shù)據(jù)聚類(lèi)分析[D]. 朱桂菊.蘭州大學(xué) 2016
[3]數(shù)據(jù)挖掘在教學(xué)評(píng)估系統(tǒng)中的應(yīng)用研究[D]. 伍熙熙.北京化工大學(xué) 2015
[4]用計(jì)算生物學(xué)方法根據(jù)基因表達(dá)譜數(shù)據(jù)挖掘大鼠肝再生關(guān)鍵基因研究[D]. 劉云卿.河南師范大學(xué) 2014
[5]基于PSO的基因表達(dá)數(shù)據(jù)聚類(lèi)研究[D]. 靳艷虹.中南大學(xué) 2013
本文編號(hào):3051977
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3051977.html
最近更新
教材專(zhuān)著