基于改進(jìn)的邊聚集系數(shù)和K近鄰算法的關(guān)鍵蛋白識(shí)別研究
本文關(guān)鍵詞:基于改進(jìn)的邊聚集系數(shù)和K近鄰算法的關(guān)鍵蛋白識(shí)別研究
更多相關(guān)文章: 復(fù)雜網(wǎng)絡(luò) 重要節(jié)點(diǎn) 機(jī)器學(xué)習(xí) K近鄰 Bootstrap-KNN模型
【摘要】:復(fù)雜網(wǎng)絡(luò)被定義為一類由現(xiàn)實(shí)復(fù)雜系統(tǒng)抽象出來(lái),并表現(xiàn)出高度復(fù)雜性的網(wǎng)絡(luò)。現(xiàn)實(shí)生活中,我們總是處在不同的網(wǎng)絡(luò)中,同時(shí)整個(gè)社會(huì)也被不同的網(wǎng)絡(luò)所覆蓋,如金融網(wǎng)、因特網(wǎng)、工作網(wǎng)、朋友圈、交通網(wǎng)、犯罪網(wǎng)等,因此深入研究復(fù)雜網(wǎng)絡(luò),對(duì)于我們的生活、工作都具有重大指導(dǎo)意義。 生物體內(nèi)存在著大量蛋白質(zhì),根據(jù)它們對(duì)生物體的重要性可以分為兩類:關(guān)鍵蛋白質(zhì)和非關(guān)鍵蛋白質(zhì)。關(guān)鍵蛋白質(zhì)是指能夠幫助生物體實(shí)現(xiàn)某些功能,并且丟失后會(huì)對(duì)生物體造成巨大影響的一類蛋白質(zhì),由此可見,它對(duì)于生物體的生存、正常工作意義重大。同時(shí),通過(guò)計(jì)算機(jī)從復(fù)雜的蛋白質(zhì)交互網(wǎng)絡(luò)中識(shí)別關(guān)鍵蛋白質(zhì),已經(jīng)成為當(dāng)今研究的一大熱點(diǎn),F(xiàn)階段該領(lǐng)域已有一些經(jīng)典算法,如度中心性算法、介數(shù)中心性算法、緊密度中心性算法等,但是以上算法都只關(guān)注了節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要性,而忽略了邊作為連接節(jié)點(diǎn)之間橋梁所具有的重要性。接著,便有研究者引入邊聚集系數(shù)ECC(edge clusteringcoefficient,ECC),提出了新型中心度算法NC(new centrality,NC)、基于排除思想的剝落排序算法等,但是上述這些算法都存在兩個(gè)共同問(wèn)題:既沒有將網(wǎng)絡(luò)中的節(jié)點(diǎn)和邊的雙重特性有效結(jié)合起來(lái),也沒有綜合考慮每種算法的優(yōu)勢(shì)。 針對(duì)上述問(wèn)題,本文首先引入點(diǎn)聚集系數(shù)C(clustering coefficient,C)和邊聚集系數(shù)ECC,并在此基礎(chǔ)上,提出改進(jìn)的邊聚集系數(shù)IECC(improved edge clusteringcoefficient,IECC),和一種融合點(diǎn)和邊雙重拓?fù)涮匦缘乃惴∟EC(node and edge clusteringcoefficient,NEC)。 接著,本文引入了機(jī)器學(xué)習(xí)中的K近鄰(K-Nearest Neighbor,簡(jiǎn)稱KNN)算法。由于傳統(tǒng)KNN算法容易產(chǎn)生過(guò)擬合或欠擬合,于是本文采用Bootstrap重抽樣技術(shù)對(duì)KNN算法改進(jìn),改進(jìn)后的新型蛋白質(zhì)預(yù)測(cè)模型定義為bootstrap k-nearest neighbor模型(簡(jiǎn)稱Bootstrap-KNN)。Bootstrap-KNN對(duì)每個(gè)節(jié)點(diǎn)的識(shí)別都綜合了多種關(guān)鍵節(jié)點(diǎn)識(shí)別方法的評(píng)分,由于不同算法對(duì)不同網(wǎng)絡(luò)結(jié)構(gòu)的適用性,本文提出的方法使預(yù)測(cè)結(jié)果更加客觀,而且適用性更強(qiáng)。 為了驗(yàn)證本文提出的改進(jìn)算法NEC和Bootstrap-KNN模型的有效性,本文利用DIP(dataset of interacting proteins,DIP)數(shù)據(jù)集中的酵母蛋白質(zhì)網(wǎng)絡(luò)進(jìn)行仿真實(shí)驗(yàn)。通過(guò)對(duì)實(shí)驗(yàn)結(jié)果中各項(xiàng)評(píng)價(jià)指標(biāo)進(jìn)行分析對(duì)比,,結(jié)果顯示NEC算法的預(yù)測(cè)準(zhǔn)確率等多項(xiàng)指標(biāo)均高于大部分傳統(tǒng)算法,并且Bootstrap-KNN模型對(duì)應(yīng)的預(yù)測(cè)準(zhǔn)確率等多項(xiàng)指標(biāo)均高于NEC算法,這些改進(jìn)能夠?yàn)樯飳W(xué)中關(guān)鍵蛋白質(zhì)的預(yù)測(cè)提供有效指導(dǎo)。
【關(guān)鍵詞】:復(fù)雜網(wǎng)絡(luò) 重要節(jié)點(diǎn) 機(jī)器學(xué)習(xí) K近鄰 Bootstrap-KNN模型
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:O157.5;TP181
【目錄】:
- 摘要4-6
- Abstract6-11
- 第1章 緒論11-18
- 1.1 課題研究背景11-14
- 1.2 領(lǐng)域研究現(xiàn)狀14-15
- 1.3 本文主要工作15-16
- 1.4 本文組織結(jié)構(gòu)16-18
- 第2章 復(fù)雜網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)概述18-30
- 2.1 復(fù)雜網(wǎng)絡(luò)概述18-19
- 2.1.1 復(fù)雜網(wǎng)絡(luò)研究背景18
- 2.1.2 復(fù)雜網(wǎng)絡(luò)的發(fā)展18-19
- 2.2 復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)特性及分析19-23
- 2.2.1 小世界特性19-20
- 2.2.2 無(wú)標(biāo)度特性20-21
- 2.2.3 平均路徑長(zhǎng)度21-22
- 2.2.4 集聚系數(shù)22
- 2.2.5 節(jié)點(diǎn)度和度分布22-23
- 2.3 傳統(tǒng)關(guān)鍵節(jié)點(diǎn)識(shí)別算法概述23-28
- 2.3.1 度中心性算法 DC23-24
- 2.3.2 介數(shù)中心性算法 BC24-25
- 2.3.3 緊密度中心性算法 CC25-26
- 2.3.4 特征向量中心性算法 EC26
- 2.3.5 子圖中心性算法 SC26-27
- 2.3.6 信息流量中心性算法 IC27-28
- 2.4 機(jī)器學(xué)習(xí)概述28-29
- 2.4.1 機(jī)器學(xué)習(xí)定義28
- 2.4.2 機(jī)器學(xué)習(xí)重要性28-29
- 2.4.3 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘29
- 2.5 本章小結(jié)29-30
- 第3章 基于節(jié)點(diǎn)和邊的新型關(guān)鍵節(jié)點(diǎn)識(shí)別算法30-35
- 3.1 點(diǎn)聚集系數(shù) C30
- 3.2 邊聚集系數(shù) ECC30-31
- 3.3 新中心性算法 NC31-32
- 3.4 本文改進(jìn)算法32-33
- 3.4.1 改進(jìn)的邊聚集系數(shù) IECC32
- 3.4.2 改進(jìn)算法 NEC32-33
- 3.5 本章小結(jié)33-35
- 第4章 基于改進(jìn)的 K 近鄰算法的關(guān)鍵蛋白識(shí)別研究35-41
- 4.1 K 近鄰算法35-36
- 4.1.1 K 近鄰介紹35
- 4.1.2 K 近鄰的應(yīng)用35-36
- 4.2 K 近鄰算法改進(jìn)36-38
- 4.2.1 Bootstrap-KNN 模型36-37
- 4.2.2 Bootstrap-KNN 模型特征歸一化37-38
- 4.2.3 Bootstrap 抽樣技術(shù)38
- 4.3 Bootstrap-KNN 模型預(yù)測(cè)關(guān)鍵蛋白質(zhì)38-40
- 4.4 本章小結(jié)40-41
- 第5章 實(shí)驗(yàn)仿真及結(jié)果分析41-52
- 5.1 實(shí)驗(yàn)數(shù)據(jù)集41
- 5.2 實(shí)驗(yàn)環(huán)境41
- 5.3 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)41-43
- 5.3.1 敏感度42
- 5.3.2 特異性42
- 5.3.3 陽(yáng)性預(yù)測(cè)值42
- 5.3.4 陰性預(yù)測(cè)值42-43
- 5.3.5 F-指標(biāo)43
- 5.3.6 準(zhǔn)確率43
- 5.4 NEC 實(shí)驗(yàn)結(jié)果及分析43-47
- 5.5 Bootstrap-KNN 實(shí)驗(yàn)結(jié)果及分析47-51
- 5.6 本章小結(jié)51-52
- 第6章 總結(jié)與展望52-54
- 6.1 總結(jié)52-53
- 6.2 展望53-54
- 參考文獻(xiàn)54-58
- 作者簡(jiǎn)介及在學(xué)期間所取得的科研成果58-59
- 致謝59
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 盧國(guó)祥;;歸一化Alignment距離[J];工程數(shù)學(xué)學(xué)報(bào);2014年01期
2 劉詠梅;彭琳;趙振軍;;基于小世界網(wǎng)絡(luò)的微博謠言傳播演進(jìn)研究[J];復(fù)雜系統(tǒng)與復(fù)雜性科學(xué);2014年04期
3 赫南;李德毅;淦文燕;朱熙;;復(fù)雜網(wǎng)絡(luò)中重要性節(jié)點(diǎn)發(fā)掘綜述[J];計(jì)算機(jī)科學(xué);2007年12期
4 胡健;董躍華;楊炳儒;;大型復(fù)雜網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)發(fā)現(xiàn)算法[J];計(jì)算機(jī)工程;2008年19期
5 何清;李寧;羅文娟;史忠植;;大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J];模式識(shí)別與人工智能;2014年04期
6 謝益輝;朱鈺;;Bootstrap方法的歷史發(fā)展和前沿研究[J];統(tǒng)計(jì)與信息論壇;2008年02期
7 魏瑞斌;陳丹丹;琚興;;高校機(jī)構(gòu)知識(shí)庫(kù)的應(yīng)用研究[J];知識(shí)管理論壇;2013年05期
8 周舒冬;張磊;李麗霞;;基于K近鄰的過(guò)抽樣算法在不平衡的醫(yī)學(xué)資料中的應(yīng)用[J];中國(guó)衛(wèi)生統(tǒng)計(jì);2008年06期
9 任卓明;邵鳳;劉建國(guó);郭強(qiáng);汪秉宏;;基于度與集聚系數(shù)的網(wǎng)絡(luò)節(jié)點(diǎn)重要性度量方法研究[J];物理學(xué)報(bào);2013年12期
10 胡兆龍;劉建國(guó);任卓明;;基于節(jié)點(diǎn)度信息的自愿免疫模型研究[J];物理學(xué)報(bào);2013年21期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 杜偉;機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用研究[D];吉林大學(xué);2011年
2 茍建平;模式分類的K-近鄰方法[D];電子科技大學(xué);2013年
本文編號(hào):675556
本文鏈接:http://sikaile.net/kejilunwen/yysx/675556.html