基于密度聚類算法和等距離映射預測蛋白質(zhì)功能模塊算法的研究
發(fā)布時間:2020-06-05 09:33
【摘要】:一個生命體內(nèi)所有蛋白質(zhì)之間的相互作用形成了蛋白質(zhì)相互作用(Protein-Protein Int eraction,PPI)網(wǎng)絡(luò),利用該網(wǎng)絡(luò)可以識別與分析細胞環(huán)境中蛋白質(zhì)分子的相互作用,以便深入理解蛋白質(zhì)分子相互作用與執(zhí)行功能的機制,幫助預測未知的蛋白質(zhì)功能。智能優(yōu)化算法在蛋白質(zhì)功能預測研究領(lǐng)域已經(jīng)得到深入研究,但是蛋白質(zhì)功能預測的精確率、執(zhí)行效率還有待提高,并且PPI網(wǎng)絡(luò)中各種數(shù)據(jù)噪聲影響也是一個問題。聚類算法是智能優(yōu)化算法在蛋白質(zhì)功能預測研究中的重要部分,因此本文通過研究已有基于PPI網(wǎng)絡(luò)的聚類算法,深入了解各種聚類算法的優(yōu)缺點,然后針對當前存在問題,提出基于密度聚類算法和等距離映射的蛋白質(zhì)功能模塊預測算法。本文所做主要工作如下所述。(1)基于PPI網(wǎng)絡(luò)的聚類算法分類及比較。本文根據(jù)PPI網(wǎng)絡(luò)的特征屬性將其劃分為基于PPI網(wǎng)絡(luò)的單元聚類算法和基于PPI網(wǎng)絡(luò)的多元聚類算法。根據(jù)蛋白質(zhì)功能模塊檢測算法涉及單個蛋白質(zhì)元素特征或考慮多個蛋白質(zhì)特征本文把這些聚類算法分為單元聚類算法和多元聚類算法。單元聚類算法是逐個考慮每個蛋白質(zhì)元素的特征,再對數(shù)據(jù)進行聚類;多元聚類算法是同時考慮多個蛋白質(zhì)元素特征,綜合多個特征進行聚類,從而得到不同的簇。(2)近些年來密度聚類算法廣泛應用到蛋白質(zhì)功能模塊預測中,傳統(tǒng)的密度聚類算法存在聚類精確度低和執(zhí)行效率低的問題,首先對密度聚類算法進行改進,對PPI網(wǎng)絡(luò)中低密度局部節(jié)點區(qū)域搜索能力進行改進,該算法對PPI網(wǎng)絡(luò)進行聚類,獲得其蛋白質(zhì)功能模塊的簇。密度聚類算法每次聚類時從局部最大密度數(shù)據(jù)出發(fā)進行聚類分析,最后獲得蛋白質(zhì)功能模塊。(3)由于聚類分析后所獲得的蛋白質(zhì)簇維數(shù)過高,影響最終蛋白質(zhì)功能模塊預測的結(jié)果。針對這一個問題,對等距映射降維算法進行改進。根據(jù)局部線性原理,利用任意簇的圖形建立矩陣;利用MDS算法獲取高維數(shù)據(jù)的低維表示,使得降維后數(shù)據(jù)點之間保持高維數(shù)據(jù)點之間的測地線距離關(guān)系。最后完成高維到低維的數(shù)據(jù)處理。(4)針對目前預測蛋白質(zhì)功能模塊算法的精確率、執(zhí)行效率及數(shù)據(jù)噪聲問題,提出基于密度聚類算法和等距離映射的蛋白質(zhì)功能模塊預測算法。根據(jù)PPI網(wǎng)絡(luò)中的核心節(jié)點、各節(jié)點位置、PPI網(wǎng)絡(luò)結(jié)構(gòu)這三個重要信息作為預測蛋白質(zhì)功能模塊的重要屬性,使用上述改進密度聚類算法進行聚類分析,再使用上述改進等距映射降維算法對聚類后的數(shù)據(jù)進行主成份分析。然后利用多層感知器進行訓練。最后對所提出的算法和現(xiàn)在幾種主流預測蛋白質(zhì)功能模塊算法進行數(shù)據(jù)實驗,實驗結(jié)果表明所提出算法比當前主流算法在精確率、執(zhí)行效及降低數(shù)據(jù)噪聲方面均具有明顯提高,表明所提出算法在改善這個三個指標方面是有效的。綜上所述,針對目前智能算法在基于PPI網(wǎng)絡(luò)的蛋白質(zhì)功能預測研究領(lǐng)域存在的問題,本文通過對智能算法中的各種聚類算法進行比較研究,然后在此基礎(chǔ)上提出基于密度聚類和等距離映射的蛋白質(zhì)功能預測算法,數(shù)據(jù)實驗表明該算法是有效的;赑PI網(wǎng)絡(luò)的蛋白質(zhì)功能預測研究領(lǐng)域還有很多問題,還需要進行深入研究。
【圖文】:
南寧師范大學碩士學位論文1,0,ijY 預測功能模塊被功能術(shù)語注釋預測功能模塊未被功能術(shù)語注釋述定義,以PPI網(wǎng)絡(luò)為樣本、已知蛋白質(zhì)功能模塊術(shù)語為樣本標簽,將預化為多標簽二分類問題。密度聚類和等距映射蛋白質(zhì)功能模塊算法基本流程1所示,LPMM算法總共分成四個部分:數(shù)據(jù)的輸入、訓練模型、功能模塊先,輸入的數(shù)據(jù)為已知蛋白質(zhì)功能模塊相互作用注釋術(shù)語數(shù)據(jù)和PPI網(wǎng)絡(luò)置、PPI網(wǎng)絡(luò)結(jié)構(gòu)、核心節(jié)點),然后將所輸入的數(shù)據(jù)進行歸一化處理;分類器本別進行訓練、分類;最后,,選擇功能模塊、輸出預測結(jié)果。
圖4-2 DBSCAN算法流程BSCAN算法存在兩個缺點,第一,DBSCAN算法需要在沒先驗的條件下進行對領(lǐng)域半徑d和的設(shè)置,這兩個參數(shù)影響著聚類結(jié)果的形成,特別在PPI網(wǎng)絡(luò)節(jié)點不是特別稠密時,會的數(shù)據(jù)噪聲;第二,DBSCAN算法在處理大規(guī)模數(shù)據(jù)的時間復雜度較高。2 改進密度聚類算法的描述BSCAN算法存在數(shù)據(jù)噪聲和時間復雜度較高等問題。本文對密度聚類算法改進(Localy-Based Methods,LDBM),LDBM算法首先計算局部最大密度,將局部最大密度作為第節(jié)點進行聚類,形成第一個簇;然后再從剩余未被聚類的PPI網(wǎng)絡(luò)節(jié)點中找出最大密度一個簇的最大密度核心節(jié)點進行聚類;反復進行上述過程,最后設(shè)定一個閾值條件,PI網(wǎng)絡(luò)的局部密度達到所限定閾值時不再繼續(xù)進行聚類,將稀疏的PPI網(wǎng)絡(luò)節(jié)點作為噪
【學位授予單位】:南寧師范大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:Q811.4;TP311.13
【圖文】:
南寧師范大學碩士學位論文1,0,ijY 預測功能模塊被功能術(shù)語注釋預測功能模塊未被功能術(shù)語注釋述定義,以PPI網(wǎng)絡(luò)為樣本、已知蛋白質(zhì)功能模塊術(shù)語為樣本標簽,將預化為多標簽二分類問題。密度聚類和等距映射蛋白質(zhì)功能模塊算法基本流程1所示,LPMM算法總共分成四個部分:數(shù)據(jù)的輸入、訓練模型、功能模塊先,輸入的數(shù)據(jù)為已知蛋白質(zhì)功能模塊相互作用注釋術(shù)語數(shù)據(jù)和PPI網(wǎng)絡(luò)置、PPI網(wǎng)絡(luò)結(jié)構(gòu)、核心節(jié)點),然后將所輸入的數(shù)據(jù)進行歸一化處理;分類器本別進行訓練、分類;最后,,選擇功能模塊、輸出預測結(jié)果。
圖4-2 DBSCAN算法流程BSCAN算法存在兩個缺點,第一,DBSCAN算法需要在沒先驗的條件下進行對領(lǐng)域半徑d和的設(shè)置,這兩個參數(shù)影響著聚類結(jié)果的形成,特別在PPI網(wǎng)絡(luò)節(jié)點不是特別稠密時,會的數(shù)據(jù)噪聲;第二,DBSCAN算法在處理大規(guī)模數(shù)據(jù)的時間復雜度較高。2 改進密度聚類算法的描述BSCAN算法存在數(shù)據(jù)噪聲和時間復雜度較高等問題。本文對密度聚類算法改進(Localy-Based Methods,LDBM),LDBM算法首先計算局部最大密度,將局部最大密度作為第節(jié)點進行聚類,形成第一個簇;然后再從剩余未被聚類的PPI網(wǎng)絡(luò)節(jié)點中找出最大密度一個簇的最大密度核心節(jié)點進行聚類;反復進行上述過程,最后設(shè)定一個閾值條件,PI網(wǎng)絡(luò)的局部密度達到所限定閾值時不再繼續(xù)進行聚類,將稀疏的PPI網(wǎng)絡(luò)節(jié)點作為噪
【學位授予單位】:南寧師范大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:Q811.4;TP311.13
【參考文獻】
相關(guān)期刊論文 前7條
1 張毅;;基于神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)序列分類算法研究[J];計算機與數(shù)字工程;2012年06期
2 吳超;鐘一文;;蛋白質(zhì)功能預測的蟻群優(yōu)化算法[J];廣西師范大學學報(自然科學版);2011年03期
3 林曉麗;;神經(jīng)網(wǎng)絡(luò)在蛋白質(zhì)折疊預測中的應用[J];科技創(chuàng)業(yè)月刊;2011年04期
4 曲良東;何登旭;;一種混沌人工魚群優(yōu)化算法[J];計算機工程與應用;2010年22期
5 李松倍;謝江;張武;武頻;;蛋白質(zhì)相互作用網(wǎng)絡(luò)的相似子網(wǎng)搜索問題研究[J];計算機工程與應用;2010年03期
6 劉智s
本文編號:2697848
本文鏈接:http://sikaile.net/projectlw/swxlw/2697848.html
最近更新
教材專著