基于異構(gòu)網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)的人類必需基因預(yù)測算法研究
發(fā)布時間:2020-12-12 21:27
全基因組研究表明,基因組中有一小部分基因?qū)τ谟袡C(jī)體的生存和繁殖不可缺少,這些基因被稱為必需基因。必需基因?qū)τ诰S持生物體的生存和發(fā)育至關(guān)重要,如被敲除,將會導(dǎo)致其死亡或者不孕不育。對人類必需基因的識別不僅能夠了解人類生存和繁殖的最低要求而且有助于尋找人類疾病基因和新的藥物靶點。目前對必需基因的研究主要有兩種方法,即實驗方法和計算方法。實驗方法預(yù)測必需基因雖有效但價格昂貴且耗時費力,開發(fā)高效的計算方法預(yù)測必需基因是對實驗方法必要且有效的補(bǔ)充。傳統(tǒng)的計算方法常以單一特征指標(biāo)對人類必需基因進(jìn)行預(yù)測,預(yù)測精度普遍不高。本文在充分利用已有的多種預(yù)測必需基因網(wǎng)絡(luò)的基礎(chǔ)上,提出了整合異構(gòu)網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)的思想,將多個異構(gòu)網(wǎng)絡(luò)通過重啟動隨機(jī)游走算法融合成一新網(wǎng)絡(luò)。它充分考慮了基因在不同網(wǎng)絡(luò)間的各種關(guān)聯(lián)程度。實驗結(jié)果表明整合異構(gòu)網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)方法比基于單一網(wǎng)絡(luò)的預(yù)測模型能更準(zhǔn)確地預(yù)測人類必需基因。本文主要從兩階段來介紹人類必需基因的預(yù)測。第一階段是數(shù)據(jù)的前期收集與處理。在本階段,首先是從DEG數(shù)據(jù)庫和STRIGN數(shù)據(jù)庫分別獲取到人類必需基因、具有基因拓?fù)浣Y(jié)構(gòu)的六種異構(gòu)預(yù)測網(wǎng)絡(luò)。其次,利用重啟動隨機(jī)游走算法有效融...
【文章來源】:河北工業(yè)大學(xué)天津市 211工程院校
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
00維不同參綜上所述,300維的最優(yōu)參數(shù)對為C為確率為73.89%
河北工業(yè)大學(xué)碩士學(xué)位論文31據(jù)。懲罰因子C的取值范圍是[2-2,22],相應(yīng)的核函數(shù)參數(shù)g的取值范圍是[2-3,20],測試了20次,其中基數(shù)為2,步長為1,效果圖如圖5.2(A)所示。從圖5.2(A)中可以清晰的看到,在C取2,g取0.125時,取得最大正確率。進(jìn)一步分析可以得知,在g一定時,懲罰因子C與正確率acc成正比;在C一定時,核函數(shù)g與正確率acc成反比。為了進(jìn)一步尋優(yōu),保持C不變,將g的范圍改為[2-6,2-3],效果圖如圖5.2(B)所示。由圖5.2(B)可知,在g一定時,懲罰因子C與正確率acc之間存在波動性;在C一定時,核函數(shù)g與正確率acc之間也存在著波動性。繼而,將懲罰因子C的范圍改為[2-3,24],并且設(shè)置g的范圍為[2-4,2-3],效果圖如圖5.2(C)所示。綜合分析圖5.2(A)、圖5.2(B)和圖5.2(C),大體可以觀察到異構(gòu)網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)矩陣行維數(shù)為800維條件下最優(yōu)參數(shù)對的五種可能即C為2,g為0.125;C為1,g為1/64;C為2,g為1/32;C為1/16,g為1/16;C為1/16,g為1/32。效果圖如圖5.2(D)所示。圖5.2800維不同參數(shù)對對應(yīng)的正確率綜上所述,800維的數(shù)據(jù)在懲罰因子C為2,核函數(shù)g為0.125時取得最大正確率,最大正確率為69.99%。分析300維和800維測試效果,發(fā)現(xiàn)兩者有共同之處,即起始的取值范圍偏校ABCD
基于異構(gòu)網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)的人類必需基因預(yù)測算法研究32所以,在測試100維(dimn100)數(shù)據(jù)時,我們直接將懲罰因子的范圍設(shè)置為[2-2,26],相應(yīng)的也將核函數(shù)參數(shù)g的范圍設(shè)置為[2-6,20],共測試了63次,其中基數(shù)為2,步長為1,效果圖如圖5.3(A)所示。對圖5.3(A)分析可知,在g一定時,懲罰因子C在[2-2,21]范圍內(nèi)與正確率acc成正比;懲罰因子C在[22,26]范圍內(nèi)與正確率acc成反比;在C一定時,核函數(shù)g在[2-6,2-3]范圍內(nèi)與正確率acc成正比;核函數(shù)g在[2-2,20]范圍內(nèi)與正確率acc成反比?傮w看來,最優(yōu)的參數(shù)對有六組,即C為2,g為1/32;C為0.25,g為1/8;C為0.25,g為1/16;C為2,g為1/64;C為2,g為1/16;C為0.5,g為0.125。測試這六組數(shù)據(jù)的效果圖如圖5.3(B)所示。圖5.3100維不同參數(shù)對對應(yīng)的正確率綜上所述,異構(gòu)網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)矩陣行維數(shù)為100維的數(shù)據(jù)在懲罰因子C為0.5,核函數(shù)g為0.125時取得最大正確率,最大正確率為73.85%。對異構(gòu)網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)矩陣行維數(shù)為50維(dimn50)的數(shù)據(jù)也直接將懲罰因子C的范圍設(shè)置為[2-2,26],相應(yīng)的也將核函數(shù)的參數(shù)g的范圍設(shè)置為[2-6,20],共測試了63次,其中基數(shù)為2,步長為1,效果圖如圖5.4(A)所示。對圖5.4(A)分析可知,在g一定時,懲罰因子C在[2-2,22]范圍內(nèi)與正確率acc成正比;懲罰因子C在[23,26]范圍內(nèi)與正確率acc成反比;在C一定時,核函數(shù)g在[2-6,2-3]范圍內(nèi)與正確率acc成正比;核函數(shù)g在[2-2,20]時與正確率acc成反比。總體看來,最優(yōu)的參數(shù)對有6組,即C為2,g為1/64;C為2,g為1/32;C為2,g為1/16;C為2,g為1/8;C為8,g為0.5;C為2,g為0.25;這6組的效果圖如圖5.4(B)所示。AB
【參考文獻(xiàn)】:
期刊論文
[1]線粒體DNA異質(zhì)性[J]. 巫小倩,張順華,朱礪. 中國生物化學(xué)與分子生物學(xué)報. 2017(01)
[2]基于異構(gòu)網(wǎng)絡(luò)的標(biāo)簽傳播算法預(yù)測藥物靶點關(guān)系[J]. 閆效鶯,康磊,李潤洲. 計算機(jī)應(yīng)用研究. 2017(04)
[3]利用CRISPR/Cas9n系統(tǒng)構(gòu)建Asxl2基因敲除的NIH3T3穩(wěn)定細(xì)胞系[J]. 方佳萍,趙秀娟,齊艷,王璽,吳旭東,婁建石. 天津醫(yī)藥. 2015(10)
[4]ROC曲線法評價三種不同方法在斜視術(shù)后立體視功能檢測中應(yīng)用[J]. 姚婕穎,封利霞. 中國實用眼科雜志. 2014 (09)
[5]隨機(jī)森林理論淺析[J]. 董師師,黃哲學(xué). 集成技術(shù). 2013(01)
[6]SMOTE算法在不平衡數(shù)據(jù)中的應(yīng)用[J]. 孫濤,吳海豐,梁志剛,賀文,張鐳,呂平欣,郭秀花. 北京生物醫(yī)學(xué)工程. 2012 (05)
[7]ROC曲線評價酶免法檢測消化病患者幽門螺桿菌[J]. 王志紅,曹建彪,閆偉. 科學(xué)技術(shù)與工程. 2011(12)
[8]改進(jìn)支持向量機(jī)的商業(yè)銀行評級算法[J]. 芮麗梅. 企業(yè)導(dǎo)報. 2011(03)
[9]SVM分類核函數(shù)及參數(shù)選擇比較[J]. 奉國和. 計算機(jī)工程與應(yīng)用. 2011(03)
[10]基于隨機(jī)森林方法的基金收益率方向預(yù)測與交易策略研究[J]. 方匡南,朱建平,謝邦昌. 經(jīng)濟(jì)經(jīng)緯. 2010(02)
博士論文
[1]基于支持向量機(jī)的賴氨酸翻譯后修飾位點預(yù)測方法研究[D]. 鞠哲.大連理工大學(xué) 2016
[2]必需基因與復(fù)制起始點數(shù)據(jù)庫的建立及分析[D]. 羅昊.天津大學(xué) 2016
[3]計算方法識別必要基因的研究[D]. 程健.西北農(nóng)林科技大學(xué) 2014
[4]多維度多組分干預(yù)腦缺血藥理機(jī)制的比較研究[D]. 陳寅螢.中國中醫(yī)科學(xué)院 2013
[5]擬南芥和琴葉擬南芥中內(nèi)含子丟失和突變率關(guān)系[D]. 楊宇飛.北京師范大學(xué) 2013
[6]支持向量機(jī)若干算法研究及應(yīng)用[D]. 王朝勇.吉林大學(xué) 2008
碩士論文
[1]社交網(wǎng)絡(luò)好友推薦算法研究與應(yīng)用[D]. 周芝民.昆明理工大學(xué) 2016
[2]篩選必要基因預(yù)測的訓(xùn)練集及細(xì)菌致病菌藥物靶點的識別[D]. 趙麗.西北農(nóng)林科技大學(xué) 2015
[3]必要基因組功能和代謝途徑的比較研究[D]. 張崟雯.西北農(nóng)林科技大學(xué) 2013
[4]基于支持向量機(jī)的能源管理系統(tǒng)短期負(fù)荷預(yù)測[D]. 張鑫.長春工業(yè)大學(xué) 2010
[5]基于小波包和支持向量機(jī)的旋轉(zhuǎn)機(jī)械故障診斷方法研究[D]. 陳丹玲.江西理工大學(xué) 2010
[6]比較分析大腸桿菌K-12中的必要基因與非必要基因[D]. 鞏校東.西北農(nóng)林科技大學(xué) 2007
[7]支持向量機(jī)中若干優(yōu)化算法研究[D]. 邵小健.山東科技大學(xué) 2005
本文編號:2913303
【文章來源】:河北工業(yè)大學(xué)天津市 211工程院校
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
00維不同參綜上所述,300維的最優(yōu)參數(shù)對為C為確率為73.89%
河北工業(yè)大學(xué)碩士學(xué)位論文31據(jù)。懲罰因子C的取值范圍是[2-2,22],相應(yīng)的核函數(shù)參數(shù)g的取值范圍是[2-3,20],測試了20次,其中基數(shù)為2,步長為1,效果圖如圖5.2(A)所示。從圖5.2(A)中可以清晰的看到,在C取2,g取0.125時,取得最大正確率。進(jìn)一步分析可以得知,在g一定時,懲罰因子C與正確率acc成正比;在C一定時,核函數(shù)g與正確率acc成反比。為了進(jìn)一步尋優(yōu),保持C不變,將g的范圍改為[2-6,2-3],效果圖如圖5.2(B)所示。由圖5.2(B)可知,在g一定時,懲罰因子C與正確率acc之間存在波動性;在C一定時,核函數(shù)g與正確率acc之間也存在著波動性。繼而,將懲罰因子C的范圍改為[2-3,24],并且設(shè)置g的范圍為[2-4,2-3],效果圖如圖5.2(C)所示。綜合分析圖5.2(A)、圖5.2(B)和圖5.2(C),大體可以觀察到異構(gòu)網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)矩陣行維數(shù)為800維條件下最優(yōu)參數(shù)對的五種可能即C為2,g為0.125;C為1,g為1/64;C為2,g為1/32;C為1/16,g為1/16;C為1/16,g為1/32。效果圖如圖5.2(D)所示。圖5.2800維不同參數(shù)對對應(yīng)的正確率綜上所述,800維的數(shù)據(jù)在懲罰因子C為2,核函數(shù)g為0.125時取得最大正確率,最大正確率為69.99%。分析300維和800維測試效果,發(fā)現(xiàn)兩者有共同之處,即起始的取值范圍偏校ABCD
基于異構(gòu)網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)的人類必需基因預(yù)測算法研究32所以,在測試100維(dimn100)數(shù)據(jù)時,我們直接將懲罰因子的范圍設(shè)置為[2-2,26],相應(yīng)的也將核函數(shù)參數(shù)g的范圍設(shè)置為[2-6,20],共測試了63次,其中基數(shù)為2,步長為1,效果圖如圖5.3(A)所示。對圖5.3(A)分析可知,在g一定時,懲罰因子C在[2-2,21]范圍內(nèi)與正確率acc成正比;懲罰因子C在[22,26]范圍內(nèi)與正確率acc成反比;在C一定時,核函數(shù)g在[2-6,2-3]范圍內(nèi)與正確率acc成正比;核函數(shù)g在[2-2,20]范圍內(nèi)與正確率acc成反比?傮w看來,最優(yōu)的參數(shù)對有六組,即C為2,g為1/32;C為0.25,g為1/8;C為0.25,g為1/16;C為2,g為1/64;C為2,g為1/16;C為0.5,g為0.125。測試這六組數(shù)據(jù)的效果圖如圖5.3(B)所示。圖5.3100維不同參數(shù)對對應(yīng)的正確率綜上所述,異構(gòu)網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)矩陣行維數(shù)為100維的數(shù)據(jù)在懲罰因子C為0.5,核函數(shù)g為0.125時取得最大正確率,最大正確率為73.85%。對異構(gòu)網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)矩陣行維數(shù)為50維(dimn50)的數(shù)據(jù)也直接將懲罰因子C的范圍設(shè)置為[2-2,26],相應(yīng)的也將核函數(shù)的參數(shù)g的范圍設(shè)置為[2-6,20],共測試了63次,其中基數(shù)為2,步長為1,效果圖如圖5.4(A)所示。對圖5.4(A)分析可知,在g一定時,懲罰因子C在[2-2,22]范圍內(nèi)與正確率acc成正比;懲罰因子C在[23,26]范圍內(nèi)與正確率acc成反比;在C一定時,核函數(shù)g在[2-6,2-3]范圍內(nèi)與正確率acc成正比;核函數(shù)g在[2-2,20]時與正確率acc成反比。總體看來,最優(yōu)的參數(shù)對有6組,即C為2,g為1/64;C為2,g為1/32;C為2,g為1/16;C為2,g為1/8;C為8,g為0.5;C為2,g為0.25;這6組的效果圖如圖5.4(B)所示。AB
【參考文獻(xiàn)】:
期刊論文
[1]線粒體DNA異質(zhì)性[J]. 巫小倩,張順華,朱礪. 中國生物化學(xué)與分子生物學(xué)報. 2017(01)
[2]基于異構(gòu)網(wǎng)絡(luò)的標(biāo)簽傳播算法預(yù)測藥物靶點關(guān)系[J]. 閆效鶯,康磊,李潤洲. 計算機(jī)應(yīng)用研究. 2017(04)
[3]利用CRISPR/Cas9n系統(tǒng)構(gòu)建Asxl2基因敲除的NIH3T3穩(wěn)定細(xì)胞系[J]. 方佳萍,趙秀娟,齊艷,王璽,吳旭東,婁建石. 天津醫(yī)藥. 2015(10)
[4]ROC曲線法評價三種不同方法在斜視術(shù)后立體視功能檢測中應(yīng)用[J]. 姚婕穎,封利霞. 中國實用眼科雜志. 2014 (09)
[5]隨機(jī)森林理論淺析[J]. 董師師,黃哲學(xué). 集成技術(shù). 2013(01)
[6]SMOTE算法在不平衡數(shù)據(jù)中的應(yīng)用[J]. 孫濤,吳海豐,梁志剛,賀文,張鐳,呂平欣,郭秀花. 北京生物醫(yī)學(xué)工程. 2012 (05)
[7]ROC曲線評價酶免法檢測消化病患者幽門螺桿菌[J]. 王志紅,曹建彪,閆偉. 科學(xué)技術(shù)與工程. 2011(12)
[8]改進(jìn)支持向量機(jī)的商業(yè)銀行評級算法[J]. 芮麗梅. 企業(yè)導(dǎo)報. 2011(03)
[9]SVM分類核函數(shù)及參數(shù)選擇比較[J]. 奉國和. 計算機(jī)工程與應(yīng)用. 2011(03)
[10]基于隨機(jī)森林方法的基金收益率方向預(yù)測與交易策略研究[J]. 方匡南,朱建平,謝邦昌. 經(jīng)濟(jì)經(jīng)緯. 2010(02)
博士論文
[1]基于支持向量機(jī)的賴氨酸翻譯后修飾位點預(yù)測方法研究[D]. 鞠哲.大連理工大學(xué) 2016
[2]必需基因與復(fù)制起始點數(shù)據(jù)庫的建立及分析[D]. 羅昊.天津大學(xué) 2016
[3]計算方法識別必要基因的研究[D]. 程健.西北農(nóng)林科技大學(xué) 2014
[4]多維度多組分干預(yù)腦缺血藥理機(jī)制的比較研究[D]. 陳寅螢.中國中醫(yī)科學(xué)院 2013
[5]擬南芥和琴葉擬南芥中內(nèi)含子丟失和突變率關(guān)系[D]. 楊宇飛.北京師范大學(xué) 2013
[6]支持向量機(jī)若干算法研究及應(yīng)用[D]. 王朝勇.吉林大學(xué) 2008
碩士論文
[1]社交網(wǎng)絡(luò)好友推薦算法研究與應(yīng)用[D]. 周芝民.昆明理工大學(xué) 2016
[2]篩選必要基因預(yù)測的訓(xùn)練集及細(xì)菌致病菌藥物靶點的識別[D]. 趙麗.西北農(nóng)林科技大學(xué) 2015
[3]必要基因組功能和代謝途徑的比較研究[D]. 張崟雯.西北農(nóng)林科技大學(xué) 2013
[4]基于支持向量機(jī)的能源管理系統(tǒng)短期負(fù)荷預(yù)測[D]. 張鑫.長春工業(yè)大學(xué) 2010
[5]基于小波包和支持向量機(jī)的旋轉(zhuǎn)機(jī)械故障診斷方法研究[D]. 陳丹玲.江西理工大學(xué) 2010
[6]比較分析大腸桿菌K-12中的必要基因與非必要基因[D]. 鞏校東.西北農(nóng)林科技大學(xué) 2007
[7]支持向量機(jī)中若干優(yōu)化算法研究[D]. 邵小健.山東科技大學(xué) 2005
本文編號:2913303
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2913303.html
最近更新
教材專著