基于異質(zhì)網(wǎng)絡(luò)的基因相似性搜索方法的研究與設(shè)計(jì)
發(fā)布時(shí)間:2020-04-01 07:29
【摘要】:隨著基因測序技術(shù)的發(fā)展,基因數(shù)據(jù)呈現(xiàn)出迅猛增長的趨勢,在這種情況下,通過生物學(xué)實(shí)驗(yàn)方法發(fā)現(xiàn)相似基因效率比較低,而基于異質(zhì)網(wǎng)絡(luò)結(jié)構(gòu)研究基因相似性搜索算法已經(jīng)成為生物信息學(xué)研究的熱點(diǎn)。在基因-疾病-表型形成的異質(zhì)網(wǎng)中,挖掘疾病、表型間潛在的關(guān)聯(lián)信息、合理量化節(jié)點(diǎn)間鏈接權(quán)重對基于pathSim算法探究基因相似性起到了至關(guān)重要的作用。然而,現(xiàn)有研究在基于pathSim算法探究基因相似性時(shí)很少考慮以上兩個(gè)因素,導(dǎo)致鏈接稀疏性問題,使得基因相似性計(jì)算結(jié)果的準(zhǔn)確率比較低。為解決以上不足,本文提出一種改進(jìn)的加權(quán)元路徑基因相似性搜索算法gSim-Search。本文的研究內(nèi)容包括:(1)針對目前研究存在對疾病、表型自身潛在的關(guān)聯(lián)信息考慮不夠全面的問題,本文從語義關(guān)聯(lián)和拓?fù)潢P(guān)聯(lián)兩個(gè)方面去研究疾病、表型的自身相關(guān)性。對于疾病、表型的語義關(guān)聯(lián)計(jì)算,采用一種語義貢獻(xiàn)圖的方法,在疾病、表型各自形成的有向無環(huán)圖中,分別通過計(jì)算不同疾病或者表型祖先節(jié)點(diǎn)對某一具體疾病或者表型的最大語義貢獻(xiàn)值來衡量疾病、表型的語義關(guān)聯(lián)性。對于疾病、表型的拓?fù)潢P(guān)聯(lián)計(jì)算,分別基于基因-疾病網(wǎng)絡(luò)、疾病-表型網(wǎng)絡(luò),采用高斯核相似性進(jìn)行疾病與疾病、表型與表型相似性的計(jì)算。然后,將語義關(guān)聯(lián)矩陣和拓?fù)湎嗨菩跃仃囘M(jìn)行融合獲得疾病和表型各自的關(guān)聯(lián)矩陣。(2)針對基因-疾病-表型異質(zhì)網(wǎng)中鏈路稀疏并且沒有合理量化鏈路關(guān)聯(lián)程度的問題,本文采用二部圖算法探究鏈路之間的關(guān)聯(lián)程度。首先,將融合后的疾病、表型的關(guān)聯(lián)網(wǎng)絡(luò)通過構(gòu)建資源擴(kuò)散矩陣的方式融入基因-疾病-表型異質(zhì)網(wǎng)中。然后,基于資源擴(kuò)散矩陣,采用二部圖的方法實(shí)現(xiàn)資源的非均等擴(kuò)散,為了保證原有的基因-疾病、疾病-表型的拓?fù)潢P(guān)聯(lián)關(guān)系不被破壞,本文在不削弱已有鏈接關(guān)聯(lián)程度的情況下,合理量化潛在鏈接的關(guān)聯(lián)程度。(3)通過以上工作,構(gòu)建了一個(gè)蘊(yùn)含豐富生物信息的加權(quán)異質(zhì)網(wǎng)絡(luò),在此基礎(chǔ)上,利用pathSim算法基于路徑實(shí)例權(quán)重計(jì)算基因的相似性。為了驗(yàn)證gSim-Search算法的有效性,本文選擇直接鄰居法作為算法評價(jià)標(biāo)準(zhǔn)。通過對比實(shí)驗(yàn)證明,本文算法在乳腺癌和肥胖癥兩種基因相似度計(jì)算和排名時(shí)大幅度提高了預(yù)測致病基因相似性的準(zhǔn)確率。比如,在top20排名時(shí),乳腺癌致病基因相似性的準(zhǔn)確率提高了10%,肥胖癥致病基因的準(zhǔn)確率提高了20%。并且,在預(yù)測致病基因相似性的準(zhǔn)確率方面,本文算法計(jì)算結(jié)果普遍高于其他算法的計(jì)算結(jié)果,充分驗(yàn)證了算法的有效性。
【圖文】:
圖 2-3 OMIM 數(shù)據(jù)庫條目信息Fig. 2-3 OMIM database entry information圖 2-4 疾病本體術(shù)語Fig. 2-4 Disease ontology terms圖 2-5 HPO 中疾病-基因-表型關(guān)系Fig. 2-5 Disease-gene-phenotype relationship in HPO關(guān)聯(lián)權(quán)重的計(jì)算方法
圖 2-4 疾病本體術(shù)語Fig. 2-4 Disease ontology terms圖 2-5 HPO 中疾病-基因-表型關(guān)系Fig. 2-5 Disease-gene-phenotype relationship in HPO 節(jié)點(diǎn)間關(guān)聯(lián)權(quán)重的計(jì)算方法目前計(jì)算兩類不同節(jié)點(diǎn)之間鏈接關(guān)聯(lián)權(quán)重的常用方法是二部圖算法[35,3的模型也稱二分網(wǎng)絡(luò)模型,,是指一個(gè)圖中包含兩種類型的節(jié)點(diǎn)集,并且集中節(jié)點(diǎn)之間沒有鏈接關(guān)系,同時(shí)該圖中任意一條邊的兩個(gè)頂點(diǎn)分別屬節(jié)點(diǎn)集,如圖 2-6 所示。A B
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:Q811.4
本文編號:2610155
【圖文】:
圖 2-3 OMIM 數(shù)據(jù)庫條目信息Fig. 2-3 OMIM database entry information圖 2-4 疾病本體術(shù)語Fig. 2-4 Disease ontology terms圖 2-5 HPO 中疾病-基因-表型關(guān)系Fig. 2-5 Disease-gene-phenotype relationship in HPO關(guān)聯(lián)權(quán)重的計(jì)算方法
圖 2-4 疾病本體術(shù)語Fig. 2-4 Disease ontology terms圖 2-5 HPO 中疾病-基因-表型關(guān)系Fig. 2-5 Disease-gene-phenotype relationship in HPO 節(jié)點(diǎn)間關(guān)聯(lián)權(quán)重的計(jì)算方法目前計(jì)算兩類不同節(jié)點(diǎn)之間鏈接關(guān)聯(lián)權(quán)重的常用方法是二部圖算法[35,3的模型也稱二分網(wǎng)絡(luò)模型,,是指一個(gè)圖中包含兩種類型的節(jié)點(diǎn)集,并且集中節(jié)點(diǎn)之間沒有鏈接關(guān)系,同時(shí)該圖中任意一條邊的兩個(gè)頂點(diǎn)分別屬節(jié)點(diǎn)集,如圖 2-6 所示。A B
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:Q811.4
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 寧康;陳挺;;生物醫(yī)學(xué)大數(shù)據(jù)的現(xiàn)狀與展望[J];科學(xué)通報(bào);2015年Z1期
相關(guān)博士學(xué)位論文 前1條
1 徐云剛;microRNA和基因功能網(wǎng)絡(luò)構(gòu)建與分析方法[D];哈爾濱工業(yè)大學(xué);2014年
相關(guān)碩士學(xué)位論文 前6條
1 王詩鳴;MiRNA-疾病關(guān)聯(lián)關(guān)系算法研究[D];哈爾濱工業(yè)大學(xué);2017年
2 黃聰;基于多信息融合的miRNA-target調(diào)控關(guān)系預(yù)測算法研究[D];湖南大學(xué);2017年
3 白坤;基于本體與基因網(wǎng)絡(luò)的致病基因預(yù)測研究[D];哈爾濱工業(yè)大學(xué);2016年
4 邵玉凱;基于人類表型本體的基因和疾病關(guān)聯(lián)關(guān)系分析方法研究[D];哈爾濱工業(yè)大學(xué);2015年
5 吉爍;基于拓?fù)浜驼Z義相似性的疾病基因識別算法[D];西安電子科技大學(xué);2013年
6 王剛;基于疾病表型的基因語義相似性分析與應(yīng)用[D];西安電子科技大學(xué);2012年
本文編號:2610155
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2610155.html
最近更新
教材專著