基于異構(gòu)信息融合的致病基因預(yù)測(cè)算法研究
發(fā)布時(shí)間:2021-07-12 04:50
復(fù)雜疾病嚴(yán)重影響人的身心健康,發(fā)現(xiàn)疾病致病基因是醫(yī)學(xué)領(lǐng)域一直以來的研究目標(biāo)。隨著生物信息學(xué)的出現(xiàn)及生物技術(shù)的快速發(fā)展,為了克服傳統(tǒng)生物醫(yī)學(xué)方法實(shí)驗(yàn)周期長(zhǎng)、成本高等固有困難,研究者提出許多利用大量生物數(shù)據(jù)挖掘疾病致病基因的基因優(yōu)先排序算法。但由于目前已知的基因-疾病關(guān)聯(lián)矩陣仍然非常稀疏,并且缺少基因-疾病之間無(wú)關(guān)的證據(jù),對(duì)基因優(yōu)先排序算法預(yù)測(cè)性能造成一定影響。基于功能相近的基因突變可能引發(fā)類似的疾病這一假設(shè),本文提出一種基于異構(gòu)信息融合的PU歸納矩陣補(bǔ)全算法PUIMCHIF(PU Induction Matrix Completion with Heterogeneous Information Fusion)預(yù)測(cè)人類疾病的候選致病基因。一方面,PUIMCHIF使用不同的緊湊特征學(xué)習(xí)方法從多種數(shù)據(jù)源提取基因和疾病的特征,彌補(bǔ)數(shù)據(jù)稀疏的不足。具體地,使用帶重啟的隨機(jī)游走和擴(kuò)散分量分析方法學(xué)習(xí)基因和疾病低維的網(wǎng)絡(luò)特征;使用去噪自編碼對(duì)基因和疾病的高維數(shù)據(jù)特征進(jìn)行降維。另一方面,基于未知的基因-疾病關(guān)聯(lián)關(guān)系中多數(shù)是無(wú)關(guān)關(guān)系的先驗(yàn)知識(shí),我們采用PU-Learning的策略,將未知的無(wú)標(biāo)記數(shù)據(jù)視為...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基因與疾病的關(guān)系示意
哈爾濱工業(yè)大學(xué)碩士學(xué)位論文該算法同時(shí)對(duì)表現(xiàn)型和基因進(jìn)行排病相關(guān)的基因和表型,并且選擇排型。因此,與該表型相關(guān)的疾病應(yīng)該因、表現(xiàn)型和基因-表現(xiàn)型三個(gè)數(shù)據(jù)PI 數(shù)據(jù),如果編碼的蛋白質(zhì)相互作使用 MimMiner 計(jì)算方法。每個(gè)表相應(yīng)的相似度評(píng)分對(duì)邊緣進(jìn)行加權(quán)。相關(guān)基因連接構(gòu)建異構(gòu)網(wǎng)絡(luò),如圖
圖 2-2 Katz 異構(gòu)網(wǎng)絡(luò)示意圖基于圖的算法,假設(shè)已知一個(gè)無(wú)向無(wú)權(quán)圖的對(duì)稱鄰示圖中節(jié)點(diǎn) i 與節(jié)點(diǎn) j 是連接的,同理 0ijA 表示圖的。那么計(jì)算圖中任意兩個(gè)節(jié)點(diǎn)之間的相似性的方點(diǎn) j 不同路徑長(zhǎng)度條數(shù)獲得,可以用矩陣的冪 lA 計(jì)不同長(zhǎng)度路徑,得到一個(gè)單一的相似性度量。因l ,則節(jié)點(diǎn) 與節(jié)點(diǎn) j 相似性被定義為: 1 klij lijlS β A 個(gè)常數(shù),用于抑制較長(zhǎng)的路徑長(zhǎng)度。則整個(gè)相似性 1 klllS β A 1]的研究,我們可以把 S 看作根據(jù)級(jí)數(shù)展開定義的 k ,只需要滿足當(dāng) l 時(shí), 0β 。則根據(jù)β
本文編號(hào):3279237
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基因與疾病的關(guān)系示意
哈爾濱工業(yè)大學(xué)碩士學(xué)位論文該算法同時(shí)對(duì)表現(xiàn)型和基因進(jìn)行排病相關(guān)的基因和表型,并且選擇排型。因此,與該表型相關(guān)的疾病應(yīng)該因、表現(xiàn)型和基因-表現(xiàn)型三個(gè)數(shù)據(jù)PI 數(shù)據(jù),如果編碼的蛋白質(zhì)相互作使用 MimMiner 計(jì)算方法。每個(gè)表相應(yīng)的相似度評(píng)分對(duì)邊緣進(jìn)行加權(quán)。相關(guān)基因連接構(gòu)建異構(gòu)網(wǎng)絡(luò),如圖
圖 2-2 Katz 異構(gòu)網(wǎng)絡(luò)示意圖基于圖的算法,假設(shè)已知一個(gè)無(wú)向無(wú)權(quán)圖的對(duì)稱鄰示圖中節(jié)點(diǎn) i 與節(jié)點(diǎn) j 是連接的,同理 0ijA 表示圖的。那么計(jì)算圖中任意兩個(gè)節(jié)點(diǎn)之間的相似性的方點(diǎn) j 不同路徑長(zhǎng)度條數(shù)獲得,可以用矩陣的冪 lA 計(jì)不同長(zhǎng)度路徑,得到一個(gè)單一的相似性度量。因l ,則節(jié)點(diǎn) 與節(jié)點(diǎn) j 相似性被定義為: 1 klij lijlS β A 個(gè)常數(shù),用于抑制較長(zhǎng)的路徑長(zhǎng)度。則整個(gè)相似性 1 klllS β A 1]的研究,我們可以把 S 看作根據(jù)級(jí)數(shù)展開定義的 k ,只需要滿足當(dāng) l 時(shí), 0β 。則根據(jù)β
本文編號(hào):3279237
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/3279237.html
最近更新
教材專著