基于腫瘤RNA-Seq數(shù)據(jù)識別融合基因的方法研究
發(fā)布時間:2017-08-05 08:38
本文關鍵詞:基于腫瘤RNA-Seq數(shù)據(jù)識別融合基因的方法研究
更多相關文章: 融合基因 人類癌癥 二代測序 序列比對 檢測算法
【摘要】:融合基因是指兩個基因的編碼區(qū)首尾相連構成的嵌合基因。當染色體發(fā)生易位、重排或者缺失時,都有可能產(chǎn)生融合基因。融合基因編碼的蛋白通常具有致癌性,會影響細胞的正常生理功能,是導致癌癥的主要原因之一。目前,在肺癌、甲狀腺、乳腺癌等疾病中,都發(fā)現(xiàn)了融合基因的存在。若能成功檢測融合基因,將有助于癌癥診斷,甚至是癌癥治療。二代測序技術的出現(xiàn),使得從基因組水平檢測融合基因成為了可能。通過分析融合基因測序讀段特征,尋找融合基因和正常基因測序讀段的差異,開發(fā)出了一種新的融合基因檢測算法:GFusion。其采取了分割比對的方法,首先使用Bowtie、Tophat等軟件,將讀段比對到人類參考基因組,得到SAM文件并從中提取出沒有比對信息的讀段。其次,將這些未比對上的讀段,采用序列分割的方法創(chuàng)建人工雙端讀段,再重新比對這些雙端讀段,以此定位其來源基因及外顯子信息。然后,對這些人工雙端讀段進行多重過濾篩選,從而得到候選的融合基因及融合讀段。最后將候選的融合讀段比對到重建的bowtie參考索引中,得到最終確認的融合基因及融合讀段。與現(xiàn)有的融合基因檢測軟件Tophat-Fusion、FusionMap等相比,GFusion的過濾校驗標準使用了復雜的雙端映射匹配信息以及重構的讀段比對bowtie索引,使融合基因檢測結果更加可靠。為了測試GFusion的性能,使用人類乳腺癌細胞系,正常乳腺細胞系,慢性粒細胞白血病K-562細胞系的RNA-Seq數(shù)據(jù)做了分析。GFusion成功檢測到實驗證實的融合基因,并預測到了部分新的融合基因。在人類乳腺癌細胞系23個實驗證實的融合基因中,GFusion檢測到了其中20個。在K-562細胞系中,成功發(fā)現(xiàn)了BCR-ABL1融合基因,這與研究證明的慢性粒細胞白血病病因相吻合。為了與已有的融合基因檢測軟件Tophat-fusion、FusionMap比較,還將人類胚胎干細胞數(shù)據(jù)和融合讀段相混合創(chuàng)建了模擬數(shù)據(jù)集。經(jīng)過數(shù)據(jù)結果,敏感度,假陽性率,以及融合基因支持的讀段數(shù)量比較,發(fā)現(xiàn)GFusion對于融合基因檢測效果更加明顯。GFusion通過引入雙端映射匹配信息,使融合基因的過濾篩選更加嚴格,不僅具有較高的敏感度,還具有較低的假陽性率。
【關鍵詞】:融合基因 人類癌癥 二代測序 序列比對 檢測算法
【學位授予單位】:南京航空航天大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:R73-3
【目錄】:
- 摘要4-5
- ABSTRACT5-12
- 第一章 緒論12-17
- 1.1 引言12
- 1.2 融合基因形成12-13
- 1.3 融合基因與癌癥關系13-14
- 1.4 融合基因檢測及對癌癥治療作用14
- 1.5 論文研究的關鍵問題14-15
- 1.6 論文的研究內(nèi)容與安排15-16
- 1.7 本章小結16-17
- 第二章 二代測序技術介紹17-26
- 2.1 引言17
- 2.2 二代測序技術介紹17-21
- 2.2.1 二代測序技術應用17
- 2.2.2 RNA-Seq技術簡介17-18
- 2.2.3 測序平臺18-19
- 2.2.4 雙端數(shù)據(jù)和單端數(shù)據(jù)19-20
- 2.2.5 測序結果數(shù)據(jù)格式20-21
- 2.3 第二代測序數(shù)據(jù)處理工具21-25
- 2.3.1 Bowtie21-22
- 2.3.2 Tophat22-23
- 2.3.3 Samtools23
- 2.3.4 SAM格式23-25
- 2.4 本章小結25-26
- 第三章 融合基因檢測方法研究26-41
- 3.1 引言26
- 3.2 基于二代測序融合基因識別軟件26-27
- 3.2.1 FusionSeq26
- 3.2.2 FusionMap26-27
- 3.2.3 Tophat-fusion27
- 3.3 讀段表現(xiàn)形式27-31
- 3.3.1 正常讀段映射27-29
- 3.3.2 融合基因讀段比對29-31
- 3.4 雙端數(shù)據(jù)比對方法31-38
- 3.4.1 將RNA-Seq數(shù)據(jù)比對到人類參考基因組31-32
- 3.4.2 提取discordant pair信息32-33
- 3.4.3 創(chuàng)建人工雙端讀段33-34
- 3.4.4 anchor比對34-35
- 3.4.5 定位來源基因及融合邊界確認35-36
- 3.4.6 過濾36-37
- 3.4.7 確認spanning read37
- 3.4.8 建立bowtie索引和重比對37-38
- 3.5 單端數(shù)據(jù)比對方法38-40
- 3.6 算法優(yōu)勢40
- 3.7 本章小結40-41
- 第四章 基于人類腫瘤RNA-Seq數(shù)據(jù)檢測融合基因41-56
- 4.1 引言41
- 4.2 雙端測序數(shù)據(jù)41-47
- 4.2.1 數(shù)據(jù)來源41-42
- 4.2.2 結果分析42-47
- 4.3 單端測序數(shù)據(jù)47-48
- 4.4 模擬數(shù)據(jù)集及假陽性分析48-54
- 4.4.1 模擬背景數(shù)據(jù)48-49
- 4.4.2 模擬融合基因數(shù)據(jù)集49-50
- 4.4.3 敏感度和假陽性率分析50-51
- 4.4.4 結果比較分析51-52
- 4.4.5 讀段數(shù)量影響52-54
- 4.5 本章小結54-56
- 第五章 總結和展望56-58
- 5.1 研究方案與創(chuàng)新性56
- 5.2 本文工作總結56-57
- 5.3 后續(xù)研究工作展望57-58
- 參考文獻58-64
- 致謝64-65
- 在學期間的研究成果及學術論文情況65
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 謝仲秋;曾勇;;融合基因與腫瘤[J];腫瘤藥學;2014年06期
2 楊旭;焦睿;楊琳;吳莉萍;李英睿;王俊;;基于新一代高通量技術的人類疾病組學研究策略[J];遺傳;2011年08期
3 李曉非;李冬玲;施巧霞;陳育林;吳芳華;;三種檢測方法對結核病診斷價值的比較研究[J];實用醫(yī)技雜志;2008年04期
4 劉萬清,賀林;SNP-為人類基因組描繪新的藍圖[J];遺傳;1998年06期
,本文編號:624018
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/624018.html
最近更新
教材專著