基于腫瘤RNA-Seq數(shù)據(jù)識(shí)別融合基因的方法研究
發(fā)布時(shí)間:2017-08-05 08:38
本文關(guān)鍵詞:基于腫瘤RNA-Seq數(shù)據(jù)識(shí)別融合基因的方法研究
更多相關(guān)文章: 融合基因 人類癌癥 二代測(cè)序 序列比對(duì) 檢測(cè)算法
【摘要】:融合基因是指兩個(gè)基因的編碼區(qū)首尾相連構(gòu)成的嵌合基因。當(dāng)染色體發(fā)生易位、重排或者缺失時(shí),都有可能產(chǎn)生融合基因。融合基因編碼的蛋白通常具有致癌性,會(huì)影響細(xì)胞的正常生理功能,是導(dǎo)致癌癥的主要原因之一。目前,在肺癌、甲狀腺、乳腺癌等疾病中,都發(fā)現(xiàn)了融合基因的存在。若能成功檢測(cè)融合基因,將有助于癌癥診斷,甚至是癌癥治療。二代測(cè)序技術(shù)的出現(xiàn),使得從基因組水平檢測(cè)融合基因成為了可能。通過分析融合基因測(cè)序讀段特征,尋找融合基因和正;驕y(cè)序讀段的差異,開發(fā)出了一種新的融合基因檢測(cè)算法:GFusion。其采取了分割比對(duì)的方法,首先使用Bowtie、Tophat等軟件,將讀段比對(duì)到人類參考基因組,得到SAM文件并從中提取出沒有比對(duì)信息的讀段。其次,將這些未比對(duì)上的讀段,采用序列分割的方法創(chuàng)建人工雙端讀段,再重新比對(duì)這些雙端讀段,以此定位其來源基因及外顯子信息。然后,對(duì)這些人工雙端讀段進(jìn)行多重過濾篩選,從而得到候選的融合基因及融合讀段。最后將候選的融合讀段比對(duì)到重建的bowtie參考索引中,得到最終確認(rèn)的融合基因及融合讀段。與現(xiàn)有的融合基因檢測(cè)軟件Tophat-Fusion、FusionMap等相比,GFusion的過濾校驗(yàn)標(biāo)準(zhǔn)使用了復(fù)雜的雙端映射匹配信息以及重構(gòu)的讀段比對(duì)bowtie索引,使融合基因檢測(cè)結(jié)果更加可靠。為了測(cè)試GFusion的性能,使用人類乳腺癌細(xì)胞系,正常乳腺細(xì)胞系,慢性粒細(xì)胞白血病K-562細(xì)胞系的RNA-Seq數(shù)據(jù)做了分析。GFusion成功檢測(cè)到實(shí)驗(yàn)證實(shí)的融合基因,并預(yù)測(cè)到了部分新的融合基因。在人類乳腺癌細(xì)胞系23個(gè)實(shí)驗(yàn)證實(shí)的融合基因中,GFusion檢測(cè)到了其中20個(gè)。在K-562細(xì)胞系中,成功發(fā)現(xiàn)了BCR-ABL1融合基因,這與研究證明的慢性粒細(xì)胞白血病病因相吻合。為了與已有的融合基因檢測(cè)軟件Tophat-fusion、FusionMap比較,還將人類胚胎干細(xì)胞數(shù)據(jù)和融合讀段相混合創(chuàng)建了模擬數(shù)據(jù)集。經(jīng)過數(shù)據(jù)結(jié)果,敏感度,假陽性率,以及融合基因支持的讀段數(shù)量比較,發(fā)現(xiàn)GFusion對(duì)于融合基因檢測(cè)效果更加明顯。GFusion通過引入雙端映射匹配信息,使融合基因的過濾篩選更加嚴(yán)格,不僅具有較高的敏感度,還具有較低的假陽性率。
【關(guān)鍵詞】:融合基因 人類癌癥 二代測(cè)序 序列比對(duì) 檢測(cè)算法
【學(xué)位授予單位】:南京航空航天大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:R73-3
【目錄】:
- 摘要4-5
- ABSTRACT5-12
- 第一章 緒論12-17
- 1.1 引言12
- 1.2 融合基因形成12-13
- 1.3 融合基因與癌癥關(guān)系13-14
- 1.4 融合基因檢測(cè)及對(duì)癌癥治療作用14
- 1.5 論文研究的關(guān)鍵問題14-15
- 1.6 論文的研究內(nèi)容與安排15-16
- 1.7 本章小結(jié)16-17
- 第二章 二代測(cè)序技術(shù)介紹17-26
- 2.1 引言17
- 2.2 二代測(cè)序技術(shù)介紹17-21
- 2.2.1 二代測(cè)序技術(shù)應(yīng)用17
- 2.2.2 RNA-Seq技術(shù)簡介17-18
- 2.2.3 測(cè)序平臺(tái)18-19
- 2.2.4 雙端數(shù)據(jù)和單端數(shù)據(jù)19-20
- 2.2.5 測(cè)序結(jié)果數(shù)據(jù)格式20-21
- 2.3 第二代測(cè)序數(shù)據(jù)處理工具21-25
- 2.3.1 Bowtie21-22
- 2.3.2 Tophat22-23
- 2.3.3 Samtools23
- 2.3.4 SAM格式23-25
- 2.4 本章小結(jié)25-26
- 第三章 融合基因檢測(cè)方法研究26-41
- 3.1 引言26
- 3.2 基于二代測(cè)序融合基因識(shí)別軟件26-27
- 3.2.1 FusionSeq26
- 3.2.2 FusionMap26-27
- 3.2.3 Tophat-fusion27
- 3.3 讀段表現(xiàn)形式27-31
- 3.3.1 正常讀段映射27-29
- 3.3.2 融合基因讀段比對(duì)29-31
- 3.4 雙端數(shù)據(jù)比對(duì)方法31-38
- 3.4.1 將RNA-Seq數(shù)據(jù)比對(duì)到人類參考基因組31-32
- 3.4.2 提取discordant pair信息32-33
- 3.4.3 創(chuàng)建人工雙端讀段33-34
- 3.4.4 anchor比對(duì)34-35
- 3.4.5 定位來源基因及融合邊界確認(rèn)35-36
- 3.4.6 過濾36-37
- 3.4.7 確認(rèn)spanning read37
- 3.4.8 建立bowtie索引和重比對(duì)37-38
- 3.5 單端數(shù)據(jù)比對(duì)方法38-40
- 3.6 算法優(yōu)勢(shì)40
- 3.7 本章小結(jié)40-41
- 第四章 基于人類腫瘤RNA-Seq數(shù)據(jù)檢測(cè)融合基因41-56
- 4.1 引言41
- 4.2 雙端測(cè)序數(shù)據(jù)41-47
- 4.2.1 數(shù)據(jù)來源41-42
- 4.2.2 結(jié)果分析42-47
- 4.3 單端測(cè)序數(shù)據(jù)47-48
- 4.4 模擬數(shù)據(jù)集及假陽性分析48-54
- 4.4.1 模擬背景數(shù)據(jù)48-49
- 4.4.2 模擬融合基因數(shù)據(jù)集49-50
- 4.4.3 敏感度和假陽性率分析50-51
- 4.4.4 結(jié)果比較分析51-52
- 4.4.5 讀段數(shù)量影響52-54
- 4.5 本章小結(jié)54-56
- 第五章 總結(jié)和展望56-58
- 5.1 研究方案與創(chuàng)新性56
- 5.2 本文工作總結(jié)56-57
- 5.3 后續(xù)研究工作展望57-58
- 參考文獻(xiàn)58-64
- 致謝64-65
- 在學(xué)期間的研究成果及學(xué)術(shù)論文情況65
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前4條
1 謝仲秋;曾勇;;融合基因與腫瘤[J];腫瘤藥學(xué);2014年06期
2 楊旭;焦睿;楊琳;吳莉萍;李英睿;王俊;;基于新一代高通量技術(shù)的人類疾病組學(xué)研究策略[J];遺傳;2011年08期
3 李曉非;李冬玲;施巧霞;陳育林;吳芳華;;三種檢測(cè)方法對(duì)結(jié)核病診斷價(jià)值的比較研究[J];實(shí)用醫(yī)技雜志;2008年04期
4 劉萬清,賀林;SNP-為人類基因組描繪新的藍(lán)圖[J];遺傳;1998年06期
,本文編號(hào):624018
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/624018.html
最近更新
教材專著