乳腺癌相關(guān)基因的選擇與預(yù)后分析
發(fā)布時間:2021-01-21 04:17
乳腺癌作為全球女性發(fā)病率最高的癌癥給全球婦女的生活帶來了嚴(yán)重的影響。目前,早期篩查依舊是控制乳腺癌發(fā)展最有效的手段。由于缺乏準(zhǔn)確的生物標(biāo)志物,乳腺癌的早期診斷依然十分困難。因此,有必要探索參與乳腺癌發(fā)生和發(fā)展的分子機制,以發(fā)現(xiàn)更多新的候選基因來改善早期診斷和治療決策。本文通過對乳腺癌基因表達數(shù)據(jù)進行分析,找到乳腺癌的相關(guān)基因,并從中篩選出與預(yù)后顯著相關(guān)的基因作為乳腺癌的生物標(biāo)志物;其次將這些基因作為一個整體,構(gòu)建預(yù)后模型;最后利用該模型對乳腺癌患者進行預(yù)后評估,以提高對乳腺癌的預(yù)測質(zhì)量。本文的主要研究內(nèi)容如下:(1)本文提出一種DO-UNIBIC相關(guān)基因選擇方法。針對疾病本體分析無法找出乳腺癌的潛在相關(guān)基因,不能有效利用基因表達數(shù)據(jù)的問題,本文提出首先使用疾病本體分析從乳腺癌差異表達基因中篩選出乳腺癌的相關(guān)基因,然后利用UNIBIC算法從表達數(shù)據(jù)中基于最長公共子序列找出所有變化趨勢一致的基因簇。經(jīng)過實驗證明,兩種算法的結(jié)果中有交集的基因簇中存在著與乳腺癌相關(guān)以及潛在相關(guān)的基因,從而可以在乳腺癌的差異表達基因中篩選出更全面的乳腺癌相關(guān)基因作為預(yù)后分析的候選基因集。(2)本文構(gòu)建一個八基因...
【文章來源】:河南大學(xué)河南省
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
TCGA官網(wǎng)界面
第2章基因表達數(shù)據(jù)與預(yù)后分析9條件下基因的表達是如何受影響的[34]。基因表達數(shù)據(jù)在醫(yī)學(xué)臨床診斷、藥物療效判斷、解釋疾病發(fā)生機制等方面有重要的應(yīng)用。基因表達矩陣是用來描述基因表達數(shù)據(jù)的矩陣如表2-1所示。行代表基因,列代表樣本,其中表示基因i在樣本j下的表達水平。構(gòu)建基因表達矩陣的目的是要從中提取出潛在的生物學(xué)過程。表2-1基因表達矩陣樣本1…樣本j…樣本m基因111…1…1………………基因i1……………………基因n1……為了消除樣本取樣時間的差異對分析帶來的影響,本文從癌癥基因組圖譜(TCGA)數(shù)據(jù)庫中挑選了110對同時檢測癌區(qū)和癌旁正常組織的樣本下載基因表達數(shù)據(jù),這樣就排除了個體癌組織與正常組織取樣時間的差異[35]。TCGA通過樣本名(Barcode)來區(qū)分正常組織樣本和癌組織樣本,樣本名中第四個參數(shù)sample為01時代表的是癌組織樣本,sample為11時代表的是正常組織樣本,TCGA樣本名的詳細信息如圖2-2所示。圖2-2TCGA樣本命名規(guī)則圖2.4預(yù)后分析預(yù)后是指根據(jù)臨床和非臨床資料來推測在特定的時間內(nèi)出現(xiàn)某一結(jié)果(如死亡、并發(fā)癥、疾病復(fù)發(fā)或消退)的可能性或風(fēng)險[36]。乳腺癌的預(yù)后在很多方面都很重要。首先,患者通過預(yù)后可以知道他們未來的疾病發(fā)展進程。其次,預(yù)后對乳腺癌的治療至關(guān)重要。預(yù)后的結(jié)果越精確,患者就能得到更正確的治療。比如預(yù)后很差的患者可以考慮積極治
乳腺癌相關(guān)基因的選擇與預(yù)后分析14圖3-1過濾前和過濾后基因表達數(shù)據(jù)分布圖3.2差異表達分析由前文可知測序深度較大的樣本會產(chǎn)生較高的讀段計數(shù),因此對于基因的差異表達分析,很少直接使用原始計數(shù)數(shù)據(jù)來考慮基因的表達。通常的做法是將原始讀段計數(shù)數(shù)據(jù)進行歸一化,來消除測序深度所導(dǎo)致的差異。歸一化是將每個樣本的表達量轉(zhuǎn)換到同一量綱下,把表達量映射到特定的區(qū)間內(nèi),使得不同樣本的表達量可以進行大小比較。經(jīng)常使用的歸一化方法有基于序列的CPM(Countspermillion)、log-CPM(Log2-countspermillion)、FPKM(Fragmentsperkilobaseoftranscriptpermillion),和基于轉(zhuǎn)錄本數(shù)目的RPKM(Readsperkilobaseoftranscriptpermillion)。CPM的計算公式見式(3-1)。RPKM的計算公式如下:610inRPKMLN=(3-2)其中,in是比對到基因i的讀段數(shù);L是基因的外顯子長度之和除以1000,N為比對到基因組上的總讀段數(shù)。FPKM和RPKM的計算方法非常相似,其中區(qū)別就在于FPKM應(yīng)用于雙端測序,RPKM應(yīng)用于單端測序。在RNA-Seq中,測序建庫時會把RNA打斷成小片段(Fragment),在每個片段的兩端加上接頭引物進行測序。如果是單端測序,那
【參考文獻】:
期刊論文
[1]具有預(yù)后價值的乳腺癌發(fā)病關(guān)鍵基因鑒別研究[J]. 徐久成,李成長. 河南師范大學(xué)學(xué)報(自然科學(xué)版). 2020(02)
[2]基于生物信息學(xué)分析的非小細胞肺癌診斷預(yù)后相關(guān)基因的篩選[J]. 楊燕霞,金蓮,王欣,張潔,柳小平. 生命科學(xué)研究. 2020(02)
[3]常用腫瘤基因分析方法及基于TCGA數(shù)據(jù)庫的分析應(yīng)用[J]. 李鑫,李夢瑋,張依楠,徐寒梅. 遺傳. 2019(03)
[4]癌癥TCGA數(shù)據(jù)庫中乳腺癌預(yù)后數(shù)據(jù)的挖掘[J]. Mian Khizar Hayat,王銘裕,李碩磊. 生物學(xué)雜志. 2018(04)
[5]LASSO方法在Cox回歸模型中的應(yīng)用[J]. 閆麗娜,覃婷,王彤. 中國衛(wèi)生統(tǒng)計. 2012(01)
[6]新一代高通量RNA測序數(shù)據(jù)的處理與分析[J]. 王曦,汪小我,王立坤,馮智星,張學(xué)工. 生物化學(xué)與生物物理進展. 2010(08)
博士論文
[1]基于生物信息學(xué)的非小細胞肺癌腫瘤標(biāo)志物篩選和預(yù)測模型構(gòu)建[D]. 史健翔.鄭州大學(xué) 2018
碩士論文
[1]通過生物信息學(xué)分析鑒定乳腺癌相關(guān)的異常甲基化差異表達基因及其功能[D]. 易麗蘭.南方醫(yī)科大學(xué) 2019
[2]基于比例風(fēng)險模型的生存分析研究[D]. 路文馨.華南理工大學(xué) 2019
[3]雙聚類算法及其在基因表達數(shù)據(jù)分析中應(yīng)用研究[D]. 楊燴婷.吉林大學(xué) 2019
[4]乳腺腫瘤異質(zhì)性區(qū)域影像特征與全基因組表達模式以及預(yù)后的關(guān)聯(lián)性研究[D]. 劉斌.杭州電子科技大學(xué) 2019
[5]基于基因共表達網(wǎng)絡(luò)分析的三陰性乳腺癌預(yù)后相關(guān)基因與鉑應(yīng)答靶點關(guān)系的研究[D]. 黃鵬.中國醫(yī)科大學(xué) 2018
[6]應(yīng)用于基因表達數(shù)據(jù)的雙聚類算法的研究[D]. 劉楠楠.燕山大學(xué) 2011
本文編號:2990442
【文章來源】:河南大學(xué)河南省
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
TCGA官網(wǎng)界面
第2章基因表達數(shù)據(jù)與預(yù)后分析9條件下基因的表達是如何受影響的[34]。基因表達數(shù)據(jù)在醫(yī)學(xué)臨床診斷、藥物療效判斷、解釋疾病發(fā)生機制等方面有重要的應(yīng)用。基因表達矩陣是用來描述基因表達數(shù)據(jù)的矩陣如表2-1所示。行代表基因,列代表樣本,其中表示基因i在樣本j下的表達水平。構(gòu)建基因表達矩陣的目的是要從中提取出潛在的生物學(xué)過程。表2-1基因表達矩陣樣本1…樣本j…樣本m基因111…1…1………………基因i1……………………基因n1……為了消除樣本取樣時間的差異對分析帶來的影響,本文從癌癥基因組圖譜(TCGA)數(shù)據(jù)庫中挑選了110對同時檢測癌區(qū)和癌旁正常組織的樣本下載基因表達數(shù)據(jù),這樣就排除了個體癌組織與正常組織取樣時間的差異[35]。TCGA通過樣本名(Barcode)來區(qū)分正常組織樣本和癌組織樣本,樣本名中第四個參數(shù)sample為01時代表的是癌組織樣本,sample為11時代表的是正常組織樣本,TCGA樣本名的詳細信息如圖2-2所示。圖2-2TCGA樣本命名規(guī)則圖2.4預(yù)后分析預(yù)后是指根據(jù)臨床和非臨床資料來推測在特定的時間內(nèi)出現(xiàn)某一結(jié)果(如死亡、并發(fā)癥、疾病復(fù)發(fā)或消退)的可能性或風(fēng)險[36]。乳腺癌的預(yù)后在很多方面都很重要。首先,患者通過預(yù)后可以知道他們未來的疾病發(fā)展進程。其次,預(yù)后對乳腺癌的治療至關(guān)重要。預(yù)后的結(jié)果越精確,患者就能得到更正確的治療。比如預(yù)后很差的患者可以考慮積極治
乳腺癌相關(guān)基因的選擇與預(yù)后分析14圖3-1過濾前和過濾后基因表達數(shù)據(jù)分布圖3.2差異表達分析由前文可知測序深度較大的樣本會產(chǎn)生較高的讀段計數(shù),因此對于基因的差異表達分析,很少直接使用原始計數(shù)數(shù)據(jù)來考慮基因的表達。通常的做法是將原始讀段計數(shù)數(shù)據(jù)進行歸一化,來消除測序深度所導(dǎo)致的差異。歸一化是將每個樣本的表達量轉(zhuǎn)換到同一量綱下,把表達量映射到特定的區(qū)間內(nèi),使得不同樣本的表達量可以進行大小比較。經(jīng)常使用的歸一化方法有基于序列的CPM(Countspermillion)、log-CPM(Log2-countspermillion)、FPKM(Fragmentsperkilobaseoftranscriptpermillion),和基于轉(zhuǎn)錄本數(shù)目的RPKM(Readsperkilobaseoftranscriptpermillion)。CPM的計算公式見式(3-1)。RPKM的計算公式如下:610inRPKMLN=(3-2)其中,in是比對到基因i的讀段數(shù);L是基因的外顯子長度之和除以1000,N為比對到基因組上的總讀段數(shù)。FPKM和RPKM的計算方法非常相似,其中區(qū)別就在于FPKM應(yīng)用于雙端測序,RPKM應(yīng)用于單端測序。在RNA-Seq中,測序建庫時會把RNA打斷成小片段(Fragment),在每個片段的兩端加上接頭引物進行測序。如果是單端測序,那
【參考文獻】:
期刊論文
[1]具有預(yù)后價值的乳腺癌發(fā)病關(guān)鍵基因鑒別研究[J]. 徐久成,李成長. 河南師范大學(xué)學(xué)報(自然科學(xué)版). 2020(02)
[2]基于生物信息學(xué)分析的非小細胞肺癌診斷預(yù)后相關(guān)基因的篩選[J]. 楊燕霞,金蓮,王欣,張潔,柳小平. 生命科學(xué)研究. 2020(02)
[3]常用腫瘤基因分析方法及基于TCGA數(shù)據(jù)庫的分析應(yīng)用[J]. 李鑫,李夢瑋,張依楠,徐寒梅. 遺傳. 2019(03)
[4]癌癥TCGA數(shù)據(jù)庫中乳腺癌預(yù)后數(shù)據(jù)的挖掘[J]. Mian Khizar Hayat,王銘裕,李碩磊. 生物學(xué)雜志. 2018(04)
[5]LASSO方法在Cox回歸模型中的應(yīng)用[J]. 閆麗娜,覃婷,王彤. 中國衛(wèi)生統(tǒng)計. 2012(01)
[6]新一代高通量RNA測序數(shù)據(jù)的處理與分析[J]. 王曦,汪小我,王立坤,馮智星,張學(xué)工. 生物化學(xué)與生物物理進展. 2010(08)
博士論文
[1]基于生物信息學(xué)的非小細胞肺癌腫瘤標(biāo)志物篩選和預(yù)測模型構(gòu)建[D]. 史健翔.鄭州大學(xué) 2018
碩士論文
[1]通過生物信息學(xué)分析鑒定乳腺癌相關(guān)的異常甲基化差異表達基因及其功能[D]. 易麗蘭.南方醫(yī)科大學(xué) 2019
[2]基于比例風(fēng)險模型的生存分析研究[D]. 路文馨.華南理工大學(xué) 2019
[3]雙聚類算法及其在基因表達數(shù)據(jù)分析中應(yīng)用研究[D]. 楊燴婷.吉林大學(xué) 2019
[4]乳腺腫瘤異質(zhì)性區(qū)域影像特征與全基因組表達模式以及預(yù)后的關(guān)聯(lián)性研究[D]. 劉斌.杭州電子科技大學(xué) 2019
[5]基于基因共表達網(wǎng)絡(luò)分析的三陰性乳腺癌預(yù)后相關(guān)基因與鉑應(yīng)答靶點關(guān)系的研究[D]. 黃鵬.中國醫(yī)科大學(xué) 2018
[6]應(yīng)用于基因表達數(shù)據(jù)的雙聚類算法的研究[D]. 劉楠楠.燕山大學(xué) 2011
本文編號:2990442
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/2990442.html
最近更新
教材專著