基于基因組數(shù)據(jù)的癌癥亞型譜聚類方法研究
發(fā)布時(shí)間:2021-04-02 08:37
癌癥是威脅人類生命的主要疾病之一,有效提高癌癥檢測(cè)機(jī)制在未來(lái)的癌癥研究工作中具有非常重要的意義。隨著高通量測(cè)序技術(shù)的誕生與發(fā)展,基因組數(shù)據(jù)為癌癥的發(fā)現(xiàn)與治療帶來(lái)了新的機(jī)遇。但是基因組數(shù)據(jù)往往表現(xiàn)出高維、小樣本和高噪聲等特點(diǎn),傳統(tǒng)的聚類方法很難直接應(yīng)用在癌癥基因組數(shù)據(jù)的挖掘分析中。本文將在研究基因組數(shù)據(jù)的基礎(chǔ)上,以基于圖論的譜聚類算法為主要研究方向,建立一種基于圖論的譜聚類算法模型,對(duì)現(xiàn)有譜聚類算法進(jìn)行改進(jìn),本文主要開展了以下幾個(gè)方面的研究工作:針對(duì)傳統(tǒng)的譜聚類算法不能很好地描述空間中數(shù)據(jù)點(diǎn)之間的關(guān)系,提出一種密度相似性的譜聚類算法代替Gaussian核函數(shù)作為相似性度量的標(biāo)準(zhǔn)。當(dāng)兩數(shù)據(jù)點(diǎn)是鄰接關(guān)系時(shí),將Hsim度量方法作為歐氏距離的一個(gè)權(quán)重值,避免數(shù)據(jù)點(diǎn)自身的信息對(duì)數(shù)據(jù)點(diǎn)之間的相似度測(cè)量存在過(guò)大的影響;當(dāng)兩數(shù)據(jù)點(diǎn)不是鄰接關(guān)系時(shí),采用設(shè)計(jì)的密度相似性度量方法,減小高密度區(qū)域數(shù)據(jù)點(diǎn)之間的距離,放大低密度區(qū)域數(shù)據(jù)點(diǎn)之間的距離,更好地反映數(shù)據(jù)集的真實(shí)分布情況。針對(duì)大規(guī)模數(shù)據(jù)集中Laplacian矩陣的特征分解會(huì)造成過(guò)高的時(shí)間和空間上的復(fù)雜度問(wèn)題,提出了一種改進(jìn)的隨機(jī)奇異值分解方法來(lái)計(jì)算樣本子矩...
【文章來(lái)源】:蘭州交通大學(xué)甘肅省
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基因芯片技術(shù)
蘭州交通大學(xué)工程碩士學(xué)位論文-9-()2221=logloglog2AR+G=RG(2.3)222M=logRlogG=logRG(2.4)圖的橫坐標(biāo)是平均表達(dá)量A,縱坐標(biāo)是相對(duì)表達(dá)量M,得到所以數(shù)據(jù)點(diǎn)的MA圖(MA-plot)。加權(quán)回歸分析法的效果如圖2.2所示,對(duì)于每一個(gè)基因表達(dá)信號(hào)點(diǎn),絕對(duì)表達(dá)量減去該點(diǎn)的lowess加權(quán)函數(shù)所得到的殘差為該基因的相對(duì)表達(dá)量,圖中可以看出影響已被消除。計(jì)算方式如式2.5:()2MlogRGlowessA=(2.5)圖2.2Lowess歸一化測(cè)序得到的差異可能會(huì)造成表達(dá)量之間不具有可比性。例如,一份10Gb的測(cè)序數(shù)據(jù)中,一組數(shù)據(jù)中獲得的有效數(shù)據(jù)為8Gb而一份被污染的樣品測(cè)得的有效數(shù)據(jù)只有2Gb,可以看出第二種情況下獲得的基因檢測(cè)量遠(yuǎn)小于第一種。因?yàn)檫@些實(shí)際測(cè)量上的誤差,為了使基因表達(dá)量之間具有可比性,標(biāo)準(zhǔn)化處理RNA-Seq測(cè)序得到的絕對(duì)reads。目前常見的RNA-Seq數(shù)據(jù)標(biāo)準(zhǔn)化處理方法有以下幾種[23]:UpperQuartile(UQ)[24],Totalcount(TC),DESeq[25],Median(Med),Quantile(Q)[26,27],TrimmedMeanofM-values(TMM)inedgeRpackage[28],RPKM[29],FPKM[30]。(2)芯片間標(biāo)準(zhǔn)化當(dāng)外部環(huán)境不一致時(shí)導(dǎo)致的差異可以采用芯片間標(biāo)準(zhǔn)化的方式。平均數(shù)標(biāo)準(zhǔn)化和中位數(shù)標(biāo)準(zhǔn)化是比較常見的芯片間標(biāo)準(zhǔn)化方法。平均數(shù)標(biāo)準(zhǔn)化減去芯片數(shù)據(jù)的平均數(shù),而中位數(shù)標(biāo)準(zhǔn)化則是減去芯片數(shù)據(jù)的中位數(shù)。由此得到的基因表達(dá)量可以用于進(jìn)行比較分析。圖2.3是基因芯片數(shù)據(jù)進(jìn)行中位數(shù)標(biāo)準(zhǔn)化前后的數(shù)據(jù)分布情況。
基于基因組數(shù)據(jù)的癌癥亞型譜聚類方法研究-10-(1)BeforeNormalization(2)AfterNormalization圖2.3中位數(shù)標(biāo)準(zhǔn)化前后對(duì)比2.4基因組數(shù)據(jù)聚類結(jié)果評(píng)價(jià)指標(biāo)聚類分析是一種幫助發(fā)現(xiàn)數(shù)據(jù)對(duì)象間的關(guān)系的手段,常用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中,特別是在生物信息學(xué)領(lǐng)域,聚類分析在大規(guī)模癌癥基因組數(shù)據(jù)的處理與分析上起著重要的作用。聚類分析是一種無(wú)監(jiān)督的學(xué)習(xí)手段,因其不同于一般的分類方法或是回歸分析,對(duì)于無(wú)標(biāo)簽的數(shù)據(jù)集,沒(méi)有可以很好描述距離結(jié)果的標(biāo)準(zhǔn)。所以實(shí)驗(yàn)后的分析方法也成為一難點(diǎn)問(wèn)題。在癌癥基因組數(shù)據(jù)集的亞型發(fā)現(xiàn)上,可以利用臨床信息或是前人提出并輔以實(shí)驗(yàn)的信息作為聚類結(jié)果的評(píng)判標(biāo)準(zhǔn)。生存分析是最常見的統(tǒng)計(jì)檢驗(yàn)方法。生存分析(Survivalanalysis)的應(yīng)用十分廣泛,常應(yīng)用在疾病方面的生物統(tǒng)計(jì)學(xué)方法上,生存分析研究在不同因素下,生存時(shí)間的分布規(guī)律。將事件結(jié)果與時(shí)間相聯(lián)系起來(lái)做的分析稱作生存分析。生存分析可以用來(lái)觀察基因是否有意義,并且可以通過(guò)生存分析對(duì)癌癥患者進(jìn)行信息跟蹤,更好地幫助研究人員發(fā)現(xiàn)癌癥的致病機(jī)理已經(jīng)接受治療后的反饋情況。(1)事件(Event)。在癌癥基因組數(shù)據(jù)中,事件常代表患者的狀態(tài),復(fù)發(fā)或是死亡。(2)生存時(shí)間(Survivaltime)。生存時(shí)間一般指某個(gè)事件的開始到終止這個(gè)事件的時(shí)間長(zhǎng)短,例如癌癥研究中疾病確診到治愈或是死亡的時(shí)間。(3)刪失(Censoring)。樣本生存資料常通過(guò)隨訪收集,一段時(shí)間后未能及時(shí)獲取病人的信息稱為數(shù)據(jù)的刪失。通常代表非死亡原因引起的數(shù)據(jù)丟失,可能是時(shí)間終止而事件未發(fā)生。刪失又分為左刪失,右刪失,期間刪失三種情況。左刪失(Leftcensored):只知道實(shí)際生存時(shí)間小于觀察到的時(shí)間。右刪失(Rightcensored):只知道實(shí)際生存時(shí)間大于觀察到的時(shí)間。區(qū)間刪失(
【參考文獻(xiàn)】:
期刊論文
[1]基于數(shù)據(jù)庫(kù)探討細(xì)胞周期蛋白B1(CCNB1)表達(dá)對(duì)胃癌預(yù)后的影響[J]. 楊生輝,黃琰菁,邱純,李向璐,李賽,孫達(dá)統(tǒng),盛莉,陳鄧林,邢雪花,王琳. 中國(guó)數(shù)字醫(yī)學(xué). 2020(01)
[2]SCNN1B基因在非小細(xì)胞肺癌中的表達(dá)及其臨床意義[J]. 雷銳,劉艷. 臨床肺科雜志. 2019(05)
[3]KIAA0101調(diào)控胃癌細(xì)胞周期的相關(guān)基因篩選[J]. 王直,黨誠(chéng)學(xué),閆融,張昊,袁達(dá)偉,李康. 南方醫(yī)科大學(xué)學(xué)報(bào). 2018(10)
[4]自動(dòng)確定聚類中心的密度峰值算法[J]. 王洋,張桂珠. 計(jì)算機(jī)工程與應(yīng)用. 2018(08)
[5]面向藥物發(fā)現(xiàn)和精準(zhǔn)醫(yī)療的基因表達(dá)譜分析[J]. 劉陽(yáng),白卉,陶歡,何松,黃昕,伯曉晨,王升啟. 生物化學(xué)與生物物理進(jìn)展. 2016(10)
[6]中國(guó)癌癥發(fā)病、死亡現(xiàn)狀與趨勢(shì)分析[J]. 曾倩,崔芳芳,宇傳華,張干深. 中國(guó)衛(wèi)生統(tǒng)計(jì). 2016(02)
[7]基因表達(dá)譜微陣列網(wǎng)絡(luò)數(shù)據(jù)庫(kù)在腫瘤研究中的應(yīng)用[J]. 劉曦,劉卓琦,羅達(dá)亞. 中國(guó)生物化學(xué)與分子生物學(xué)報(bào). 2016(03)
[8]基因表達(dá)譜缺失數(shù)據(jù)填補(bǔ)估計(jì)方法的研究進(jìn)展與探討[J]. 伍亞舟,易東. 重慶醫(yī)學(xué). 2014(14)
[9]譜聚類算法綜述[J]. 蔡曉妍,戴冠中,楊黎斌. 計(jì)算機(jī)科學(xué). 2008(07)
博士論文
[1]大規(guī)模復(fù)雜數(shù)據(jù)的譜聚類研究[D]. 賈洪杰.中國(guó)礦業(yè)大學(xué) 2017
[2]CD164通過(guò)PTEN調(diào)控人腦膠質(zhì)瘤生長(zhǎng)和凋亡的研究[D]. 涂明.南方醫(yī)科大學(xué) 2016
[3]基于基因芯片表達(dá)譜的癌癥預(yù)后元分析方法研究[D]. 楊錫南.東南大學(xué) 2006
碩士論文
[1]腫瘤基因表達(dá)數(shù)據(jù)的特征選擇方法研究[D]. 李晨陽(yáng).蘭州交通大學(xué) 2018
[2]基于Nystr(?)m擴(kuò)展的大規(guī)模譜聚類算法[D]. 尤全增.大連理工大學(xué) 2011
本文編號(hào):3114958
【文章來(lái)源】:蘭州交通大學(xué)甘肅省
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基因芯片技術(shù)
蘭州交通大學(xué)工程碩士學(xué)位論文-9-()2221=logloglog2AR+G=RG(2.3)222M=logRlogG=logRG(2.4)圖的橫坐標(biāo)是平均表達(dá)量A,縱坐標(biāo)是相對(duì)表達(dá)量M,得到所以數(shù)據(jù)點(diǎn)的MA圖(MA-plot)。加權(quán)回歸分析法的效果如圖2.2所示,對(duì)于每一個(gè)基因表達(dá)信號(hào)點(diǎn),絕對(duì)表達(dá)量減去該點(diǎn)的lowess加權(quán)函數(shù)所得到的殘差為該基因的相對(duì)表達(dá)量,圖中可以看出影響已被消除。計(jì)算方式如式2.5:()2MlogRGlowessA=(2.5)圖2.2Lowess歸一化測(cè)序得到的差異可能會(huì)造成表達(dá)量之間不具有可比性。例如,一份10Gb的測(cè)序數(shù)據(jù)中,一組數(shù)據(jù)中獲得的有效數(shù)據(jù)為8Gb而一份被污染的樣品測(cè)得的有效數(shù)據(jù)只有2Gb,可以看出第二種情況下獲得的基因檢測(cè)量遠(yuǎn)小于第一種。因?yàn)檫@些實(shí)際測(cè)量上的誤差,為了使基因表達(dá)量之間具有可比性,標(biāo)準(zhǔn)化處理RNA-Seq測(cè)序得到的絕對(duì)reads。目前常見的RNA-Seq數(shù)據(jù)標(biāo)準(zhǔn)化處理方法有以下幾種[23]:UpperQuartile(UQ)[24],Totalcount(TC),DESeq[25],Median(Med),Quantile(Q)[26,27],TrimmedMeanofM-values(TMM)inedgeRpackage[28],RPKM[29],FPKM[30]。(2)芯片間標(biāo)準(zhǔn)化當(dāng)外部環(huán)境不一致時(shí)導(dǎo)致的差異可以采用芯片間標(biāo)準(zhǔn)化的方式。平均數(shù)標(biāo)準(zhǔn)化和中位數(shù)標(biāo)準(zhǔn)化是比較常見的芯片間標(biāo)準(zhǔn)化方法。平均數(shù)標(biāo)準(zhǔn)化減去芯片數(shù)據(jù)的平均數(shù),而中位數(shù)標(biāo)準(zhǔn)化則是減去芯片數(shù)據(jù)的中位數(shù)。由此得到的基因表達(dá)量可以用于進(jìn)行比較分析。圖2.3是基因芯片數(shù)據(jù)進(jìn)行中位數(shù)標(biāo)準(zhǔn)化前后的數(shù)據(jù)分布情況。
基于基因組數(shù)據(jù)的癌癥亞型譜聚類方法研究-10-(1)BeforeNormalization(2)AfterNormalization圖2.3中位數(shù)標(biāo)準(zhǔn)化前后對(duì)比2.4基因組數(shù)據(jù)聚類結(jié)果評(píng)價(jià)指標(biāo)聚類分析是一種幫助發(fā)現(xiàn)數(shù)據(jù)對(duì)象間的關(guān)系的手段,常用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中,特別是在生物信息學(xué)領(lǐng)域,聚類分析在大規(guī)模癌癥基因組數(shù)據(jù)的處理與分析上起著重要的作用。聚類分析是一種無(wú)監(jiān)督的學(xué)習(xí)手段,因其不同于一般的分類方法或是回歸分析,對(duì)于無(wú)標(biāo)簽的數(shù)據(jù)集,沒(méi)有可以很好描述距離結(jié)果的標(biāo)準(zhǔn)。所以實(shí)驗(yàn)后的分析方法也成為一難點(diǎn)問(wèn)題。在癌癥基因組數(shù)據(jù)集的亞型發(fā)現(xiàn)上,可以利用臨床信息或是前人提出并輔以實(shí)驗(yàn)的信息作為聚類結(jié)果的評(píng)判標(biāo)準(zhǔn)。生存分析是最常見的統(tǒng)計(jì)檢驗(yàn)方法。生存分析(Survivalanalysis)的應(yīng)用十分廣泛,常應(yīng)用在疾病方面的生物統(tǒng)計(jì)學(xué)方法上,生存分析研究在不同因素下,生存時(shí)間的分布規(guī)律。將事件結(jié)果與時(shí)間相聯(lián)系起來(lái)做的分析稱作生存分析。生存分析可以用來(lái)觀察基因是否有意義,并且可以通過(guò)生存分析對(duì)癌癥患者進(jìn)行信息跟蹤,更好地幫助研究人員發(fā)現(xiàn)癌癥的致病機(jī)理已經(jīng)接受治療后的反饋情況。(1)事件(Event)。在癌癥基因組數(shù)據(jù)中,事件常代表患者的狀態(tài),復(fù)發(fā)或是死亡。(2)生存時(shí)間(Survivaltime)。生存時(shí)間一般指某個(gè)事件的開始到終止這個(gè)事件的時(shí)間長(zhǎng)短,例如癌癥研究中疾病確診到治愈或是死亡的時(shí)間。(3)刪失(Censoring)。樣本生存資料常通過(guò)隨訪收集,一段時(shí)間后未能及時(shí)獲取病人的信息稱為數(shù)據(jù)的刪失。通常代表非死亡原因引起的數(shù)據(jù)丟失,可能是時(shí)間終止而事件未發(fā)生。刪失又分為左刪失,右刪失,期間刪失三種情況。左刪失(Leftcensored):只知道實(shí)際生存時(shí)間小于觀察到的時(shí)間。右刪失(Rightcensored):只知道實(shí)際生存時(shí)間大于觀察到的時(shí)間。區(qū)間刪失(
【參考文獻(xiàn)】:
期刊論文
[1]基于數(shù)據(jù)庫(kù)探討細(xì)胞周期蛋白B1(CCNB1)表達(dá)對(duì)胃癌預(yù)后的影響[J]. 楊生輝,黃琰菁,邱純,李向璐,李賽,孫達(dá)統(tǒng),盛莉,陳鄧林,邢雪花,王琳. 中國(guó)數(shù)字醫(yī)學(xué). 2020(01)
[2]SCNN1B基因在非小細(xì)胞肺癌中的表達(dá)及其臨床意義[J]. 雷銳,劉艷. 臨床肺科雜志. 2019(05)
[3]KIAA0101調(diào)控胃癌細(xì)胞周期的相關(guān)基因篩選[J]. 王直,黨誠(chéng)學(xué),閆融,張昊,袁達(dá)偉,李康. 南方醫(yī)科大學(xué)學(xué)報(bào). 2018(10)
[4]自動(dòng)確定聚類中心的密度峰值算法[J]. 王洋,張桂珠. 計(jì)算機(jī)工程與應(yīng)用. 2018(08)
[5]面向藥物發(fā)現(xiàn)和精準(zhǔn)醫(yī)療的基因表達(dá)譜分析[J]. 劉陽(yáng),白卉,陶歡,何松,黃昕,伯曉晨,王升啟. 生物化學(xué)與生物物理進(jìn)展. 2016(10)
[6]中國(guó)癌癥發(fā)病、死亡現(xiàn)狀與趨勢(shì)分析[J]. 曾倩,崔芳芳,宇傳華,張干深. 中國(guó)衛(wèi)生統(tǒng)計(jì). 2016(02)
[7]基因表達(dá)譜微陣列網(wǎng)絡(luò)數(shù)據(jù)庫(kù)在腫瘤研究中的應(yīng)用[J]. 劉曦,劉卓琦,羅達(dá)亞. 中國(guó)生物化學(xué)與分子生物學(xué)報(bào). 2016(03)
[8]基因表達(dá)譜缺失數(shù)據(jù)填補(bǔ)估計(jì)方法的研究進(jìn)展與探討[J]. 伍亞舟,易東. 重慶醫(yī)學(xué). 2014(14)
[9]譜聚類算法綜述[J]. 蔡曉妍,戴冠中,楊黎斌. 計(jì)算機(jī)科學(xué). 2008(07)
博士論文
[1]大規(guī)模復(fù)雜數(shù)據(jù)的譜聚類研究[D]. 賈洪杰.中國(guó)礦業(yè)大學(xué) 2017
[2]CD164通過(guò)PTEN調(diào)控人腦膠質(zhì)瘤生長(zhǎng)和凋亡的研究[D]. 涂明.南方醫(yī)科大學(xué) 2016
[3]基于基因芯片表達(dá)譜的癌癥預(yù)后元分析方法研究[D]. 楊錫南.東南大學(xué) 2006
碩士論文
[1]腫瘤基因表達(dá)數(shù)據(jù)的特征選擇方法研究[D]. 李晨陽(yáng).蘭州交通大學(xué) 2018
[2]基于Nystr(?)m擴(kuò)展的大規(guī)模譜聚類算法[D]. 尤全增.大連理工大學(xué) 2011
本文編號(hào):3114958
本文鏈接:http://sikaile.net/kejilunwen/yysx/3114958.html
最近更新
教材專著