基于Spark腎細(xì)胞癌差異表達(dá)基因篩選算法SAM的并行化實(shí)現(xiàn)研究
發(fā)布時(shí)間:2021-11-04 03:14
在全世界范圍內(nèi),腎細(xì)胞癌是最常見(jiàn)的腫瘤之一。研究者們雖然對(duì)腎細(xì)胞癌致病原理和治療方法進(jìn)行了深入的研究,但是還沒(méi)有找出疾病具體的發(fā)病原因和有效的治療方法。隨著科學(xué)家們對(duì)人類(lèi)基因進(jìn)行深入的研究,根據(jù)已有樣本,篩選出與疾病相關(guān)的差異表達(dá)基因已經(jīng)成為了目前基因?qū)W、醫(yī)學(xué)的研究重點(diǎn)。從基因的角度,對(duì)于攻克疾病有著重大的意義。DNA芯片技術(shù)是目前對(duì)于基因進(jìn)行研究的主要應(yīng)用技術(shù),研究者們可以通過(guò)使用該技術(shù)篩選出與疾病相關(guān)的差異表達(dá)基因。2001年,Virginia Tusher、Robert Tibshirani等人提出了SAM算法。SAM算法在既保證了可以篩選出較多的差異表達(dá)基因的同時(shí)又可以使得FDR保持在一個(gè)相對(duì)較低的水平。目前,隨著大數(shù)據(jù)時(shí)代的來(lái)臨,大數(shù)據(jù)分析技術(shù)Spark就此誕生。Spark技術(shù)采用了基于內(nèi)存的計(jì)算方式,去除了計(jì)算過(guò)程中讀取磁盤(pán)的操作,提供了快速的針對(duì)大數(shù)據(jù)處理的工具RDD,可以進(jìn)行復(fù)雜的批處理、并行化計(jì)算,提高了運(yùn)算速度,是目前對(duì)大數(shù)據(jù)分析的主要技術(shù),并能夠快速、高效的對(duì)大數(shù)據(jù)進(jìn)行篩選分析。隨著對(duì)人類(lèi)基因的深入研究,研究者得到了大量基因表達(dá)數(shù)據(jù),這就使得傳統(tǒng)的單機(jī)模式串行化計(jì)...
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
DNA芯片
圖 1.2 中心法則錄是指以DNA分子中的一條鏈作為模板,根據(jù)堿基配對(duì)原則合成mRN,翻譯就是以 mRNA 為模板,最終合成蛋白質(zhì)的過(guò)程。整個(gè)過(guò)程指的息由 DNA 轉(zhuǎn)到 RNA 再轉(zhuǎn)到蛋白質(zhì)的過(guò)程。而組成簡(jiǎn)單的生命體至少 到 350 個(gè)基因[8]。然而,研究者們計(jì)算表明,目前人類(lèi)的基因中僅僅基因被表達(dá)[9],成為了有用的組織器官,激活其他基因,或者調(diào)解人應(yīng)等等。在生物的生命過(guò)程中,并不是所有的基因都同時(shí)表達(dá),有些常情況下是表達(dá)的,而有些與生物生長(zhǎng)過(guò)程相關(guān)的基因則要達(dá)到特定件才能發(fā)生表達(dá),這部分基因就稱(chēng)為差異表達(dá)基因[10]。異表達(dá)基因是在不同的溫度、濕度、物理刺激、化學(xué)刺激等條件下,達(dá)產(chǎn)生了不同的差異。也就是說(shuō),這部分基因是在特定情況下進(jìn)行了在生物學(xué)、醫(yī)學(xué)等學(xué)科的科研和臨床的方面都有著巨大的意義。篩選
圖 3.1 GSM 樣本信息中第一列是基因的 ID 號(hào),第二列是 GPL4866 平臺(tái)定義的基因表達(dá)值,共141 行,每一行代表一個(gè)基因。實(shí)驗(yàn)所用的樣本包括 45 個(gè)患腎細(xì)胞癌樣本數(shù)據(jù)和 24 個(gè)正常樣本數(shù)據(jù),樣本數(shù)據(jù)包括 17141 個(gè)基因,如圖 3.2 所示的就是 GSE14762 系列提供的信息,也是實(shí)驗(yàn)所需的原基因表達(dá)譜數(shù)據(jù)。
【參考文獻(xiàn)】:
期刊論文
[1]Spark平臺(tái)下的凸包問(wèn)題研究[J]. 李格非,馬蔚吟,李力. 計(jì)算機(jī)工程與應(yīng)用. 2018(22)
[2]Hadoop與Spark應(yīng)用場(chǎng)景研究[J]. 馮興杰,王文超. 計(jì)算機(jī)應(yīng)用研究. 2018(09)
[3]應(yīng)用生物信息學(xué)篩選腎透明細(xì)胞癌差異表達(dá)基因[J]. 熊垚祎,陳亮,王剛,王行環(huán). 現(xiàn)代泌尿外科雜志. 2017(11)
[4]腎透明細(xì)胞癌相關(guān)基因及通路的篩選及生物信息學(xué)分析[J]. 王永志,王錦星,王行環(huán). 現(xiàn)代泌尿外科雜志. 2017(11)
[5]淺析R語(yǔ)言并行計(jì)算在大數(shù)據(jù)分析中的應(yīng)用[J]. 李加慶,劉燕. 電子測(cè)試. 2016(23)
[6]基于Hadoop和Spark構(gòu)建可擴(kuò)展的網(wǎng)絡(luò)安全分析平臺(tái)[J]. 趙科軍,葛連升,劉洋,秦豐林. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(S1)
[7]基于Spark的大數(shù)據(jù)處理平臺(tái)的搭建與研究[J]. 許禮捷. 電腦知識(shí)與技術(shù). 2016(15)
[8]腎細(xì)胞癌的病理診斷與研究進(jìn)展[J]. 陳鈮,周橋. 現(xiàn)代泌尿外科雜志. 2016(03)
[9]顯著性分析(SAM)方法在乳腺癌基因芯片數(shù)據(jù)分析中的應(yīng)用[J]. 羅亞玲,蔣崢,張世強(qiáng). 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí). 2015(01)
[10]大數(shù)據(jù)開(kāi)源技術(shù)發(fā)展研究[J]. 吳韶鴻. 現(xiàn)代電信科技. 2014(08)
博士論文
[1]DNA/陽(yáng)離子表面活性劑組裝體的構(gòu)筑與性能研究[D]. 徐路.山東大學(xué) 2016
碩士論文
[1]遺傳疾病突變的數(shù)據(jù)挖掘分析[D]. 王暢暢.安徽大學(xué) 2017
[2]轉(zhuǎn)移性腎細(xì)胞癌的研究進(jìn)展[D]. 董棟棟.河北醫(yī)科大學(xué) 2017
[3]乳腺癌基因表達(dá)譜數(shù)據(jù)的相關(guān)性研究[D]. 陳婉婷.南京醫(yī)科大學(xué) 2015
[4]網(wǎng)絡(luò)文件的分布式存儲(chǔ)設(shè)計(jì)與實(shí)現(xiàn)[D]. 王君君.山東大學(xué) 2014
[5]基因差異表達(dá)若干分析算法的研究[D]. 田原.吉林大學(xué) 2012
[6]基于SAM的基因表達(dá)譜數(shù)據(jù)分析方法研究及應(yīng)用[D]. 李運(yùn)明.第四軍醫(yī)大學(xué) 2008
本文編號(hào):3474885
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
DNA芯片
圖 1.2 中心法則錄是指以DNA分子中的一條鏈作為模板,根據(jù)堿基配對(duì)原則合成mRN,翻譯就是以 mRNA 為模板,最終合成蛋白質(zhì)的過(guò)程。整個(gè)過(guò)程指的息由 DNA 轉(zhuǎn)到 RNA 再轉(zhuǎn)到蛋白質(zhì)的過(guò)程。而組成簡(jiǎn)單的生命體至少 到 350 個(gè)基因[8]。然而,研究者們計(jì)算表明,目前人類(lèi)的基因中僅僅基因被表達(dá)[9],成為了有用的組織器官,激活其他基因,或者調(diào)解人應(yīng)等等。在生物的生命過(guò)程中,并不是所有的基因都同時(shí)表達(dá),有些常情況下是表達(dá)的,而有些與生物生長(zhǎng)過(guò)程相關(guān)的基因則要達(dá)到特定件才能發(fā)生表達(dá),這部分基因就稱(chēng)為差異表達(dá)基因[10]。異表達(dá)基因是在不同的溫度、濕度、物理刺激、化學(xué)刺激等條件下,達(dá)產(chǎn)生了不同的差異。也就是說(shuō),這部分基因是在特定情況下進(jìn)行了在生物學(xué)、醫(yī)學(xué)等學(xué)科的科研和臨床的方面都有著巨大的意義。篩選
圖 3.1 GSM 樣本信息中第一列是基因的 ID 號(hào),第二列是 GPL4866 平臺(tái)定義的基因表達(dá)值,共141 行,每一行代表一個(gè)基因。實(shí)驗(yàn)所用的樣本包括 45 個(gè)患腎細(xì)胞癌樣本數(shù)據(jù)和 24 個(gè)正常樣本數(shù)據(jù),樣本數(shù)據(jù)包括 17141 個(gè)基因,如圖 3.2 所示的就是 GSE14762 系列提供的信息,也是實(shí)驗(yàn)所需的原基因表達(dá)譜數(shù)據(jù)。
【參考文獻(xiàn)】:
期刊論文
[1]Spark平臺(tái)下的凸包問(wèn)題研究[J]. 李格非,馬蔚吟,李力. 計(jì)算機(jī)工程與應(yīng)用. 2018(22)
[2]Hadoop與Spark應(yīng)用場(chǎng)景研究[J]. 馮興杰,王文超. 計(jì)算機(jī)應(yīng)用研究. 2018(09)
[3]應(yīng)用生物信息學(xué)篩選腎透明細(xì)胞癌差異表達(dá)基因[J]. 熊垚祎,陳亮,王剛,王行環(huán). 現(xiàn)代泌尿外科雜志. 2017(11)
[4]腎透明細(xì)胞癌相關(guān)基因及通路的篩選及生物信息學(xué)分析[J]. 王永志,王錦星,王行環(huán). 現(xiàn)代泌尿外科雜志. 2017(11)
[5]淺析R語(yǔ)言并行計(jì)算在大數(shù)據(jù)分析中的應(yīng)用[J]. 李加慶,劉燕. 電子測(cè)試. 2016(23)
[6]基于Hadoop和Spark構(gòu)建可擴(kuò)展的網(wǎng)絡(luò)安全分析平臺(tái)[J]. 趙科軍,葛連升,劉洋,秦豐林. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(S1)
[7]基于Spark的大數(shù)據(jù)處理平臺(tái)的搭建與研究[J]. 許禮捷. 電腦知識(shí)與技術(shù). 2016(15)
[8]腎細(xì)胞癌的病理診斷與研究進(jìn)展[J]. 陳鈮,周橋. 現(xiàn)代泌尿外科雜志. 2016(03)
[9]顯著性分析(SAM)方法在乳腺癌基因芯片數(shù)據(jù)分析中的應(yīng)用[J]. 羅亞玲,蔣崢,張世強(qiáng). 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí). 2015(01)
[10]大數(shù)據(jù)開(kāi)源技術(shù)發(fā)展研究[J]. 吳韶鴻. 現(xiàn)代電信科技. 2014(08)
博士論文
[1]DNA/陽(yáng)離子表面活性劑組裝體的構(gòu)筑與性能研究[D]. 徐路.山東大學(xué) 2016
碩士論文
[1]遺傳疾病突變的數(shù)據(jù)挖掘分析[D]. 王暢暢.安徽大學(xué) 2017
[2]轉(zhuǎn)移性腎細(xì)胞癌的研究進(jìn)展[D]. 董棟棟.河北醫(yī)科大學(xué) 2017
[3]乳腺癌基因表達(dá)譜數(shù)據(jù)的相關(guān)性研究[D]. 陳婉婷.南京醫(yī)科大學(xué) 2015
[4]網(wǎng)絡(luò)文件的分布式存儲(chǔ)設(shè)計(jì)與實(shí)現(xiàn)[D]. 王君君.山東大學(xué) 2014
[5]基因差異表達(dá)若干分析算法的研究[D]. 田原.吉林大學(xué) 2012
[6]基于SAM的基因表達(dá)譜數(shù)據(jù)分析方法研究及應(yīng)用[D]. 李運(yùn)明.第四軍醫(yī)大學(xué) 2008
本文編號(hào):3474885
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/3474885.html
最近更新
教材專(zhuān)著