基于多組學(xué)整合分析的癌癥生物標(biāo)志物識別算法研究
發(fā)布時間:2021-07-17 20:57
隨著高通量測序技術(shù)的快速發(fā)展,生物組學(xué)大數(shù)據(jù)呈爆發(fā)式增長,極大地促進(jìn)了人們在分子層面對癌癥的理解。面對海量的生物組學(xué)數(shù)據(jù),數(shù)據(jù)的處理和分析面臨著新的挑戰(zhàn)。生物組學(xué)大數(shù)據(jù)存在復(fù)雜、多層次和信息互補的特點,分析這些數(shù)據(jù)的一個關(guān)鍵目標(biāo)是確定可預(yù)測表型性狀的有效模型,發(fā)現(xiàn)重要的生物標(biāo)志物并闡明其生物功能。生物組學(xué)大數(shù)據(jù)具有多元高維和多源異質(zhì)的特性,同時數(shù)據(jù)通常存在著較高的噪聲,很多特征是和疾病表型不相關(guān)的,并且特征之間存在著冗余性,導(dǎo)致很多傳統(tǒng)的數(shù)據(jù)分析方法難以直接應(yīng)用于生物組學(xué)大數(shù)據(jù)的分析。降維是克服高維組學(xué)數(shù)據(jù)分析中維度災(zāi)難問題的有效方法,可以顯著地減少對計算和存儲資源的需求。降維是有益的,因為它可以減少模型過度擬合的風(fēng)險。在后基因組時代,機器學(xué)習(xí)方法被廣泛地應(yīng)用于生物信息學(xué)中的預(yù)測建模和數(shù)據(jù)挖掘。特征選擇是一種降維方法,它直接為模型構(gòu)建選擇一組相關(guān)特征子集。特征選擇方法對高維數(shù)據(jù)的處理具有有效性和高效性,在生物信息學(xué)領(lǐng)域被廣泛地應(yīng)用于識別生物標(biāo)志物。特征選擇方法的主要優(yōu)點之一是它保留了原始特征集合的物理含義,并提供了更好的模型可讀性和可解釋性。傳統(tǒng)的機器學(xué)習(xí)方法的數(shù)據(jù)輸入格式是數(shù)值類型,...
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:127 頁
【學(xué)位級別】:博士
【部分圖文】:
圖1.1分子生物學(xué)中心法則近年來,大數(shù)據(jù)技術(shù)的飛速發(fā)展推動了生物組織大數(shù)據(jù)的分析和應(yīng)用,大數(shù)
本文章節(jié)結(jié)構(gòu)圖
第二章數(shù)據(jù)來源和相關(guān)方法介紹13第二章數(shù)據(jù)來源和相關(guān)方法介紹2.1多組學(xué)數(shù)據(jù)20世紀(jì)90年代初,與“曼哈頓原子彈計劃”和“阿波羅登月計劃”并稱為人類自然科學(xué)史上的“三大計劃”之一的“人類基因組計劃(HumanGenomicProject,HGP)”正式啟動,揭開了組學(xué)(Omics)研究的序幕!癘mic”一詞源自拉丁語后綴“ome”,表示大量或許多。Omics研究與其他研究一樣,只是它們涉及大量相同類型的數(shù)據(jù)。HGP揭示了人類基因組中包含的基因數(shù)量較少,并且生物過程不單一受DNA序列的調(diào)控,需要對大量生物分子進(jìn)行廣泛地分析。多組學(xué)之間的級聯(lián)關(guān)系[1]如圖2.1所示。圖2.1多組學(xué)之間的級聯(lián)關(guān)系基因組學(xué)是從DNA分子的角度來研究生命現(xiàn)象,基因組學(xué)研究主要可以分為三個部分:(1)以獲取基因組序列為目的的結(jié)構(gòu)基因組學(xué)(StructureGenomics);(2)以注釋基因功能為目的的功能基因組學(xué)(FunctionalGenomics);(3)以通過基因組間的相互比較來研究基因的表達(dá)機理、功能和物種進(jìn)化為目的比較基因組學(xué)(ComparativeGenomics);蚪M學(xué)數(shù)據(jù)包括:DNA序列、SNP、拷貝數(shù)變異(CopyNumberVariation,CNV)、罕見變異等等。本文第三章、第五章和第六章分別使用了SNP、罕見變異和DNA序列數(shù)據(jù)。表觀組學(xué)主要研究DNA或DNA相關(guān)蛋白的可逆修飾,例如DNA甲基化或組蛋白乙;℉istoneAcetylation),在調(diào)節(jié)基因活性和表達(dá)中起著重要作用。這些修飾可能會受到遺傳和環(huán)境因素的影響,可能會持續(xù)很長時間,有時是可遺傳的。表觀組學(xué)數(shù)據(jù)包括:DNA甲基化、組蛋白修飾(HistoneModification)和
本文編號:3288912
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:127 頁
【學(xué)位級別】:博士
【部分圖文】:
圖1.1分子生物學(xué)中心法則近年來,大數(shù)據(jù)技術(shù)的飛速發(fā)展推動了生物組織大數(shù)據(jù)的分析和應(yīng)用,大數(shù)
本文章節(jié)結(jié)構(gòu)圖
第二章數(shù)據(jù)來源和相關(guān)方法介紹13第二章數(shù)據(jù)來源和相關(guān)方法介紹2.1多組學(xué)數(shù)據(jù)20世紀(jì)90年代初,與“曼哈頓原子彈計劃”和“阿波羅登月計劃”并稱為人類自然科學(xué)史上的“三大計劃”之一的“人類基因組計劃(HumanGenomicProject,HGP)”正式啟動,揭開了組學(xué)(Omics)研究的序幕!癘mic”一詞源自拉丁語后綴“ome”,表示大量或許多。Omics研究與其他研究一樣,只是它們涉及大量相同類型的數(shù)據(jù)。HGP揭示了人類基因組中包含的基因數(shù)量較少,并且生物過程不單一受DNA序列的調(diào)控,需要對大量生物分子進(jìn)行廣泛地分析。多組學(xué)之間的級聯(lián)關(guān)系[1]如圖2.1所示。圖2.1多組學(xué)之間的級聯(lián)關(guān)系基因組學(xué)是從DNA分子的角度來研究生命現(xiàn)象,基因組學(xué)研究主要可以分為三個部分:(1)以獲取基因組序列為目的的結(jié)構(gòu)基因組學(xué)(StructureGenomics);(2)以注釋基因功能為目的的功能基因組學(xué)(FunctionalGenomics);(3)以通過基因組間的相互比較來研究基因的表達(dá)機理、功能和物種進(jìn)化為目的比較基因組學(xué)(ComparativeGenomics);蚪M學(xué)數(shù)據(jù)包括:DNA序列、SNP、拷貝數(shù)變異(CopyNumberVariation,CNV)、罕見變異等等。本文第三章、第五章和第六章分別使用了SNP、罕見變異和DNA序列數(shù)據(jù)。表觀組學(xué)主要研究DNA或DNA相關(guān)蛋白的可逆修飾,例如DNA甲基化或組蛋白乙;℉istoneAcetylation),在調(diào)節(jié)基因活性和表達(dá)中起著重要作用。這些修飾可能會受到遺傳和環(huán)境因素的影響,可能會持續(xù)很長時間,有時是可遺傳的。表觀組學(xué)數(shù)據(jù)包括:DNA甲基化、組蛋白修飾(HistoneModification)和
本文編號:3288912
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3288912.html
最近更新
教材專著