全基因組關(guān)聯(lián)分析中上位性檢測(cè)算法的研究
發(fā)布時(shí)間:2021-08-08 00:56
隨著科技的進(jìn)步和大數(shù)據(jù)時(shí)代的來(lái)臨,各個(gè)研究領(lǐng)域都涌現(xiàn)出了大量的數(shù)據(jù),這為計(jì)算機(jī)科學(xué)與技術(shù)領(lǐng)域的學(xué)者帶來(lái)了前所未有的機(jī)遇和挑戰(zhàn),如何從龐大的數(shù)據(jù)中挖掘出我們需要的信息是目前信息科學(xué)領(lǐng)域的熱點(diǎn)之一。全基因組關(guān)聯(lián)分析的數(shù)據(jù)是一種高維的生物數(shù)據(jù),往往包含數(shù)十萬(wàn)個(gè)SNP,以及數(shù)千個(gè)正常樣本和患病樣本,研究者們期望通過(guò)分析這種數(shù)據(jù)來(lái)揭示SNP與疾病之間的關(guān)系,從而推動(dòng)對(duì)疾病的研究。復(fù)雜疾病是由多基因、多因素共同引起的常見(jiàn)疾病,近年來(lái),全基因組關(guān)聯(lián)分析已經(jīng)成為研究復(fù)雜疾病的主要手段之一,在全基因組關(guān)聯(lián)分析中檢測(cè)上位性SNP組合對(duì)探索復(fù)雜疾病的解釋、預(yù)防、治療有著重要的意義。在全基因組關(guān)聯(lián)分析中檢測(cè)上位性是一種非常復(fù)雜的高維組合優(yōu)化問(wèn)題,近年來(lái),研究者們提出了很多在全基因組關(guān)聯(lián)分析中檢測(cè)上位性的方法,本文將這些方法歸納為五類(lèi):窮舉法、隨機(jī)法、過(guò)濾法、模型法和進(jìn)化法。這些上位性檢測(cè)算法主要有以下四點(diǎn)問(wèn)題,這些問(wèn)題影響著上位性檢測(cè)算法的精度與效率:其一,很多算法往往是基于單獨(dú)的衡量SNP組合與疾病關(guān)系的函數(shù)設(shè)計(jì)的,當(dāng)潛在致病模型不符合某些預(yù)設(shè)的假設(shè)時(shí),用于衡量的函數(shù)會(huì)失效,從而限制了算法的精度和檢測(cè)能力;...
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:149 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
當(dāng)前應(yīng)用于上位性檢測(cè)的算法
本文的組織結(jié)構(gòu)如圖1.2所示,其主要內(nèi)容如下:第1章為緒論。首先介紹了本文的研究背景和意義,設(shè)計(jì)算法、開(kāi)發(fā)軟件在全基因組關(guān)聯(lián)分析的數(shù)據(jù)集上檢測(cè)上位性,對(duì)解釋、預(yù)防、治療復(fù)雜疾病有著重要的意義,然后,列舉了近年來(lái)國(guó)內(nèi)外在該領(lǐng)域的各種算法,分析了各種方法的優(yōu)缺點(diǎn)和主要的難點(diǎn)。
圖2.1舉例說(shuō)明了SNP的定義,在該圖中,假設(shè)這六個(gè)DNA序列的片段分別來(lái)自于六個(gè)人的同一段DNA,在這六段DNA序列里,絕大多數(shù)堿基都完全一致,只有兩個(gè)位置是不同的,這兩個(gè)位置被定義為SNP1和SNP2,對(duì)于SNP1,在兩個(gè)個(gè)體中的基因型為C,在其他四個(gè)個(gè)體中為G,這種差異最終可能導(dǎo)致這段DNA序列在不同的個(gè)體上,產(chǎn)生不同的蛋白質(zhì)復(fù)合物,從而影響人的表型(身高、體重、對(duì)某種疾病的抗性等等)。此外,圖2.1中所示的兩個(gè)SNP都是二等位多態(tài)性,即一個(gè)SNP位點(diǎn),只可能有兩種堿基,SNP1只可能是C和G,而SNP2只可能是A和T,理論上是存在復(fù)雜的四等位多態(tài)性SNP的,即一個(gè)SNP位點(diǎn)的堿基型可能是A、C、G、T的任意一種,但三等位和四等位的SNP在實(shí)踐中很少遇到,因此,在全基因組關(guān)聯(lián)分析領(lǐng)域,普遍認(rèn)為所有的SNP都是二等位多態(tài)性的,本文的研究亦是如此。SNP具有重要的研究意義[59-60],例如在圖2.1中,由于SNP1擁有C和G兩種基因型,那么在擁有不同基因型的兩個(gè)群體上,這段DNA序列,可能就會(huì)最終生成完全不同的蛋白質(zhì)復(fù)合物,一個(gè)群體可能擁有另一個(gè)群體沒(méi)有的某種物質(zhì),從而在兩個(gè)群體上體現(xiàn)出表型的差異,例如,如果這種物質(zhì)可以促進(jìn)身體的發(fā)育,那么兩個(gè)群體之間的身高將有顯著的差異。如果通過(guò)研究,可以證實(shí)一個(gè)SNP會(huì)對(duì)人類(lèi)的未來(lái)造成什么樣的影響,就可以通過(guò)后天的干預(yù)而盡量回避掉那些不良的后果,這對(duì)于提高人類(lèi)的生活質(zhì)量有著巨大的意義。
本文編號(hào):3328881
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:149 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
當(dāng)前應(yīng)用于上位性檢測(cè)的算法
本文的組織結(jié)構(gòu)如圖1.2所示,其主要內(nèi)容如下:第1章為緒論。首先介紹了本文的研究背景和意義,設(shè)計(jì)算法、開(kāi)發(fā)軟件在全基因組關(guān)聯(lián)分析的數(shù)據(jù)集上檢測(cè)上位性,對(duì)解釋、預(yù)防、治療復(fù)雜疾病有著重要的意義,然后,列舉了近年來(lái)國(guó)內(nèi)外在該領(lǐng)域的各種算法,分析了各種方法的優(yōu)缺點(diǎn)和主要的難點(diǎn)。
圖2.1舉例說(shuō)明了SNP的定義,在該圖中,假設(shè)這六個(gè)DNA序列的片段分別來(lái)自于六個(gè)人的同一段DNA,在這六段DNA序列里,絕大多數(shù)堿基都完全一致,只有兩個(gè)位置是不同的,這兩個(gè)位置被定義為SNP1和SNP2,對(duì)于SNP1,在兩個(gè)個(gè)體中的基因型為C,在其他四個(gè)個(gè)體中為G,這種差異最終可能導(dǎo)致這段DNA序列在不同的個(gè)體上,產(chǎn)生不同的蛋白質(zhì)復(fù)合物,從而影響人的表型(身高、體重、對(duì)某種疾病的抗性等等)。此外,圖2.1中所示的兩個(gè)SNP都是二等位多態(tài)性,即一個(gè)SNP位點(diǎn),只可能有兩種堿基,SNP1只可能是C和G,而SNP2只可能是A和T,理論上是存在復(fù)雜的四等位多態(tài)性SNP的,即一個(gè)SNP位點(diǎn)的堿基型可能是A、C、G、T的任意一種,但三等位和四等位的SNP在實(shí)踐中很少遇到,因此,在全基因組關(guān)聯(lián)分析領(lǐng)域,普遍認(rèn)為所有的SNP都是二等位多態(tài)性的,本文的研究亦是如此。SNP具有重要的研究意義[59-60],例如在圖2.1中,由于SNP1擁有C和G兩種基因型,那么在擁有不同基因型的兩個(gè)群體上,這段DNA序列,可能就會(huì)最終生成完全不同的蛋白質(zhì)復(fù)合物,一個(gè)群體可能擁有另一個(gè)群體沒(méi)有的某種物質(zhì),從而在兩個(gè)群體上體現(xiàn)出表型的差異,例如,如果這種物質(zhì)可以促進(jìn)身體的發(fā)育,那么兩個(gè)群體之間的身高將有顯著的差異。如果通過(guò)研究,可以證實(shí)一個(gè)SNP會(huì)對(duì)人類(lèi)的未來(lái)造成什么樣的影響,就可以通過(guò)后天的干預(yù)而盡量回避掉那些不良的后果,這對(duì)于提高人類(lèi)的生活質(zhì)量有著巨大的意義。
本文編號(hào):3328881
本文鏈接:http://sikaile.net/shoufeilunwen/jckxbs/3328881.html
最近更新
教材專(zhuān)著