天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于最大信息系數(shù)的復(fù)雜疾病全基因組關(guān)聯(lián)算法研究

發(fā)布時(shí)間:2018-04-17 10:48

  本文選題:全基因組關(guān)聯(lián)研究 + 最大信息系數(shù)。 參考:《電子科技大學(xué)》2015年博士論文


【摘要】:全基因組關(guān)聯(lián)研究是人類基因組計(jì)劃完成后實(shí)施的一種對(duì)復(fù)雜疾病的成套DNA全基因組測(cè)序和掃描計(jì)劃,以試圖發(fā)現(xiàn)疾病的基因變異和單核苷酸多態(tài)性,研究并確定疾病易感區(qū)域和相關(guān)基因,尋找疾病標(biāo)記物,實(shí)現(xiàn)疾病的早期診斷和有效的個(gè)性化治療,開發(fā)新的藥物和采取特異性防治措施。此類研究是在全基因組層面上開展的多中心、大樣本和反復(fù)驗(yàn)證的基因與疾病的關(guān)聯(lián)研究,試圖全面揭示疾病發(fā)生、發(fā)展與治療相關(guān)的遺傳基因。為達(dá)到關(guān)聯(lián)研究的目的,許多有前景的算法或?qū)S霉ぞ哕浖嗬^問(wèn)世。雖然現(xiàn)有算法在計(jì)算和統(tǒng)計(jì)學(xué)上被驗(yàn)證為有用工具,但有研究指出它們?cè)谕ㄓ脭?shù)據(jù)上的表現(xiàn)還存在較大的不明確性。同時(shí),由于全基因組數(shù)據(jù)本身具有數(shù)據(jù)量龐大、離散等特殊性,使得現(xiàn)有算法在算法效率、統(tǒng)計(jì)功效和假陽(yáng)率等方面并不盡人意,所以,進(jìn)一步發(fā)展新的全基因組關(guān)聯(lián)研究算法仍然是生物信息學(xué)研究人員需要不懈努力的方向。為此,本文開展了以下研究工作:(1)分析和研究了最大信息系數(shù)(Maximal Information Coefficient,MIC)。MIC是一種新穎的統(tǒng)計(jì)方法,它能夠很好地滿足相關(guān)變量分析中的公平性和通用性,明顯優(yōu)于常見(jiàn)的皮爾遜系數(shù)、Spearman系數(shù)、互信息、CorGC和最大相關(guān)系數(shù),因此本文將該方法引入全基因組關(guān)聯(lián)研究。本文從數(shù)學(xué)上討論了MIC原理,證明了它的一個(gè)重要遞推式,詳細(xì)介紹了MIC算法的實(shí)現(xiàn)步驟,最后分析了把MIC直接引入到基因型數(shù)據(jù)的全基因組關(guān)聯(lián)研究的不足和基于MIC的全基因組關(guān)聯(lián)研究的可行性。(2)提出了基于MIC的疾病-SNP關(guān)聯(lián)搜索算法MICSNPs。MICSNPs使用蒙特卡洛置換檢驗(yàn)把MIC值映射到P值,消除了MIC值波動(dòng)的影響,同時(shí)結(jié)合基于滑動(dòng)窗口二分搜索算法來(lái)節(jié)約算法時(shí)間(該算法時(shí)間約為線性搜索的0.58%)。為了使MICSNPs在算法統(tǒng)計(jì)功效、假陽(yáng)率和算法時(shí)間三者之間取得最佳折衷,本文還研究了蒙特卡洛采樣數(shù)與上述三項(xiàng)指標(biāo)之間的關(guān)系,發(fā)現(xiàn)了最佳的蒙特卡洛采樣數(shù)為2~4倍的生物標(biāo)記數(shù)量,與樣本大小無(wú)關(guān);谡鎸(shí)全基因組關(guān)聯(lián)數(shù)據(jù)和仿真數(shù)據(jù)的測(cè)試結(jié)果表明,在把蒙特卡洛采樣次數(shù)縮減為標(biāo)記數(shù)量的4倍并使用基于滑動(dòng)窗口的二分搜索算法后,MICSNPs無(wú)論在計(jì)算性能及統(tǒng)計(jì)學(xué)上均是可行和有效的,且其整體性能優(yōu)于現(xiàn)有算法。(3)提出了基于MIC的疾病-SNP關(guān)聯(lián)搜索算法mBoMIC。首先,通過(guò)對(duì)傳統(tǒng)Bagging算法的修改,本文提出了一種mBagging(modified Bagging)算法,其中心思想就是把傳統(tǒng)Bagging算法相同的袋內(nèi)和袋外自舉抽樣數(shù)據(jù)量改變?yōu)椴煌?且要求袋內(nèi)數(shù)量少于袋外數(shù)量。由于較少的袋內(nèi)數(shù)據(jù)在保證最佳統(tǒng)計(jì)功效的同時(shí)降低了計(jì)算復(fù)雜度,而較多的袋外數(shù)據(jù)又進(jìn)一步提高統(tǒng)計(jì)功效,所以mBaggnig算法達(dá)到了在縮減算法時(shí)間的前提下提升統(tǒng)計(jì)功效的目的。另外,較少的袋內(nèi)數(shù)據(jù),減輕了傳統(tǒng)Bagging算法的“過(guò)擬合”現(xiàn)象,因此,mBagging算法的假陽(yáng)率比傳統(tǒng)Bagging算法的低。本文提出的mBagging算法的主要貢獻(xiàn)是把原本矛盾的“統(tǒng)計(jì)功效”、“假陽(yáng)率”和“算法時(shí)間”三個(gè)指標(biāo)同時(shí)得到了較大的改善。接著,使用本文提出的mBagging算法對(duì)MIC方法進(jìn)行組合,形成了一種新型的疾病-SNP關(guān)聯(lián)搜索算法mBoMIC。mBoMIC算法結(jié)合了MIC和mBagging算法的優(yōu)點(diǎn),克服了MIC的低統(tǒng)計(jì)功效并避免了MIC值的波動(dòng)現(xiàn)象。在500組數(shù)據(jù)上,本文將分別使用20、400作為袋內(nèi)、袋外數(shù)據(jù)抽樣數(shù)的mBoMIC算法與使用抽樣數(shù)為400的傳統(tǒng)Bagging算法相比較,mBoMIC算法的平均算法時(shí)間減少了80.3%、平均統(tǒng)計(jì)功效增加了15.2%、平均假陽(yáng)性率減少了31.3%。最后,采用仿真和真實(shí)數(shù)據(jù)測(cè)試mBoMIC算法,結(jié)果表明新算法比現(xiàn)有算法具有更好的統(tǒng)計(jì)功效,在生物標(biāo)記選擇上是一種可行的算法。(4)構(gòu)建了基于MIC的疾病相關(guān)差異表達(dá)基因/microRNA識(shí)別算法。全基因組關(guān)聯(lián)研究算法不僅可用于探索基因型數(shù)據(jù),也能分析基因/micro RNA表達(dá)數(shù)據(jù)。本文利用MIC構(gòu)造了基因/microRNA表達(dá)譜分析算法,用于全基因組微陣列表達(dá)數(shù)據(jù)中挖掘與疾病關(guān)聯(lián)的基因/microRNA。本文采用新算法分析了一個(gè)房顫-對(duì)照的基因表達(dá)數(shù)據(jù)和一個(gè)瓣膜性心臟病-對(duì)照的microRNA表達(dá)數(shù)據(jù),識(shí)別出41個(gè)房顫差異表達(dá)基因,其中有14個(gè)基因是已有工作未發(fā)現(xiàn)的新差異表達(dá)基因。信號(hào)通路和富集分析表明,這些差異表達(dá)基因與房顫高度相關(guān);發(fā)現(xiàn)了2個(gè)強(qiáng)烈差異表達(dá)的microRNA,其中hsa-miR-221*是已有工作未發(fā)現(xiàn)的新差異表達(dá)microRNA。本文順利地把MIC引入到了全基因組關(guān)聯(lián)研究,克服了MIC的不足,建立了MICSNPs、mBoMIC和微陣列基因/microRNA表達(dá)譜分析等多種有效算法,為從全基因組數(shù)據(jù)中搜索和識(shí)別復(fù)雜疾病關(guān)聯(lián)的生物標(biāo)記提供了重要的計(jì)算工具。
[Abstract]:A genome-wide association study of complex diseases is a complete DNA completion of the human genome project after the implementation of whole genome sequencing and scanning plan, in order to find the disease gene mutation and single nucleotide polymorphism, and research to identify susceptible regions and genes related to diseases, looking for disease markers, achieve early diagnosis of disease and effective personalized for the development of new drugs and take specific prevention measures. This kind of research is to carry out multi center at the whole genome level, gene and disease association studies of large sample and repeated verification, trying to fully reveal the disease occurrence, development and treatment of genetically related. In order to achieve the goal of the correlation study, many promising the algorithm or special tools have been published. Although the existing algorithm in computing and statistics has proven to be a useful tool, but studies have pointed out that in general data The performance is also uncertainty larger. At the same time, because the whole genome data itself has a huge amount of data, such as the particularity of the discrete, existing algorithms in the efficiency of the algorithm, the statistical effect and the false positive rate and unsatisfactory, therefore, further development of whole genome association studies of the new algorithm is still the researchers of biological information learn the unremitting efforts direction. Therefore, this paper carried out the following research work: (1) research and analysis of the maximum information coefficient (Maximal Information Coefficient, MIC.MIC) is a novel statistical method, it can well meet the relevant variables in the analysis of fairness and universality, is better than the Pearson coefficient. The common Spearman coefficient, mutual information, CorGC and the maximum correlation coefficient, this paper will introduce the method of genome-wide association studies. This article discusses the MIC principle in mathematics, it is proved that the A A recursive, detailed introduces the implementation steps of MIC algorithm, finally analyzed the MIC directly into the lack of a genome-wide association study of genotypic data and based on the feasibility of genome-wide association study MIC. (2) proposed the disease -SNP association based on MIC search algorithm MICSNPs.MICSNPs to use Monte Carlo permutation test the MIC value is mapped to the P value, MIC eliminates the fluctuations in the value of two points, combined with the sliding window search algorithm based on time saving algorithm (the algorithm time is approximately linear search 0.58%). In order to make the MICSNPs algorithm in statistical power, achieve the best trade-off between false positive rate and time of the three algorithms, this paper also studies the relationship between Monte Carlo sampling number and the above three indexes, it was found that the optimum number of biomarkers for Monte Carlo sampling number 2~4 times, has nothing to do with the real whole genome based on sample size. The test results related data and simulation data show that the number of Monte Carlo sampling was reduced to 4 times the number of markers and use the sliding window search algorithm based on two points, MICSNPs is feasible and effective in terms of performance calculation and statistics, and its overall performance is better than the existing algorithm. (3) proposed disease -SNP MIC search algorithm based on mBoMIC. firstly, based on the traditional Bagging algorithm changes, this paper proposes a mBagging (modified Bagging) algorithm, the main idea is to the traditional Bagging algorithm has the same bag and the bag of bootstrap sampling data for different amount of change, and the bag bag number is less than the quantity. Due to less data in the bag to ensure the best statistical power while reducing the computational complexity, and more of the bag outside the data and further improve statistical efficiency, so mBaggnig algorithm achieves a reduction in To enhance the statistical power under the premise of time. In addition, less data bag, compared with the traditional Bagging algorithm over fitting phenomenon, therefore, the false positive rate of the mBagging algorithm than the traditional Bagging algorithm. The main contribution of mBagging algorithm is proposed in this paper is the original contradiction of the "statistical power" "false positive rate" and "algorithm" three indicators also improved. Then, using the proposed mBagging algorithm for the combination of the MIC method, the formation of a new type of disease associated -SNP search algorithm mBoMIC.mBoMIC algorithm combines the advantages of MIC and mBagging algorithm, to overcome the low statistical power of MIC and to avoid the fluctuation of MIC value. In 500 groups of data, this paper will use 20400 as the bag, mBoMIC bag outside the data sampling algorithm and traditional Bagging algorithm using sampling number is 400 compared Compared with the average time of mBoMIC algorithm, the algorithm is reduced by 80.3%, the average statistical power increased by 15.2%, the average false positive rate decreased by 31.3%. finally, by simulation and real data test results show that the mBoMIC algorithm, the new algorithm has better statistical power than the existing algorithm, in the selection of biomarkers is a feasible algorithm (. 4) MIC was constructed based on disease related gene /microRNA recognition algorithm. The algorithm of genome-wide association studies not only can be used to explore the genotype data, to analyze the /micro gene RNA expression data. This paper uses the MIC to construct /microRNA gene expression spectrum analysis algorithm for whole genome microarray data mining and related diseases this paper adopts a new algorithm /microRNA. gene analysis of a af - control of gene expression data and a valvular heart disease control microRNA expression data, identify 4 Gene expression of 1 AF differences, of which 14 genes are new gene expression differences have not found work. And the signal pathway enrichment analysis showed that these differentially expressed genes associated with AF highly real; found the expression of 2 strong differences in microRNA, where hsa-miR-221* is a new work has not found the difference expression of microRNA. this paper successfully introduced MIC to a genome-wide association study to overcome the shortcomings of MIC, established the MICSNPs, mBoMIC and /microRNA gene expression in a variety of spectral analysis algorithm, provides an important tool for the calculation of biological markers to search and identify associated complex diseases from the whole genome data.

【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:R3416

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 ;2011年全基因組關(guān)聯(lián)研究國(guó)際論壇會(huì)議通知[J];中華疾病控制雜志;2011年04期

2 嚴(yán)衛(wèi)麗,顧東風(fēng);復(fù)雜疾病關(guān)聯(lián)研究中的若干問(wèn)題[J];遺傳學(xué)報(bào);2004年05期

3 黃世杰;;全基因組關(guān)聯(lián)研究的進(jìn)展及其發(fā)現(xiàn)和開發(fā)藥物的潛力[J];國(guó)際藥學(xué)研究雜志;2008年06期

4 馬yN楠;陳志越;張英;鈕淑蘭;許玉鳳;裴佩;卜定方;戚豫;;祖先信息標(biāo)記在關(guān)聯(lián)研究中的應(yīng)用[J];中華醫(yī)學(xué)雜志;2005年34期

5 鄭偉;季林丹;邢文華;涂巍巍;徐進(jìn);;肺結(jié)核全基因組關(guān)聯(lián)研究進(jìn)展[J];遺傳;2013年07期

6 李莎莎;韓凌;肖雪;黎莉;王義明;羅國(guó)安;;全基因組關(guān)聯(lián)研究進(jìn)展及應(yīng)用前景[J];廣東醫(yī)學(xué);2011年05期

7 全贊榮;;動(dòng)脈硬化性腦梗死與人類MHC-DR基因多態(tài)性的關(guān)聯(lián)研究[J];中國(guó)傷殘醫(yī)學(xué);2009年03期

8 鄭玲玲;蔡琳;;肺癌的全基因組關(guān)聯(lián)研究進(jìn)展[J];衛(wèi)生研究;2011年05期

9 智聯(lián)騰;周鋼橋;賀福初;;人類復(fù)雜疾病關(guān)聯(lián)研究中群體分層的檢出和校正[J];遺傳;2007年01期

10 王久存;金力;;風(fēng)濕病的遺傳學(xué)研究:全基因組關(guān)聯(lián)研究和后全基因組關(guān)聯(lián)研究時(shí)代[J];內(nèi)科理論與實(shí)踐;2011年05期

相關(guān)會(huì)議論文 前10條

1 沈洪兵;;全基因組關(guān)聯(lián)研究的現(xiàn)狀與挑戰(zhàn)[A];華東地區(qū)第十次流行病學(xué)學(xué)術(shù)會(huì)議暨華東地區(qū)流行病學(xué)學(xué)術(shù)會(huì)議20周年慶典論文匯編[C];2010年

2 李歡;張曉博;陳紅巖;盧大儒;;基于全基因組關(guān)聯(lián)研究的中國(guó)肺癌風(fēng)險(xiǎn)預(yù)測(cè)模型研究[A];2012年中國(guó)青年遺傳學(xué)家論壇會(huì)議文集[C];2012年

3 白凱;孫天宇;謝雪梅;;旅游目的地形象的符號(hào)隱喻關(guān)聯(lián)研究——以陜西省為例[A];地理學(xué)與生態(tài)文明建設(shè)——中國(guó)地理學(xué)會(huì)2008年學(xué)術(shù)年會(huì)論文摘要集[C];2008年

4 王檸;;神經(jīng)系統(tǒng)復(fù)雜疾病全基因組關(guān)聯(lián)研究的現(xiàn)狀與展望[A];中華醫(yī)學(xué)會(huì)第十三次全國(guó)神經(jīng)病學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2010年

5 郭倩;姜磊;殷健;黃少蘭;趙靜;劉_g;張立斌;吳歆;徐滬濟(jì);;Nanodrop檢測(cè)中260/230值對(duì)全基因組關(guān)聯(lián)研究樣本質(zhì)檢的重要意義[A];第17次全國(guó)風(fēng)濕病學(xué)學(xué)術(shù)會(huì)議論文集[C];2012年

6 段化偉;;多環(huán)芳烴致基因組不穩(wěn)定性表型及其相關(guān)基因的關(guān)聯(lián)研究[A];全國(guó)生化/工業(yè)與衛(wèi)生毒理學(xué)學(xué)術(shù)會(huì)議論文集[C];2010年

7 張昆林;常素華;張柳燕;郭黎媛;王晶;;從全基因組關(guān)聯(lián)研究到與性狀相關(guān)的生物學(xué)通路[A];心理疾患的早期識(shí)別與干預(yù)——第三屆心理健康學(xué)術(shù)年會(huì)論文集[C];2013年

8 溫廣東;;CTLA-4+49A/G與-318C/T多態(tài)性與白塞氏病易感性的關(guān)聯(lián)研究:meta分析[A];中華醫(yī)學(xué)會(huì)第十八次全國(guó)皮膚性病學(xué)術(shù)年會(huì)論文匯編[C];2012年

9 張娟;許琪;沈巖;;右旋氨基酸氧化酶激活物(DAOA)基因與重型精神病的關(guān)聯(lián)研究[A];中國(guó)遺傳學(xué)會(huì)第八次代表大會(huì)暨學(xué)術(shù)討論會(huì)論文摘要匯編(2004-2008)[C];2008年

10 曹音;;兒茶酚氧位甲基轉(zhuǎn)移酶基因多態(tài)性與糖尿病伴抑郁的關(guān)聯(lián)研究[A];中華醫(yī)學(xué)會(huì)第十次全國(guó)精神醫(yī)學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2012年

相關(guān)重要報(bào)紙文章 前3條

1 記者 馮立中;我國(guó)學(xué)者發(fā)現(xiàn)精神分裂癥易感基因[N];健康報(bào);2011年

2 記者 陳江 通訊員 黎霞;我區(qū)莫曾南教授在《自然》在線發(fā)表論文[N];廣西日?qǐng)?bào);2012年

3 馮立中 記者 吳長(zhǎng)鋒;我學(xué)者發(fā)現(xiàn)麻風(fēng)、精神分裂癥易感基因[N];科技日?qǐng)?bào);2011年

相關(guān)博士學(xué)位論文 前4條

1 于海兵;瘦素信號(hào)通路及脂聯(lián)素信號(hào)通路與2型糖尿病的關(guān)聯(lián)研究[D];南方醫(yī)科大學(xué);2015年

2 劉漢明;基于最大信息系數(shù)的復(fù)雜疾病全基因組關(guān)聯(lián)算法研究[D];電子科技大學(xué);2015年

3 楊威;ACE2基因多態(tài)與冠心病/心梗的關(guān)聯(lián)研究及全基因組關(guān)聯(lián)研究中的通路分析方法[D];中國(guó)協(xié)和醫(yī)科大學(xué);2008年

4 王曄;視網(wǎng)膜神經(jīng)節(jié)細(xì)胞發(fā)育調(diào)控網(wǎng)絡(luò)基因單核苷酸多態(tài)性與原發(fā)性開角型青光眼的關(guān)聯(lián)研究[D];青島大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 王冠華;SNPrs17728461、 rs4488809和rs753955與寧夏漢族人群肺癌遺傳易感性的關(guān)聯(lián)研究[D];寧夏醫(yī)科大學(xué);2015年

2 龔云峰;上市公司股權(quán)結(jié)構(gòu)與效益的關(guān)聯(lián)研究[D];蘇州大學(xué);2002年

3 馬虹霞;哈密市物流業(yè)與其相關(guān)產(chǎn)業(yè)的灰色關(guān)聯(lián)研究[D];華中農(nóng)業(yè)大學(xué);2010年

4 黃少蘭;人群特異標(biāo)記對(duì)風(fēng)濕病關(guān)聯(lián)研究的影響以及在關(guān)聯(lián)研究人群分層分析中的應(yīng)用[D];第二軍醫(yī)大學(xué);2012年

5 李香梅;《興夫傳》與中國(guó)文化關(guān)聯(lián)研究[D];延邊大學(xué);2014年

6 潘韻;英漢即興演講同傳中停頓特點(diǎn)與流利度的關(guān)聯(lián)研究[D];北京外國(guó)語(yǔ)大學(xué);2015年

7 宋杰潔;上海市就業(yè)—居住關(guān)系與城市通勤的關(guān)聯(lián)研究[D];華東師范大學(xué);2010年

8 馬昭君;全基因組關(guān)聯(lián)研究中的二階段病例-對(duì)照設(shè)計(jì)[D];南京醫(yī)科大學(xué);2010年

9 陸鳳;染色體6p21.1和6p22.3區(qū)域遺傳變異與江蘇人群2型糖尿病易感性的關(guān)聯(lián)研究[D];南京醫(yī)科大學(xué);2012年

10 李歡;基于全基因組關(guān)聯(lián)研究的中國(guó)人群肺癌風(fēng)險(xiǎn)預(yù)測(cè)模型研究[D];復(fù)旦大學(xué);2012年

,

本文編號(hào):1763281

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/yixuelunwen/jichuyixue/1763281.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1c0b6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
久久国产精品热爱视频| 91亚洲国产成人久久| 又色又爽又无遮挡的视频| 午夜国产成人福利视频| 99久久人妻中文字幕| 国产麻豆一线二线三线| 日韩午夜福利高清在线观看| 国产一区二区三区口爆在线| 亚洲一区二区精品福利| 少妇一区二区三区精品| 日韩人妻一区二区欧美| 九九热视频免费在线视频| 欧美黑人在线精品极品| 视频一区二区 国产精品| 亚洲乱妇熟女爽的高潮片| 成人国产激情福利久久| 亚洲天堂有码中文字幕视频| 国产精品视频一区麻豆专区| 欧美成人免费一级特黄| 国产一区二区熟女精品免费| 国产人妻熟女高跟丝袜| 国产精品欧美激情在线| 好吊日在线观看免费视频| 国产色偷丝袜麻豆亚洲| 五月天六月激情联盟网| 午夜精品成年人免费视频| 亚洲精品中文字幕在线视频| 日韩中文字幕在线不卡一区| 欧美尤物在线观看西比尔| 久久99青青精品免费| 亚洲国产av在线观看一区| 肥白女人日韩中文视频| 福利在线午夜绝顶三级| 清纯少妇被捅到高潮免费观看| 国内午夜精品视频在线观看| 久久精品蜜桃一区二区av| 国产精品亚洲综合色区韩国| 免费特黄欧美亚洲黄片| 沐浴偷拍一区二区视频| 成人精品网一区二区三区| 又黄又硬又爽又色的视频|