天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 基因論文 >

基于支持向量機(jī)的基因-基因交互關(guān)系識(shí)別方法研究

發(fā)布時(shí)間:2018-09-09 15:27
【摘要】:全基因組關(guān)聯(lián)研究(Genome-Wide Association Study,GWAS)通常以單核苷酸多態(tài)性(Single Nucleotide Polymorphism,SNP)為標(biāo)記分析復(fù)雜疾病的遺傳易感性。然而由于基因數(shù)據(jù)具有樣本數(shù)量小,數(shù)據(jù)維度高,數(shù)據(jù)噪聲大等特點(diǎn),通過(guò)傳統(tǒng)實(shí)驗(yàn)的方式研究基因之間的交互關(guān)系比較耗時(shí)、費(fèi)力,并且成本高昂,因此借助數(shù)據(jù)挖掘的相關(guān)技術(shù)準(zhǔn)確的分析基因-基因的交互關(guān)系對(duì)于復(fù)雜疾病的病因探索或?qū)ふ乙赘谢蛴兄匾饬x。本文以基因-基因交互關(guān)系作為研究對(duì)象,針對(duì)目前基因-基因交互關(guān)系識(shí)別方法研究存在的不足,通過(guò)數(shù)據(jù)挖掘技術(shù),提出一種新的交互關(guān)系識(shí)別算法。具體的研究?jī)?nèi)容為:(1)提出了基于支持向量機(jī)的基因交互關(guān)系識(shí)別算法SVMITER。為了避免多重比較問(wèn)題中結(jié)果假陽(yáng)性過(guò)高,本文首先根據(jù)支持向量機(jī)理論結(jié)合笛卡爾積算法思想,提出了基于支持向量機(jī)的屬性組合迭代算法SVMITER。算法首先使用支持向量機(jī)對(duì)SNP進(jìn)行初期的篩選,然后將篩選后的SNP使用笛卡爾積算法進(jìn)行SNP屬性的組合,接著將得到的SNP組合使用支持向量機(jī)進(jìn)行模型構(gòu)建,根據(jù)F-Measure值判斷該模型是否是最佳模型,如果不是繼續(xù)使用笛卡爾積算法進(jìn)行更高階SNP屬性的組合,以此類(lèi)推直到得到最佳預(yù)測(cè)模型為止。在模擬數(shù)據(jù)的實(shí)驗(yàn)中,首先進(jìn)行了核函數(shù)選擇和參數(shù)調(diào)優(yōu),接著使用了評(píng)估指標(biāo)Precision、Recall和F-Measure值與三種數(shù)據(jù)挖掘算法BOOST、Random Forest和MDR進(jìn)行對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)SVMITER算法性能最優(yōu)。(2)基于SVMITER算法的低階基因-基因交互關(guān)系識(shí)別。本文使用SVMITER方法針對(duì)低階基因交互關(guān)系進(jìn)行識(shí)別,分別采用模擬數(shù)據(jù)與真實(shí)數(shù)據(jù)兩種數(shù)據(jù)集。通過(guò)與現(xiàn)有方法的比較和兩個(gè)真實(shí)案例分析表明,SVMITER算法在模擬數(shù)據(jù)中識(shí)別性能POWER值比BOOST算法高,在真實(shí)數(shù)據(jù)中可以準(zhǔn)確的識(shí)別出SNP組合rs380390和rs1329428等。(3)基于SVMITER算法的高階基因-基因交互關(guān)系識(shí)別。在低階基因交互關(guān)系的研究基礎(chǔ)上,本文繼續(xù)使用SVMITER方法針對(duì)高階基因-基因交互關(guān)系問(wèn)題進(jìn)行分析研究,采用模擬數(shù)據(jù)與真實(shí)數(shù)據(jù)兩種數(shù)據(jù)集。通過(guò)與現(xiàn)有方法的比較和案例分析表明,SVMITER算法在高階模擬數(shù)據(jù)中可以識(shí)別出5階SNP組合,識(shí)別性能POWER值依舊比BOOST算法高,在真實(shí)數(shù)據(jù)中準(zhǔn)確的識(shí)別出已被發(fā)現(xiàn)的5階SNP組合。
[Abstract]:Genome-Wide Association Study (GWAS) usually uses single nucleotide polymorphism (SNP) as a marker to analyze the genetic susceptibility of complex diseases. However, due to the characteristics of small sample size, high data dimension and high data noise, traditional experimental methods are used to study genes. Interaction between genes is time-consuming, laborious and costly. Therefore, it is important to analyze gene-gene interaction accurately with the help of data mining technology for exploring the etiology of complex diseases or finding susceptible genes. In order to avoid false positive results in multiple comparisons, this paper first proposes a new algorithm based on support vector machine (SVMITER). Based on the idea of Cartesian product algorithm, an attribute combination iterative algorithm SVMITER based on support vector machine is proposed. The algorithm first uses support vector machine to filter the SNP in the initial stage, then uses Cartesian product algorithm to combine the SNP attributes, and then uses support vector machine to construct the SNP model. According to the F-Measure value, we can judge whether the model is the best or not. If we do not continue to use Cartesian product algorithm to combine higher-order SNP attributes, and so on, until we get the best prediction model. In the experiment of simulation data, we first select the kernel function and tune the parameters, then use the evaluation index Precision, Recall. Compared with the three data mining algorithms BOOST, Random Forest and MDR, the SVMITER algorithm has the best performance. (2) Recognition of low-order gene-gene interaction based on SVMITER algorithm. Comparing with existing methods and two real case studies, SVMITER has higher POWER value in simulated data than BOOST, and can accurately identify SNP combinations such as rs380390 and rs1329428 in real data. (3) High-order gene-gene interaction recognition based on SVMITER. Low-order gene interaction On the basis of the research on the relationship, this paper continues to use SVMITER method to analyze and study the high-order gene-gene interaction problem, using two kinds of data sets, simulation data and real data. By comparing with the existing methods and case analysis, SVMITER algorithm can identify the 5th-order SNP combination in high-order simulation data and identify the performance PO. The WER value is still higher than the BOOST algorithm, and the 5 order SNP combination has been identified accurately in real data.
【學(xué)位授予單位】:西北農(nóng)林科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:Q811.4;TP311.13

【相似文獻(xiàn)】

相關(guān)會(huì)議論文 前1條

1 高湘澤;;人與人之間的交互關(guān)系何以可能和可知?——讓-保羅·薩特的有關(guān)思想略論[A];人學(xué)與現(xiàn)代化——全國(guó)第六屆人學(xué)研討會(huì)論文集[C];2004年

相關(guān)博士學(xué)位論文 前1條

1 蘭盈盈;贛江三角洲地下水與地表水交互關(guān)系及其生態(tài)效應(yīng)[D];中國(guó)地質(zhì)大學(xué);2016年

相關(guān)碩士學(xué)位論文 前4條

1 吳紅梅;基于上下文語(yǔ)義相似性約束的蛋白質(zhì)交互關(guān)系識(shí)別[D];南京航空航天大學(xué);2016年

2 封二英;基于大規(guī)模文本的蛋白質(zhì)交互關(guān)系自動(dòng)提取研究[D];南京航空航天大學(xué);2012年

3 張盼盼;基于篇章的蛋白質(zhì)交互關(guān)系抽取[D];大連理工大學(xué);2014年

4 吳彥;信息技術(shù)業(yè)上市企業(yè)投融資交互關(guān)系的實(shí)證檢驗(yàn)[D];電子科技大學(xué);2008年



本文編號(hào):2232774

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/2232774.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)80b97***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
欧美成人高清在线播放| 日本视频在线观看不卡| 欧美精品中文字幕亚洲| 九九热这里有精品20| 视频一区二区黄色线观看| 大尺度剧情国产在线视频| 欧美黑人在线精品极品| 青青操成人免费在线视频| 激情中文字幕在线观看| 亚洲精品伦理熟女国产一区二区 | 国产盗摄精品一区二区视频| 亚洲国产精品国自产拍社区| 国产真人无遮挡免费视频一区| 亚洲一区二区三区在线中文字幕| 日韩日韩日韩日韩在线| 五月婷婷综合激情啪啪| 人妻少妇av中文字幕乱码高清| 精品少妇一区二区三区四区| 日本福利写真在线观看| 欧美极品欧美精品欧美| 中文字幕精品人妻一区| 亚洲中文字幕综合网在线| 东京热一二三区在线免| 午夜精品黄片在线播放| 一区二区三区亚洲天堂| 国产又粗又硬又大又爽的视频| 午夜色午夜视频之日本| 中文字幕在线五月婷婷| 国产亚洲欧美日韩精品一区| 神马午夜福利免费视频| 国产又猛又大又长又粗| 久热久热精品视频在线观看| 欧洲亚洲精品自拍偷拍| 国产一区国产二区在线视频| 亚洲免费黄色高清在线观看| 一区二区三区四区亚洲专区| 国产主播精品福利午夜二区| 欧美成人高清在线播放| 国产肥妇一区二区熟女精品| 人妻偷人精品一区二区三区不卡 | 夜色福利久久精品福利|