天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

生物信息學(xué)中的不平衡學(xué)習(xí)新方法研究

發(fā)布時間:2018-04-16 20:07

  本文選題:不平衡學(xué)習(xí) + 上采樣; 參考:《南京理工大學(xué)》2017年碩士論文


【摘要】:生物信息學(xué)是一門涉及生命科學(xué)和計算科學(xué)的交叉學(xué)科,致力于通過計算和統(tǒng)計技術(shù)來解決生物數(shù)據(jù)分析和計算中所產(chǎn)生的實際問題。生物信息學(xué)專注于開發(fā)和應(yīng)用計算技術(shù)來增加對生物過程的理解。在機(jī)器學(xué)習(xí)問題中,類別不平衡問題嚴(yán)重影響一些標(biāo)準(zhǔn)分類器的性能。機(jī)器學(xué)習(xí)領(lǐng)域的研究表明直接對不平衡問題應(yīng)用傳統(tǒng)的機(jī)器學(xué)習(xí)方法往往導(dǎo)致預(yù)測結(jié)果偏向多數(shù)類。在許多機(jī)器學(xué)習(xí)問題中,數(shù)據(jù)的不平衡現(xiàn)象普遍存在,而生物信息學(xué)問題也不例外。蛋白質(zhì)-ATP(即三磷酸腺苷)綁定位點預(yù)測問題是一個典型的不平衡二分類問題,其中綁定殘基的數(shù)量遠(yuǎn)遠(yuǎn)少于非綁定殘基。在多種生物活動中,ATP通過蛋白質(zhì)的綁定位點與蛋白質(zhì)相互作用,因此準(zhǔn)確鑒別綁定殘基尤為重要。對于不平衡學(xué)習(xí)問題,我們可以通過平衡類的分布來提升基于機(jī)器學(xué)習(xí)預(yù)測器的預(yù)測性能。上采樣是解決類不平衡問題的常用方法,其通過合成新的少數(shù)類樣本來平衡類的分布。本文中我們提出一種基于高斯混合模型的上采樣方法來相對平衡類的分布,從而盡可能消除數(shù)據(jù)不平衡帶來的不利影響。該方法使用高斯混合模型來模擬少數(shù)類的分布,在此基礎(chǔ)上使用得到的模型來生成新的少數(shù)類樣本。對于生成的樣本,我們采用Tomek-links數(shù)據(jù)清洗技術(shù)來對其進(jìn)行篩選。在UCI類別不平衡數(shù)據(jù)集上的實驗結(jié)果表明我們所提出的方法能夠緩解類不平衡所帶來的負(fù)面影響并幫助提升分類性能。為了進(jìn)一步驗證該方法的有效性,我們將其應(yīng)用到蛋白質(zhì)-ATP綁定位點預(yù)測問題中。與此同時,我們選擇使用稀疏表示方法來更好地對生成的樣本進(jìn)行篩選,保留那些具有語義信息更為明確的樣本。我們在蛋白質(zhì)-ATP作用有關(guān)的幾個國際標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了一系列實驗,實驗結(jié)果驗證了本文所提出方法的有效性。
[Abstract]:Bioinformatics is an interdisciplinary discipline involving life science and computational science. It is devoted to solving the practical problems in biological data analysis and calculation through computing and statistical techniques.Bioinformatics focuses on the development and application of computing techniques to increase understanding of biological processes.In machine learning problems, class imbalance seriously affects the performance of some standard classifiers.Research in the field of machine learning shows that the direct application of traditional machine learning methods to unbalanced problems often leads to the bias of prediction results to most classes.In many machine learning problems, data imbalance exists widely, and bioinformatics is no exception.The prediction of binding sites of protein-ATP is a typical disequilibrium binary classification problem in which the number of binding residues is much less than that of unbound residues.In many biological activities, ATP interacts with proteins through protein binding sites, so it is very important to identify binding residues accurately.For unbalanced learning problems, we can improve the prediction performance of machine learning predictors by the distribution of balanced classes.Upper sampling is a common method to solve class imbalance problem. It balances class distribution by synthesizing a few new class samples.In this paper, we propose a method of upper sampling based on Gao Si's mixed model to compare the distribution of equilibrium classes, so as to eliminate the adverse effects of data imbalance as much as possible.In this method, Gao Si mixed model is used to simulate the distribution of a few classes, and the resulting model is used to generate new minority class samples.For the generated samples, we use Tomek-links data cleaning technology to screen them.The experimental results on the UCI class imbalance dataset show that the proposed method can mitigate the negative effects of class imbalance and help to improve the classification performance.To further verify the effectiveness of this method, we applied it to protein-ATP binding site prediction.At the same time, we choose to use sparse representation method to better filter the generated samples and retain those samples with more explicit semantic information.We have carried out a series of experiments on several international standard data sets related to protein-ATP interaction. The experimental results show that the proposed method is effective.
【學(xué)位授予單位】:南京理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:Q811.4;TP181

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李偉超;林國;管濤;;高斯混合模型在錯誤隱藏技術(shù)中的應(yīng)用[J];實驗室研究與探索;2012年06期

2 張欽禮;王士同;譚左平;;二型Takagi-Sugeno-Kang模糊模型和不確定高斯混合模型的等價性[J];控制理論與應(yīng)用;2009年02期

3 余鵬;童行偉;封舉富;;基于最大懲罰似然的高斯混合模型無監(jiān)督分類研究[J];應(yīng)用概率統(tǒng)計;2008年05期

4 向晶;周紹光;陳超;;基于改進(jìn)高斯混合模型的遙感影像道路提取[J];測繪工程;2014年03期

5 何非;張學(xué)杰;;一種基于高斯混合模型的實時色彩轉(zhuǎn)換算法[J];云南大學(xué)學(xué)報(自然科學(xué)版);2009年S1期

6 余鵬,封舉富,童行偉;一種新的基于高斯混合模型的紋理圖像分割方法[J];武漢大學(xué)學(xué)報(信息科學(xué)版);2005年06期

7 石玉;;基于懲罰高斯混合模型的微陣列基因表達(dá)數(shù)據(jù)分析[J];中山大學(xué)學(xué)報(自然科學(xué)版);2009年03期

8 蘭志剛;靳衛(wèi)衛(wèi);朱明亮;于新生;國建鳳;周振濤;李凱寶;;基于高斯混合模型的海冰圖像非監(jiān)督聚類分割研究[J];海洋科學(xué);2011年11期

9 胡波;朱谷昌;張遠(yuǎn)飛;冷超;;基于高斯混合模型的遙感信息提取方法研究[J];國土資源遙感;2012年04期

10 陶建斌;舒寧;沈照慶;;基于高斯混合模型的遙感影像連續(xù)型樸素貝葉斯網(wǎng)絡(luò)分類器[J];遙感信息;2010年02期

相關(guān)會議論文 前10條

1 駱俊;馬盡文;;高斯混合模型的遺傳分基融合算法[A];第十二屆全國信號處理學(xué)術(shù)年會(CCSP-2005)論文集[C];2005年

2 廖頻;沈理;;基于高斯混合模型的人臉圖象識別研究[A];2001年中國智能自動化會議論文集(上冊)[C];2001年

3 馬盡文;何學(xué)鋒;;高斯混合模型的數(shù)據(jù)尺度可壓縮參數(shù)學(xué)習(xí)算法[A];第十四屆全國信號處理學(xué)術(shù)年會(CCSP-2009)論文集[C];2009年

4 瞿俊;姜青山;董槐林;;基于高斯混合模型的層次聚類算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2006年

5 蔡念;郭文婷;陳世文;潘晴;;融合高斯混合模型和小波變換的運(yùn)動目標(biāo)檢測[A];第十五屆全國圖象圖形學(xué)學(xué)術(shù)會議論文集[C];2010年

6 龍艷花;郭武;戴禮榮;;一種應(yīng)用于SVM說話者確認(rèn)系統(tǒng)的新型序列核[A];第九屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2007年

7 劉李漫;陶文兵;田金文;;融合多高斯混合模型與Graph Cuts優(yōu)化技術(shù)的目標(biāo)自動檢測方法[A];第十五屆全國圖象圖形學(xué)學(xué)術(shù)會議論文集[C];2010年

8 康永國;雙志偉;陶建華;張維;徐波;;高斯混合模型和碼本映射相結(jié)合的語音轉(zhuǎn)換算法[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2005年

9 應(yīng)冬文;顏永紅;付強(qiáng);國雁萌;;基于約束高斯混合模型的噪聲功率譜估計[A];2010年通信理論與信號處理學(xué)術(shù)年會論文集[C];2010年

10 唐英干;劉東;關(guān)新平;;基于高斯混合模型的多分辨率圖像分割[A];第十二屆全國圖象圖形學(xué)學(xué)術(shù)會議論文集[C];2005年

相關(guān)博士學(xué)位論文 前6條

1 王益文;復(fù)雜網(wǎng)絡(luò)節(jié)點影響力模型及其應(yīng)用[D];浙江大學(xué);2015年

2 羅林;基于數(shù)據(jù)驅(qū)動的非線性過程故障診斷若干問題研究[D];浙江大學(xué);2015年

3 陳雪峰;圖像高斯混合模型的判別學(xué)習(xí)方法[D];北京理工大學(xué);2009年

4 賴裕平;非高斯混合模型的變分學(xué)習(xí)算法研究[D];北京郵電大學(xué);2014年

5 劉輝;miRNA靶標(biāo)預(yù)測的系統(tǒng)生物學(xué)方法研究[D];中國礦業(yè)大學(xué);2009年

6 陶建斌;貝葉斯網(wǎng)絡(luò)模型在遙感影像分類中的應(yīng)用方法研究[D];武漢大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 范苗;基于高斯混合模型的時變過程軟測量建模[D];浙江大學(xué);2015年

2 許莉薇;基于高斯混合模型林業(yè)信息文本分類的技術(shù)研究[D];東北林業(yè)大學(xué);2015年

3 車瀅霞;約束條件下的結(jié)構(gòu)化統(tǒng)計聲學(xué)模型及非平行語料語音轉(zhuǎn)換[D];蘇州大學(xué);2015年

4 張曉紅;基于候選生成的貓臉檢測[D];哈爾濱工業(yè)大學(xué);2015年

5 付娜;基于視頻的運(yùn)動人體行為捕捉算法研究[D];北京理工大學(xué);2015年

6 王炳輝;基于層次貝葉斯自適應(yīng)稀疏的高斯混合模型[D];大連理工大學(xué);2015年

7 邱藤;基于高斯混合模型的EM算法及其應(yīng)用研究[D];電子科技大學(xué);2015年

8 張小林;基于高斯混合模型和非負(fù)矩陣分解的復(fù)雜網(wǎng)絡(luò)社區(qū)檢測[D];西安電子科技大學(xué);2014年

9 姚紹芹;基于聲道譜參數(shù)的語音轉(zhuǎn)換算法研究[D];南京郵電大學(xué);2015年

10 王春輝;基于高斯混合模型的多源異類交通數(shù)據(jù)融合研究[D];杭州師范大學(xué);2016年

,

本文編號:1760394

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1760394.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶47e53***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com