基于支持向量機的串聯(lián)譜圖預(yù)處理模型
發(fā)布時間:2017-12-24 18:19
本文關(guān)鍵詞:基于支持向量機的串聯(lián)譜圖預(yù)處理模型 出處:《深圳大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 蛋白質(zhì)組 串聯(lián)質(zhì)譜圖 譜峰預(yù)處理 除噪 支持向量機
【摘要】:基于串聯(lián)質(zhì)譜技術(shù)的分析方法是如今蛋白質(zhì)鑒定方法中的主角。隨著科技技術(shù)的發(fā)展,質(zhì)譜技術(shù)也日趨成熟,能夠在很短時間內(nèi)產(chǎn)生大量質(zhì)譜圖,但遺憾的是,幾乎每張譜圖中都存在或多或少的噪音。一方面,噪音的存在會延長數(shù)據(jù)庫搜索的時間,最終導(dǎo)致蛋白質(zhì)鑒定時間的增加;另一方面,噪音的存在對質(zhì)譜鑒定結(jié)果存在干擾,噪音嚴(yán)重的情況下,將影響譜圖的鑒定,使其發(fā)生錯誤鑒定或者鑒定不出結(jié)果。因此,各種質(zhì)譜去噪方法如雨后春筍般出現(xiàn)。質(zhì)譜圖去噪方法旨在去除噪音峰的同時保留信號峰。傳統(tǒng)的去噪方法多是基于閾值:譜圖中強度低于設(shè)定閾值的峰將會被舍去;又或者選取強度排名前X的峰作為信號峰,X可根據(jù)需要自行設(shè)定;除此之外,還有一種以X Da為單位,選取范圍內(nèi)排名靠前的峰的方法,X同樣可根據(jù)譜圖實際情況自行設(shè)定。以上類型的方法都只是簡單考慮了峰的強度,而忽略了隱藏在峰與峰之間的其他特征,在這種過濾方法下,難免會產(chǎn)生有效峰因為強度低而被濾除的情況。機器學(xué)習(xí)是近幾年來熱門研究方向,其種類包含:支持向量機、神經(jīng)網(wǎng)絡(luò)、貝葉斯等,將機器學(xué)習(xí)應(yīng)用于質(zhì)譜除噪是一個新的領(lǐng)域,目前發(fā)表的專業(yè)文章較少,可研究性強。本文通過分析機器學(xué)習(xí)的幾個種類,考慮適用性,提出了一種基于支持向量機的方法。支持向量機是以統(tǒng)計學(xué)習(xí)為基礎(chǔ)的機器學(xué)習(xí)方法,主要用來解決二分類問題。在使用支持向量機構(gòu)建模型的過程中,由于現(xiàn)今的質(zhì)譜圖中存在著數(shù)據(jù)不均衡的情況,負(fù)樣本數(shù)據(jù)占了大部分,如何處理不平衡數(shù)據(jù)也是模型構(gòu)建時需要考慮的地方。對于不平衡數(shù)據(jù)常用的方法有重采樣、欠采樣、代價敏感等,通過分析其原理及適用范圍,我們最終選擇欠采樣方法來處理不平衡數(shù)據(jù)。根據(jù)質(zhì)譜原理及機器學(xué)習(xí)方法,我們最終選擇25個特征構(gòu)建模型,特征包括中性丟失、譜峰強度及同位素等。模型能夠?qū)π盘柗迮c噪音峰進(jìn)行預(yù)測,根據(jù)預(yù)測結(jié)果去除噪音峰實現(xiàn)質(zhì)譜圖過濾。為了檢驗?zāi)P托Ч?我們在人樣本,iTRAQ類型數(shù)據(jù)集上進(jìn)行了測試及訓(xùn)練,分別考察了自訓(xùn)練以及組分訓(xùn)練兩個方向,并對同種類不同實驗結(jié)果的數(shù)據(jù)進(jìn)行建模檢驗,通過Mascot鑒定后結(jié)果表明我們的模型能夠有效預(yù)測出有效峰與噪音峰,在譜圖打分及肽段、蛋白質(zhì)鑒定數(shù)目上均有提升。
【學(xué)位授予單位】:深圳大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:Q503;TP181
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 花蓓;基于決策樹方法的信用卡審批模型分析[J];福建電腦;2005年09期
2 錢小紅;蛋白質(zhì)組與生物質(zhì)譜技術(shù)[J];質(zhì)譜學(xué)報;1998年04期
,本文編號:1329449
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/1329449.html
最近更新
教材專著