基于支持向量機的串聯(lián)譜圖預處理模型
發(fā)布時間:2017-12-24 18:19
本文關鍵詞:基于支持向量機的串聯(lián)譜圖預處理模型 出處:《深圳大學》2017年碩士論文 論文類型:學位論文
更多相關文章: 蛋白質組 串聯(lián)質譜圖 譜峰預處理 除噪 支持向量機
【摘要】:基于串聯(lián)質譜技術的分析方法是如今蛋白質鑒定方法中的主角。隨著科技技術的發(fā)展,質譜技術也日趨成熟,能夠在很短時間內產(chǎn)生大量質譜圖,但遺憾的是,幾乎每張譜圖中都存在或多或少的噪音。一方面,噪音的存在會延長數(shù)據(jù)庫搜索的時間,最終導致蛋白質鑒定時間的增加;另一方面,噪音的存在對質譜鑒定結果存在干擾,噪音嚴重的情況下,將影響譜圖的鑒定,使其發(fā)生錯誤鑒定或者鑒定不出結果。因此,各種質譜去噪方法如雨后春筍般出現(xiàn)。質譜圖去噪方法旨在去除噪音峰的同時保留信號峰。傳統(tǒng)的去噪方法多是基于閾值:譜圖中強度低于設定閾值的峰將會被舍去;又或者選取強度排名前X的峰作為信號峰,X可根據(jù)需要自行設定;除此之外,還有一種以X Da為單位,選取范圍內排名靠前的峰的方法,X同樣可根據(jù)譜圖實際情況自行設定。以上類型的方法都只是簡單考慮了峰的強度,而忽略了隱藏在峰與峰之間的其他特征,在這種過濾方法下,難免會產(chǎn)生有效峰因為強度低而被濾除的情況。機器學習是近幾年來熱門研究方向,其種類包含:支持向量機、神經(jīng)網(wǎng)絡、貝葉斯等,將機器學習應用于質譜除噪是一個新的領域,目前發(fā)表的專業(yè)文章較少,可研究性強。本文通過分析機器學習的幾個種類,考慮適用性,提出了一種基于支持向量機的方法。支持向量機是以統(tǒng)計學習為基礎的機器學習方法,主要用來解決二分類問題。在使用支持向量機構建模型的過程中,由于現(xiàn)今的質譜圖中存在著數(shù)據(jù)不均衡的情況,負樣本數(shù)據(jù)占了大部分,如何處理不平衡數(shù)據(jù)也是模型構建時需要考慮的地方。對于不平衡數(shù)據(jù)常用的方法有重采樣、欠采樣、代價敏感等,通過分析其原理及適用范圍,我們最終選擇欠采樣方法來處理不平衡數(shù)據(jù)。根據(jù)質譜原理及機器學習方法,我們最終選擇25個特征構建模型,特征包括中性丟失、譜峰強度及同位素等。模型能夠對信號峰與噪音峰進行預測,根據(jù)預測結果去除噪音峰實現(xiàn)質譜圖過濾。為了檢驗模型效果,我們在人樣本,iTRAQ類型數(shù)據(jù)集上進行了測試及訓練,分別考察了自訓練以及組分訓練兩個方向,并對同種類不同實驗結果的數(shù)據(jù)進行建模檢驗,通過Mascot鑒定后結果表明我們的模型能夠有效預測出有效峰與噪音峰,在譜圖打分及肽段、蛋白質鑒定數(shù)目上均有提升。
【學位授予單位】:深圳大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:Q503;TP181
【參考文獻】
相關期刊論文 前2條
1 花蓓;基于決策樹方法的信用卡審批模型分析[J];福建電腦;2005年09期
2 錢小紅;蛋白質組與生物質譜技術[J];質譜學報;1998年04期
,本文編號:1329449
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/1329449.html
最近更新
教材專著