天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 數學論文 >

代謝組學數據的分類和變量選擇方法研究

發(fā)布時間:2020-03-24 11:11
【摘要】:代謝組學數據的分析是代謝組學研究中的重要組成部分,由于輸出數據的復雜性給后續(xù)的數據分析帶來了極大的難度,因此如何對數據進行準確的分類以及選擇出穩(wěn)健的生物標志物在代謝組學中有著非常重要的意義。這兩個方面的研究內容和結果如下:一方面,本文主要研究了數據結構對于代謝組學數據的分類產生的影響。數據結構中分別從類不平衡度即正類與負類的樣本數比值,數據維度和變量相關性三個方面來研究。我們使用了支持向量機,偏最小二乘判別分析和隨機森林三種機器學習算法對于在本節(jié)中使用到的所有數據進行了分類。結果表明,類不平衡度,數據維度和變量相關性三個方面對于代謝組學數據的分類都產生很大的影響,尤其是對于少數類樣本的分類產生很嚴重的影響。另一方面,我們提出了一種算法(SRS-SVM),這種算法應用在代謝組學數據的分類中可以獲得最優(yōu)的分類精度,并且可以篩選出代謝組學數據中的穩(wěn)定變量即穩(wěn)健的生物標志物。SRS-SVM是基于稀疏正則化變量選擇結合子抽樣(SRS),然后使用線性支持向量機分類器(SVM)在已經選擇的變量空間中進行分類以獲得最大的分類精度。結果表明,SRS-SVM算法的性能優(yōu)于其他算法,并且不論是在內部驗證還是外部驗證中的預測分類精度都優(yōu)于其他的相關算法。此外,通過SRS-SVM算法選擇的候選生物標志物是非常穩(wěn)定的,并且它可以成為代謝組學數據分析的一種替代方法,這在代謝組學的應用中是很有意義的。
【圖文】:

數據,情況,偏最小二乘,判別分析


圖 2.1 SVM 在不同數據下的分類情況2.1.2 偏最小二乘判別分析偏最小二乘判別分析[12]( PLS -DA)是一種常用于代謝組學數據判別分析的一種統(tǒng)計分析方法。其原理是對不同處理樣本的特性分別進行訓練,產生訓練集,并檢驗訓練集的可信度。PLS -DA 是兩部分工作的結合,首先對數據進行偏最小二乘( PLS )處理選擇出一些重要的潛變量,然后再對這些潛變量進行線性判別分析(LDA)。和 PLS -DA一樣也是一種多元統(tǒng)計分析的方法,它通過對數據建模,然后求得模型的最小誤差的平方和,對最小誤差平方和使用求導的方法,分別求出一些絕對真值。正是這些絕對不可知的真值,而令誤差平方和最小,才使得建立的模型效果更好。 也叫做費舍爾線性判別法(Fisher Linear Discriminant Analysis,

昆明理工大學,平方誤差,式子,最小二乘


昆明理工大學碩相應的OLS 解決方案。式子(2.19)清楚地表明LASSO能夠收果( )/ 2 0j OLS ,, 的解收縮到 的解是在絕對2。當( )/ 2 0j OLS 時, 的解將 中絕對值小的為 0,因此相應的變量被消除,這就是為什么 可以執(zhí)行變下圖所示是一個二維的 懲罰, 是普通的最小二乘具有同等的平方誤差損失的 的估計值。由于 懲罰來源 的最優(yōu)解是稀疏的,位于 懲罰域的一個交點和邊
【學位授予單位】:昆明理工大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:O213

【參考文獻】

相關期刊論文 前4條

1 李勇;劉戰(zhàn)東;張海軍;;不平衡數據的集成分類算法綜述[J];計算機應用研究;2014年05期

2 朱超;梁瓊麟;王義明;羅國安;;代謝組學的整合化發(fā)展及其新進展[J];分析化學;2010年07期

3 楊明;尹軍梅;吉根林;;不平衡數據分類方法綜述[J];南京師范大學學報(工程技術版);2008年04期

4 許國旺;路鑫;楊勝利;;代謝組學研究進展[J];中國醫(yī)學科學院學報;2007年06期



本文編號:2598239

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/yysx/2598239.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶ab952***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com