基于聯(lián)合嵌入學習與回歸方法的研究及在癌癥組學數據中的應用
發(fā)布時間:2021-04-08 06:54
癌癥組學數據通常是不易挖掘的高維小樣本數據,而癌癥的一些關鍵信息隱藏在這些高維數據中。為了挖掘這些數據中的關鍵信息,對其進行有效降維是必要的,這也成為諸多研究的熱點。在生物信息學中,特征選擇是一種被廣泛運用的降維方法,如聯(lián)合嵌入學習和稀疏回歸方法(Joint Embedding Learning and Sparse Regression,JELSR),但傳統(tǒng)的特征選擇方法在分析癌癥數據時存在弊端:基因組數據中存在的大量噪聲值和冗余值會降低算法的稀疏性;計算誤差值的平方項會增大算法對噪聲值和異常值的敏感度并降低算法的性能;傳統(tǒng)方法使用的數據集通常是單個視圖而忽略了其他視圖對數據的影響,同時該方法的常規(guī)項采用稀疏回歸約束,忽略了數據的固有結構。因此,針對傳統(tǒng)方法中存在的問題,本文基于JELSR模型,分別從以上三個方面對傳統(tǒng)方法的稀疏性、魯棒性等性能方面進行了改進,同時可以進一步選擇更有效的致病基因,主要包括以下研究:(1)提出一種基于聯(lián)合約束的JELSR模型(LJELSR)。該模型引入了1L范數與原有的L2,1范數形成聯(lián)合約束,從而增強矩陣行列...
【文章來源】:曲阜師范大學山東省
【文章頁數】:49 頁
【學位級別】:碩士
【部分圖文】:
不同范數的簡單示意圖
第 2 章 基于聯(lián)合約束的聯(lián)合嵌入學習與稀疏回歸方法研究與應用聚類結果與分析類是一種無監(jiān)督的機器學習方法。聚類根據未知標簽樣本數據集內的數據特征將分為多個不同的類,使同一類的數據樣本盡可能相似、不同類的數據樣本之間的可能不同。在生物信息學中,聚類主要分為基因聚類和樣本聚類。本實驗使s 方法[57]分別在ALL_AML、COLON和ESCA數據集上進行樣本聚類,并將LJEL對照方法獲得的 ACC 值進行對比分析,結果如圖 2.2 所示。從圖 2.2 中可以得出1)在實驗中,算法處理數據的稀疏力度不足及實驗過程丟失數據的內部幾何信對照方法的 ACC 值相對于 LJELSR 的 ACC 值較小的原因;2)在不同數據集上,LJELSR 方法獲得的 ACC 值幾乎均高于其他方法的 ACC 值目標函數中引入聯(lián)合約束(1L 范數,2,1L 范數)確實加強了數據矩陣之間的關聯(lián)性類效果相對滿意。
1 1k k k k k k k 1k 直至 收斂3.3 實驗結果與分析為了驗證 RJELSR 算法的性能,本章在整合數據上將 RJELSR 算法與 JELSR、MCFSLapScor 算法進行特征選擇和樣本聚類對比實驗。首先,本節(jié)對所使用的數據集進行簡單說明。其次,確定參數選擇。最后,對特征選擇和樣本聚類的實驗結果進行分析。3.3.1 數據描述在本章中,實驗所使用的數據集是整合數據集。由于一個基因可能與多種癌癥相關,所以,實驗首先對胰腺癌數據集(PAAD)、ESCA 和膽管癌數據集(CHOL)的基因表達數據預處理得到整合數據集(Integrated Data,INDA),然后在 INDA 上進行特征選擇和聚類分析,使新算法選擇的特征基因具有更高的生物學價值。在對這三個癌癥數據集預處理時,為了防止樣本的不穩(wěn)定性,實驗中刪除了占總樣本量很小的正常樣本并保留了三個數據集的患病樣本。INDA 的簡單示意圖如圖 3.1 所示。
【參考文獻】:
期刊論文
[1]中國癌癥發(fā)病、死亡現狀與趨勢分析[J]. 曾倩,崔芳芳,宇傳華,張干深. 中國衛(wèi)生統(tǒng)計. 2016(02)
[2]基于K-均值聚類的無監(jiān)督的特征選擇方法[J]. 張莉,孫鋼,郭軍. 計算機應用研究. 2005(03)
[3]生物信息學:生物實驗數據和計算技術結合的新領域[J]. 歐陽曙光,賀福初. 科學通報. 1999(14)
博士論文
[1]面向高維小樣本數據的分類特征選擇算法研究[D]. 張靖.合肥工業(yè)大學 2014
碩士論文
[1]基于基因表達數據的癌癥特征基因選擇方法研究[D]. 李曉丹.北京工業(yè)大學 2016
[2]機器學習中的特征選擇算法研究[D]. 姜百寧.中國海洋大學 2009
本文編號:3125075
【文章來源】:曲阜師范大學山東省
【文章頁數】:49 頁
【學位級別】:碩士
【部分圖文】:
不同范數的簡單示意圖
第 2 章 基于聯(lián)合約束的聯(lián)合嵌入學習與稀疏回歸方法研究與應用聚類結果與分析類是一種無監(jiān)督的機器學習方法。聚類根據未知標簽樣本數據集內的數據特征將分為多個不同的類,使同一類的數據樣本盡可能相似、不同類的數據樣本之間的可能不同。在生物信息學中,聚類主要分為基因聚類和樣本聚類。本實驗使s 方法[57]分別在ALL_AML、COLON和ESCA數據集上進行樣本聚類,并將LJEL對照方法獲得的 ACC 值進行對比分析,結果如圖 2.2 所示。從圖 2.2 中可以得出1)在實驗中,算法處理數據的稀疏力度不足及實驗過程丟失數據的內部幾何信對照方法的 ACC 值相對于 LJELSR 的 ACC 值較小的原因;2)在不同數據集上,LJELSR 方法獲得的 ACC 值幾乎均高于其他方法的 ACC 值目標函數中引入聯(lián)合約束(1L 范數,2,1L 范數)確實加強了數據矩陣之間的關聯(lián)性類效果相對滿意。
1 1k k k k k k k 1k 直至 收斂3.3 實驗結果與分析為了驗證 RJELSR 算法的性能,本章在整合數據上將 RJELSR 算法與 JELSR、MCFSLapScor 算法進行特征選擇和樣本聚類對比實驗。首先,本節(jié)對所使用的數據集進行簡單說明。其次,確定參數選擇。最后,對特征選擇和樣本聚類的實驗結果進行分析。3.3.1 數據描述在本章中,實驗所使用的數據集是整合數據集。由于一個基因可能與多種癌癥相關,所以,實驗首先對胰腺癌數據集(PAAD)、ESCA 和膽管癌數據集(CHOL)的基因表達數據預處理得到整合數據集(Integrated Data,INDA),然后在 INDA 上進行特征選擇和聚類分析,使新算法選擇的特征基因具有更高的生物學價值。在對這三個癌癥數據集預處理時,為了防止樣本的不穩(wěn)定性,實驗中刪除了占總樣本量很小的正常樣本并保留了三個數據集的患病樣本。INDA 的簡單示意圖如圖 3.1 所示。
【參考文獻】:
期刊論文
[1]中國癌癥發(fā)病、死亡現狀與趨勢分析[J]. 曾倩,崔芳芳,宇傳華,張干深. 中國衛(wèi)生統(tǒng)計. 2016(02)
[2]基于K-均值聚類的無監(jiān)督的特征選擇方法[J]. 張莉,孫鋼,郭軍. 計算機應用研究. 2005(03)
[3]生物信息學:生物實驗數據和計算技術結合的新領域[J]. 歐陽曙光,賀福初. 科學通報. 1999(14)
博士論文
[1]面向高維小樣本數據的分類特征選擇算法研究[D]. 張靖.合肥工業(yè)大學 2014
碩士論文
[1]基于基因表達數據的癌癥特征基因選擇方法研究[D]. 李曉丹.北京工業(yè)大學 2016
[2]機器學習中的特征選擇算法研究[D]. 姜百寧.中國海洋大學 2009
本文編號:3125075
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3125075.html