基通過混合特征選擇算法識別腫瘤功能基因模塊的框架
發(fā)布時間:2021-12-28 06:07
癌癥是一種高度異質(zhì)性的疾病,由不同細(xì)胞類型和組織的失調(diào)引起,本質(zhì)上是有組織細(xì)胞差異表達(dá)引起的疾病。然而,不同的癌癥可能有共同的發(fā)病機(jī)制。識別與癌癥的產(chǎn)生和發(fā)展有關(guān)的基因是至關(guān)重要的,并且對多種癌癥的聯(lián)合分析可能有助于發(fā)現(xiàn)不同癌癥之間的重疊發(fā)病機(jī)制。同時基因表達(dá)數(shù)據(jù)具有低樣本數(shù)量高維度的特點(diǎn),傳統(tǒng)的特征選擇算法無法高效的處理這類數(shù)據(jù),但是癌癥通常只由幾個關(guān)鍵的基因突變導(dǎo)致,因此如何剔除數(shù)據(jù)集中的無關(guān)基因?qū)?shù)據(jù)集進(jìn)行精確篩選很重要。本文提出了一種融合的特征選擇算法框架,可以歸屬于集成特征選擇算法,因?yàn)檫@種方法是兩種特征選擇算法疊加起來的。然后,我們使用該方法在臨床相關(guān)預(yù)測任務(wù)中識別強(qiáng)大和可靠的特征。對11種人類癌癥類型進(jìn)行了聯(lián)合分析,以探索癌癥的關(guān)鍵特征基因。本文的主要研究工作重點(diǎn)如下所示:1.基于機(jī)器學(xué)習(xí)算法里集成學(xué)習(xí)的思想,本文提出了一種將過濾法和嵌入式特征選擇方法組合起來的特征選擇方法——FS-GBDT算法,這種方法分為兩步,首先使用過濾法對數(shù)據(jù)進(jìn)行大規(guī)模的篩選,然后根據(jù)嵌入式特征選擇算法進(jìn)行更精確的子集搜索。經(jīng)過實(shí)驗(yàn)證明該方法高效,簡單,易于擴(kuò)展。2.結(jié)合FSGBDT算法和隨機(jī)森林...
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:43 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3.1在按降序?qū)ο鄳?yīng)數(shù)據(jù)集進(jìn)行排序后的分?jǐn)?shù)分?jǐn)?shù)曲線(八)
圖3.2實(shí)驗(yàn)流程示意圖??處理高維數(shù)據(jù)效率低下,導(dǎo)致分類精度較差t43]
?山東大學(xué)碩士學(xué)位論文???Hi???;??GSE2503?GSE3325?GSE2503?GSE3325??GSE5563?GSE10072?GSE5563?GSE10072??(a)?(b)??圖3.3?(a)利用歐氏距離對原始數(shù)據(jù)集的距離矩陣進(jìn)行聚類得到的熱圖。(b)??利用31個基因進(jìn)行特征選擇后得到的聚類距離矩陣熱圖,其中距離由歐氏距離??計算。??我們?yōu)橥话┌Y(胃癌)選擇不同的數(shù)據(jù)集來測試風(fēng)險模塊。我們使用的數(shù)據(jù)??集是GSE13911和GSE54129。GSE13911來源于原發(fā)性胃腫瘤(MS丨和MSS)??和鄰近正常樣本的表達(dá)數(shù)據(jù)。從111例胃癌組織切片中獲得GSE54129,正常胃??粘膜來自21名接受胃鏡檢查的志愿者。我們使用GSE13911作為一個訓(xùn)練集,??GSE54129作為一個測試集來驗(yàn)證胃癌風(fēng)險模塊的普遍性。我們使用四個分類器??來保證特征在分類性能上的穩(wěn)定性,分類結(jié)果見表3.4。我們可以看出在分類上??的表現(xiàn)是好的。ROC曲線如圖3.4所示。通過表3.4中四種不同的分類器,平均??分類精度達(dá)到85.6%,模型的泛化能力也達(dá)到了標(biāo)準(zhǔn)。??同時,我們進(jìn)行了單獨(dú)的胃試驗(yàn)(GSE54129),分為兩部分,25%用于試驗(yàn),??75%用于訓(xùn)練。分類結(jié)果見表3.5,ROC曲線見圖3.5?梢姡N分類器的分??類準(zhǔn)確率均達(dá)到100%,AUC值均高達(dá)1。所選擇的特征基因與癌癥有很強(qiáng)的相??關(guān)性。??表3.?4最終基因亞群的預(yù)測性能指標(biāo)。??Algorithm?Acc?FI?score?PRE?REC??SVM?87.87% ̄ ̄92.45%?88.28%?
本文編號:3553553
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:43 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3.1在按降序?qū)ο鄳?yīng)數(shù)據(jù)集進(jìn)行排序后的分?jǐn)?shù)分?jǐn)?shù)曲線(八)
圖3.2實(shí)驗(yàn)流程示意圖??處理高維數(shù)據(jù)效率低下,導(dǎo)致分類精度較差t43]
?山東大學(xué)碩士學(xué)位論文???Hi???;??GSE2503?GSE3325?GSE2503?GSE3325??GSE5563?GSE10072?GSE5563?GSE10072??(a)?(b)??圖3.3?(a)利用歐氏距離對原始數(shù)據(jù)集的距離矩陣進(jìn)行聚類得到的熱圖。(b)??利用31個基因進(jìn)行特征選擇后得到的聚類距離矩陣熱圖,其中距離由歐氏距離??計算。??我們?yōu)橥话┌Y(胃癌)選擇不同的數(shù)據(jù)集來測試風(fēng)險模塊。我們使用的數(shù)據(jù)??集是GSE13911和GSE54129。GSE13911來源于原發(fā)性胃腫瘤(MS丨和MSS)??和鄰近正常樣本的表達(dá)數(shù)據(jù)。從111例胃癌組織切片中獲得GSE54129,正常胃??粘膜來自21名接受胃鏡檢查的志愿者。我們使用GSE13911作為一個訓(xùn)練集,??GSE54129作為一個測試集來驗(yàn)證胃癌風(fēng)險模塊的普遍性。我們使用四個分類器??來保證特征在分類性能上的穩(wěn)定性,分類結(jié)果見表3.4。我們可以看出在分類上??的表現(xiàn)是好的。ROC曲線如圖3.4所示。通過表3.4中四種不同的分類器,平均??分類精度達(dá)到85.6%,模型的泛化能力也達(dá)到了標(biāo)準(zhǔn)。??同時,我們進(jìn)行了單獨(dú)的胃試驗(yàn)(GSE54129),分為兩部分,25%用于試驗(yàn),??75%用于訓(xùn)練。分類結(jié)果見表3.5,ROC曲線見圖3.5?梢姡N分類器的分??類準(zhǔn)確率均達(dá)到100%,AUC值均高達(dá)1。所選擇的特征基因與癌癥有很強(qiáng)的相??關(guān)性。??表3.?4最終基因亞群的預(yù)測性能指標(biāo)。??Algorithm?Acc?FI?score?PRE?REC??SVM?87.87% ̄ ̄92.45%?88.28%?
本文編號:3553553
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3553553.html
最近更新
教材專著