基于隨機森林算法的關鍵蛋白識別方法研究
發(fā)布時間:2021-06-05 04:39
識別出生物體內有用的蛋白質對生物體進化以及醫(yī)學領域都要極其重要的作用。當前辨別蛋白質重要性的方式有兩種。一是基于生物化學方法,但利用生物實驗的方法來識別具有一定的缺陷,具體表現為:時間較長、費用較高、以及不能處理數據量較大的問題等等。二是利用計算機為工具對生物進行分析并以生物學的相關知識進行解釋的一種方式。利用計算機識別蛋白重要性的方法大多是利用蛋白質交互網絡(Protein Interaction Network)提取拓撲中心性度量特征來識別?墒怯捎谝恍┫嚓P生物實驗數據的殘缺和蛋白質網絡自身的復雜性,一直沒有發(fā)現可以準確區(qū)別關鍵蛋白質和非關鍵蛋白質的單一中心性度量特征,并且從目前的相關研究來看,關鍵蛋白質和非關鍵蛋白質間的區(qū)別不能由單一特征決定,應該是由多種因素共同決定的。單一中心性度量往往不能有效識別關鍵蛋白質,需要融合多個拓撲中心性度量方法,突破傳統(tǒng)的利用排序進行精細選擇的方式,建立機器學習模型進行蛋白的分類和識別。隨機森林算法屬于集成類型的算法,可以集成多個單分類器即集成多棵決策樹的分類效果從而組成一個整體意義上的分類器。鑒于之前研究均是利用單一特征進行分類識別,且由于隨機森...
【文章來源】:吉林農業(yè)大學吉林省
【文章頁數】:36 頁
【學位級別】:碩士
【部分圖文】:
隨機森林原理圖
度中心性示意圖
:( )= ∑ ∑( , , )( . ), ≠ ≠ 點 k 與 j 之間的最短路徑條數, ( 路徑條數。在計算節(jié)點之間的路徑點,介數中心性就是反應某一節(jié)點的相關示例。節(jié)點 1 的 BC 值,+(2,1,4)(2,4)+(2,1,5)(2,5)+(3,1,2)(3,2)+(3,1,4(3,4(4,1,3)(4,3)+(4,1,5)(4,5)+(5,1,2)(5,2)+(5,1,3)(5,3) + + + + + + + + = 8 = 0, = 6, =0。比較結果1 在該網絡中最重要,如果去點節(jié)點
本文編號:3211454
【文章來源】:吉林農業(yè)大學吉林省
【文章頁數】:36 頁
【學位級別】:碩士
【部分圖文】:
隨機森林原理圖
度中心性示意圖
:( )= ∑ ∑( , , )( . ), ≠ ≠ 點 k 與 j 之間的最短路徑條數, ( 路徑條數。在計算節(jié)點之間的路徑點,介數中心性就是反應某一節(jié)點的相關示例。節(jié)點 1 的 BC 值,+(2,1,4)(2,4)+(2,1,5)(2,5)+(3,1,2)(3,2)+(3,1,4(3,4(4,1,3)(4,3)+(4,1,5)(4,5)+(5,1,2)(5,2)+(5,1,3)(5,3) + + + + + + + + = 8 = 0, = 6, =0。比較結果1 在該網絡中最重要,如果去點節(jié)點
本文編號:3211454
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3211454.html