天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 理工論文 > 生物學論文 >

基于多標簽分類算法的植物蛋白功能預(yù)測研究

發(fā)布時間:2021-02-15 04:26
  大數(shù)據(jù)時代,熱點研究是挖掘有價值信息。本文研究目的是從大量未知蛋白質(zhì)中挖掘其功能。事實證明蛋白功能具有多樣性,因此本文使用能夠同時處理多個功能類的多標簽分類算法。本文未知植物蛋白來源內(nèi)蒙古大學生科院,以GO功能為切入對未知蛋白進行挖掘,為得已知蛋白數(shù)據(jù)集,從GO數(shù)據(jù)庫和uniprot數(shù)據(jù)庫爬取包含43個GO功能類共計66341條蛋白質(zhì)序列。本文深入研究了基于問題轉(zhuǎn)換的BR、CC、RAKEL算法和基于算法轉(zhuǎn)換的BR-KNN、ML-KNN、BPMLL算法。研究了基于理化性質(zhì)、基于n-gram、基于k-skip-n-gram的特征提取方法,并使用特征融合,實驗證明將n-gram和理化性質(zhì)特征融合后在平均精度比只使用n-gram提升了0.008。改進理化性質(zhì)特征提取方法使生成的特征數(shù)據(jù)集符合多標簽分類的要求。本文將六種特征處理方法和六種多標簽分類算法兩兩組合以快速有效的解決多標簽分類問題,最后將數(shù)據(jù)集在36種組合上分別進行交叉實驗,實驗表明188維MLKNN在海明損失、0-1錯誤率、覆蓋率、排序損失、平均精度上最優(yōu),分別比次優(yōu)組合算法好0.003、0.0215、0.2383、0.0043、0.... 

【文章來源】:內(nèi)蒙古大學內(nèi)蒙古自治區(qū) 211工程院校

【文章頁數(shù)】:55 頁

【學位級別】:碩士

【部分圖文】:

基于多標簽分類算法的植物蛋白功能預(yù)測研究


序列和功能關(guān)系圖

示意圖,示意圖,標簽,數(shù)據(jù)集


第一章已大致介紹多標簽算法,現(xiàn)更加詳細的闡述一下算法運行機制及原理。1 問題轉(zhuǎn)換方法(1)基于標簽轉(zhuǎn)換方法BR 算法會把特征訓練集分 p 個二分數(shù)據(jù)集 Qλi,i=1…p,劃分為多少個二分數(shù)據(jù)集是根集中標簽的數(shù)量而定,二者相等。因為一個標簽表示的是這個數(shù)據(jù)集在這個類上的標,每個二分數(shù)據(jù)集其實就是原來數(shù)據(jù)集上的屬性和對應(yīng)的它的單個(i=1...p)標簽類。屬于這單個標簽,就標記為 1,不屬于標記為 0。當訓練好的模型應(yīng)用到待預(yù)測樣本時 p 個二分類器去預(yù)測對應(yīng)的 p 個類標簽,所有二分類器的預(yù)測結(jié)果其實就是預(yù)定好的的類標簽的預(yù)測結(jié)果。在用時上來說,P 個二分類器一樣,因此時間相同,假設(shè)二分時 O(C),則 BR 的整體用時為 O(p×C),所以 p 小的話 BR 整體復(fù)雜度就小,因此使數(shù)據(jù)集標簽數(shù)越少越好。由于 BR 算法是每個二分類器在各個類上單獨預(yù)測,現(xiàn)實問簽類之間可能有關(guān)聯(lián)性,甚至是樹狀層次關(guān)聯(lián),所以 BR 在關(guān)聯(lián)性方面不是很好。BR 圖 2.1。

示意圖,示意圖,標簽,植物蛋白


基于多標簽分類算法的植物蛋白功能預(yù)測研究果作為下一個類標簽預(yù)測的已知條件。假如分類器 Cj對應(yīng)標簽類λj,一個樣本 x 需個標簽類上分類,是值為 1 不是值為 0,結(jié)果為 Pr(λ1|x)。C2判斷 x 是否屬于λ2,此上λ1的值作為輸入得 Pr(λ2∣xλ1)。依次到判斷最后一個標簽類時,會將前面 j-1 個的預(yù)測結(jié)果都考慮進去,即λ1,…,λj 1會作為已知信息和樣本一起輸入得 P,λj 1)。考慮了標簽間聯(lián)系,改進了 BR。過程如圖 2.2。

【參考文獻】:
期刊論文
[1]基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J]. 張愛國.  現(xiàn)代工業(yè)經(jīng)濟和信息化. 2017(03)
[2]大數(shù)據(jù)下的機器學習算法綜述[J]. 何清,李寧,羅文娟,史忠植.  模式識別與人工智能. 2014(04)
[3]一種改進的ML-kNN多標記文檔分類方法[J]. 程圣軍,黃慶成,劉家鋒,唐降龍.  哈爾濱工業(yè)大學學報. 2013(11)
[4]多標簽數(shù)據(jù)挖掘技術(shù):研究綜述[J]. 李思男,李寧,李戰(zhàn)懷.  計算機科學. 2013(04)
[5]數(shù)據(jù)降維方法分析與研究[J]. 吳曉婷,閆德勤.  計算機應(yīng)用研究. 2009(08)
[6]nr數(shù)據(jù)庫分析及其本地化[J]. 鄧泱泱,荔建琦,吳松鋒,朱云平,陳耀文,賀福初.  計算機工程. 2006(05)
[7]典型相關(guān)分析的理論及其在特征融合中的應(yīng)用[J]. 孫權(quán)森,曾生根,王平安,夏德深.  計算機學報. 2005(09)
[8]決策樹分類技術(shù)研究[J]. 欒麗華,吉根林.  計算機工程. 2004(09)
[9]決策樹學習算法ID3的研究[J]. 楊明,張載鴻.  微機發(fā)展. 2002(05)
[10]數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法綜述[J]. 劉紅巖,陳劍,陳國青.  清華大學學報(自然科學版). 2002(06)

碩士論文
[1]一種改進的ML-KNN多標記分類方法研究[D]. 伏浩銘.電子科技大學 2017



本文編號:3034432

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/projectlw/swxlw/3034432.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶47248***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com