關(guān)鍵蛋白質(zhì)預(yù)測(cè)及蛋白質(zhì)變體表征算法研究
發(fā)布時(shí)間:2021-03-28 21:27
蛋白質(zhì)是生命過程的主要執(zhí)行者。關(guān)鍵蛋白質(zhì)作為維持細(xì)胞生命的重要組成部分,在生物學(xué)和藥物設(shè)計(jì)研究中發(fā)揮著重要作用。與基因變異相比,蛋白質(zhì)的分子結(jié)構(gòu)及狀態(tài)變化(即蛋白質(zhì)變體)與疾病的病理變化更相關(guān)。表征蛋白質(zhì)變體包括鑒定和定位蛋白質(zhì)中的主要結(jié)構(gòu)性變異(PSA),對(duì)推進(jìn)醫(yī)學(xué)事業(yè)發(fā)展具有現(xiàn)實(shí)意義。本文著力于從蛋白質(zhì)組學(xué)領(lǐng)域中兩個(gè)重要研究方向進(jìn)行研究,主要?jiǎng)?chuàng)新點(diǎn)如下:隨著關(guān)鍵蛋白質(zhì)相關(guān)的大量生物學(xué)數(shù)據(jù)的產(chǎn)生,已經(jīng)提出越來越多的計(jì)算方法用于預(yù)測(cè)關(guān)鍵蛋白質(zhì)。與采用單種機(jī)器學(xué)習(xí)方法或集成多種機(jī)器學(xué)習(xí)方法的預(yù)測(cè)方法不同,本文設(shè)計(jì)出XGBFEMF預(yù)測(cè)框架用于預(yù)測(cè)關(guān)鍵蛋白質(zhì)。該框架包括SUB-EXPAND-SHRINK方法,該方法利用初始特征構(gòu)建復(fù)合特征并獲得用于關(guān)鍵蛋白質(zhì)預(yù)測(cè)更好的特征子集;還包括用于獲得更有效的預(yù)測(cè)模型的模型融合方法。本文使用酵母數(shù)據(jù)進(jìn)行實(shí)驗(yàn),通過接受者操作特性曲線(ROC)分析、準(zhǔn)確度分析和top分析來評(píng)估XGBFEMF框架的性能。同時(shí),本文還使用大腸桿菌數(shù)據(jù)進(jìn)行實(shí)驗(yàn),以驗(yàn)證該框架的通用性。實(shí)驗(yàn)結(jié)果表明,XGBFEMF框架可以有效地改進(jìn)多項(xiàng)關(guān)鍵性指標(biāo)。隨著質(zhì)譜技術(shù)的發(fā)展,使得基于自頂向...
【文章來源】:湖南師范大學(xué)湖南省 211工程院校
【文章頁數(shù)】:55 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1基于自頂向下質(zhì)譜技術(shù)表征蛋白質(zhì)變體的框架圖??
?關(guān)鍵蛋白質(zhì)預(yù)測(cè)及蛋白質(zhì)變體表征研究???2.2.1蛋白質(zhì)變體鑒定算法??當(dāng)前基于自頂向下質(zhì)譜技術(shù)的蛋白質(zhì)變體鑒定方法可分為兩大類:(1)擴(kuò)展蛋白質(zhì)變??體數(shù)據(jù)庫方法;(2)曹PSA搜索方法,該方法可進(jìn)一步分為三大卷蛋白質(zhì)變體鑒定算??法的分類如圖2-2所示。??[?Proteoform?^??identification?methods??■?I????1?'?,■丨?.??廣?The?expanded?|?The?blind?PSAs??proteoform?database?I?search?methods??L?methods?)?r?、?i?,,?、??’?Spectral?^?f?Graph?^?Precursor?ion^??alignment-based?model-based?independence??、algorithms?J?v?algorithms?y?v?algorithm?y???1?I?" ̄ ̄1??ProSight,?MascotTD,||?MS-TopDown^]?(?|??BUPID-top-down,?M^AIign+,?pTop,Tc)pMG,???gle,?MS-A'ign-E?MSPathFinder?P,ITA??Meta?Morpheus,?MASH?Suite?Pro,??^?TDPortal?JljopPIQSPECTRUMJ?[?J?[?y??圖2-2基于自頂向下質(zhì)譜技術(shù)的蛋白質(zhì)變體鑒定算法的分類??2.2.1.1擴(kuò)展蛋白質(zhì)變體數(shù)據(jù)庫方法??擴(kuò)展蛋白質(zhì)變體數(shù)據(jù)庫方法實(shí)質(zhì)上是根據(jù)數(shù)據(jù)庠中的注釋信息自動(dòng)枚舉所有可能的??蛋_質(zhì)變
17)??在公式(3-10)至公式(3-17)中,IF表示真陽性蛋白質(zhì)的數(shù)量;沖表示假陽性蛋??白質(zhì)的數(shù)量W転真陰性蛋白質(zhì)的數(shù)量;所■叚陰性蛋麵勺數(shù)量。??3.4.2與現(xiàn)有方法比較??酵母數(shù)據(jù)集和大腸桿菌數(shù)據(jù)集均屬于不平衡數(shù)據(jù)集,本文按照數(shù)據(jù)集中關(guān)鍵蛋白質(zhì)與??非關(guān)鍵蛋白質(zhì)的原始比例將其分為10份。選擇其中1份作為測(cè)試集,剩佘9份作為訓(xùn)練??集。謝i程重復(fù)10次,直到10份中的任意1份都作為一次測(cè)試集,然后通過ROC曲線??下面積(AreaUnderCurve,AUC)顯不其性能。圖3-2和圖3-3分別顯不了基于酉孝母數(shù)據(jù)??集和大腸桿菌數(shù)據(jù)集XGBFEMF和其他初始特征方法的ROC曲線。??!?=11??。-?=距=??([///???PeC:〇〇7|331??\?fiV?/?/???P&E:?0.6884??////?/,???XGBFEMF:?0.7829??:v??o??I?I?I?I?I?I??0.0?0.2?0.4?0.6?0.8?1.0??False?positive?rate??圖3-2基于酵母數(shù)據(jù)集XGBFEMF和其他初始特征方法的ROC曲線??16??
【參考文獻(xiàn)】:
期刊論文
[1]A Feature Selection Method for Prediction Essential Protein[J]. Jiancheng Zhong,Jianxin Wang,Wei Peng,Zhen Zhang,Min Li. Tsinghua Science and Technology. 2015(05)
本文編號(hào):3106270
【文章來源】:湖南師范大學(xué)湖南省 211工程院校
【文章頁數(shù)】:55 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1基于自頂向下質(zhì)譜技術(shù)表征蛋白質(zhì)變體的框架圖??
?關(guān)鍵蛋白質(zhì)預(yù)測(cè)及蛋白質(zhì)變體表征研究???2.2.1蛋白質(zhì)變體鑒定算法??當(dāng)前基于自頂向下質(zhì)譜技術(shù)的蛋白質(zhì)變體鑒定方法可分為兩大類:(1)擴(kuò)展蛋白質(zhì)變??體數(shù)據(jù)庫方法;(2)曹PSA搜索方法,該方法可進(jìn)一步分為三大卷蛋白質(zhì)變體鑒定算??法的分類如圖2-2所示。??[?Proteoform?^??identification?methods??■?I????1?'?,■丨?.??廣?The?expanded?|?The?blind?PSAs??proteoform?database?I?search?methods??L?methods?)?r?、?i?,,?、??’?Spectral?^?f?Graph?^?Precursor?ion^??alignment-based?model-based?independence??、algorithms?J?v?algorithms?y?v?algorithm?y???1?I?" ̄ ̄1??ProSight,?MascotTD,||?MS-TopDown^]?(?|??BUPID-top-down,?M^AIign+,?pTop,Tc)pMG,???gle,?MS-A'ign-E?MSPathFinder?P,ITA??Meta?Morpheus,?MASH?Suite?Pro,??^?TDPortal?JljopPIQSPECTRUMJ?[?J?[?y??圖2-2基于自頂向下質(zhì)譜技術(shù)的蛋白質(zhì)變體鑒定算法的分類??2.2.1.1擴(kuò)展蛋白質(zhì)變體數(shù)據(jù)庫方法??擴(kuò)展蛋白質(zhì)變體數(shù)據(jù)庫方法實(shí)質(zhì)上是根據(jù)數(shù)據(jù)庠中的注釋信息自動(dòng)枚舉所有可能的??蛋_質(zhì)變
17)??在公式(3-10)至公式(3-17)中,IF表示真陽性蛋白質(zhì)的數(shù)量;沖表示假陽性蛋??白質(zhì)的數(shù)量W転真陰性蛋白質(zhì)的數(shù)量;所■叚陰性蛋麵勺數(shù)量。??3.4.2與現(xiàn)有方法比較??酵母數(shù)據(jù)集和大腸桿菌數(shù)據(jù)集均屬于不平衡數(shù)據(jù)集,本文按照數(shù)據(jù)集中關(guān)鍵蛋白質(zhì)與??非關(guān)鍵蛋白質(zhì)的原始比例將其分為10份。選擇其中1份作為測(cè)試集,剩佘9份作為訓(xùn)練??集。謝i程重復(fù)10次,直到10份中的任意1份都作為一次測(cè)試集,然后通過ROC曲線??下面積(AreaUnderCurve,AUC)顯不其性能。圖3-2和圖3-3分別顯不了基于酉孝母數(shù)據(jù)??集和大腸桿菌數(shù)據(jù)集XGBFEMF和其他初始特征方法的ROC曲線。??!?=11??。-?=距=??([///???PeC:〇〇7|331??\?fiV?/?/???P&E:?0.6884??////?/,???XGBFEMF:?0.7829??:v??o??I?I?I?I?I?I??0.0?0.2?0.4?0.6?0.8?1.0??False?positive?rate??圖3-2基于酵母數(shù)據(jù)集XGBFEMF和其他初始特征方法的ROC曲線??16??
【參考文獻(xiàn)】:
期刊論文
[1]A Feature Selection Method for Prediction Essential Protein[J]. Jiancheng Zhong,Jianxin Wang,Wei Peng,Zhen Zhang,Min Li. Tsinghua Science and Technology. 2015(05)
本文編號(hào):3106270
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3106270.html
最近更新
教材專著