基于序列特征的生物序列分析和RNA結(jié)合蛋白識(shí)別
發(fā)布時(shí)間:2021-03-25 01:42
近年來,伴隨著像基因檢測等技術(shù)的快速發(fā)展,生物序列數(shù)據(jù)連年劇增,大幅度增長的序列數(shù)據(jù)促進(jìn)了生物學(xué)許多領(lǐng)域的快速發(fā)展。然而,在快速發(fā)展的同時(shí)仍然存在許多問題等待科研工作者們深入地探索和研究,例如基于殘基層面的序列分析,RNA結(jié)合蛋白識(shí)別,蛋白質(zhì)無序區(qū)域預(yù)測識(shí)別等,F(xiàn)階段面對(duì)數(shù)量規(guī)模龐大的序列數(shù)據(jù),通過傳統(tǒng)的生物實(shí)驗(yàn)要消耗大量的社會(huì)資源且無法得到很好的效果。為此,尋找或設(shè)計(jì)一種新的生物序列數(shù)據(jù)分析方法迫在眉睫,挖掘數(shù)據(jù)中的內(nèi)在規(guī)律來幫助研究者解決相關(guān)問題被視為一條有效的探索途徑。如今,人工智能相關(guān)理論趨于完善,大數(shù)據(jù)生態(tài)架構(gòu)日漸成熟,更多的研究者在處理生物序列相關(guān)的研究問題時(shí)會(huì)選用機(jī)器學(xué)習(xí)或數(shù)據(jù)挖掘等技術(shù)來對(duì)數(shù)據(jù)進(jìn)行潛在的關(guān)聯(lián)分析。通過傳統(tǒng)的生物實(shí)驗(yàn)識(shí)別RNA結(jié)合蛋白的方法,因其精確性不高,耗費(fèi)資源等局限性已無法滿足研究的需要。本文通過研究RNA結(jié)合蛋白的序列特征,使用特征提取、向量構(gòu)建等方法挖掘序列的潛在信息,結(jié)合機(jī)器學(xué)習(xí)算法構(gòu)建分類器對(duì)RNA結(jié)合蛋白序列進(jìn)行預(yù)測識(shí)別。本文主要內(nèi)容包括:本文基于序列特征提出了一個(gè)能夠?yàn)闅埢鶎用婧托蛄袑用娣治鋈蝿?wù)自動(dòng)生成預(yù)測算子的工具Bio Seq-Ana...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本課題各章研究內(nèi)容關(guān)系圖
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-10-的三個(gè)主要步驟包括特征提取,分類器構(gòu)建和性能評(píng)估(具體可參見圖2-1)。圖2-1生物序列分析方法主要步驟2.3基于殘基層面和序列層面的特征介紹基于殘基層面的特征主要是為了探索殘基的性質(zhì)以及在一個(gè)定長窗口內(nèi)殘基之間的關(guān)系,而基于序列層面的特征則側(cè)重于根據(jù)整條序列來提取全局信息。對(duì)于基于殘基層面的分析任務(wù),為了捕獲特定殘基的屬性特征,本文使用滑動(dòng)窗口策略和片段分割策略,在用戶定義的一個(gè)固定長度的窗口區(qū)域內(nèi)提取特征。對(duì)于序列層面分析,通過序列信息將生物序列轉(zhuǎn)換成特征向量。本文提出的序列分析系統(tǒng)BioSeq-Analysis2.0包含了26種殘基層面的特征提取方法,其中適用于DNA的有7種[11,28-31],適用于RNA的有6種[11,28,29,32],適用于蛋白質(zhì)的有13種[11,14,28,33-42],以及34種序列層面的新特征,包括適用于DNA的9種新特征[10,20,43],適用于RNA的7種新特征[20,43][10],適用于蛋白質(zhì)的18種新特征[44-62]。特別地,本文中的序列分析系統(tǒng)可以提供殘基層面完整的分析流程。在DNA-Analysis2.0中,有7種不同的基于殘基水平的特征可以用于生成多種分類器,這些特征可以進(jìn)一步劃分為三類(詳細(xì)類別見表2-1)。第一類是有關(guān)殘基組成成分的特征,共有四種。在這四個(gè)特征中,第一個(gè)是基于獨(dú)熱編碼的特征,首先將殘基按特定順序排列,然后用四個(gè)二進(jìn)制位表示第i個(gè)殘基類別,其中第i位設(shè)置為1,剩下所有其他位設(shè)置為0;第一類中剩下的三個(gè)特征是位置特異性-2,位置特異性-和位置特異性-4,這些方法反映了基于獨(dú)熱編碼的DNA序列中任何兩個(gè)核苷酸之間的不同位置特異性,位置特異性表
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-15-2.4基于監(jiān)督學(xué)習(xí)構(gòu)造多種分類器基于殘基層面和基于序列層面的大多數(shù)生物序列分析任務(wù)都可以作為分類任務(wù)處理。特別地,許多常見的分類算法已廣泛應(yīng)用于生物序列分析。對(duì)于基于殘基層面的分析任務(wù),本文中提供了兩種分類算法:支持向量機(jī)和隨機(jī)森林以及一種序列標(biāo)記算法條件隨機(jī)常分類算法和序列標(biāo)注算法都是機(jī)器學(xué)習(xí)中常用的算法,他們的關(guān)系和區(qū)別如下圖2-2所示:圖2-2序列標(biāo)注算法與分類算法的關(guān)系在BioSeq-Analysis2.0中,支持向量機(jī)算法的實(shí)現(xiàn)依賴于具有高斯核函數(shù)的LIBSVM包[67]。在BioSeq-Analysis2.0中,用戶可以根據(jù)需要自己設(shè)置支持向量機(jī)算法的參數(shù)c和g,或者可以根據(jù)具體的性能指標(biāo)如準(zhǔn)確性(Acc),馬修斯相關(guān)系數(shù)(MCC)或ROC[68]下面積曲線(AUC)對(duì)這些參數(shù)進(jìn)行自動(dòng)優(yōu)化。隨機(jī)森林是一種靈活且廣泛使用的監(jiān)督機(jī)器學(xué)習(xí)算法,在BioSeq-Analysis2.0中使用Python中被廣泛應(yīng)用的Scikit-learn軟件包[69]作為隨機(jī)森林算法的實(shí)現(xiàn),用戶可以根據(jù)自己的需要選擇決策樹的數(shù)量也可以對(duì)此參數(shù)進(jìn)行自動(dòng)優(yōu)化。此外,為了捕獲序列中殘基的全局和長范圍內(nèi)的順序信息,本文提供一種序列標(biāo)記算法(條件隨機(jī)場)來用于基于殘基層面的分析任務(wù)。與支持向量機(jī)和隨機(jī)森林等分類算法相比,條件隨機(jī)場作為一種序列標(biāo)記算法,能夠以全局方式對(duì)生物序列進(jìn)行建模,考慮序列中所有殘基間的依賴性信息,如圖2-2中所示。DNA,RNA或蛋白質(zhì)序列作為觀察序列處理,序列中的每個(gè)殘基標(biāo)記為0或1。給定生物序列X及其標(biāo)記Y,可以用X訓(xùn)練條件概率分類器P(Y|X)對(duì)于每個(gè)觀察序列x,其標(biāo)簽序列y的條件概率可以通過公式(2-4)
本文編號(hào):3098788
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本課題各章研究內(nèi)容關(guān)系圖
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-10-的三個(gè)主要步驟包括特征提取,分類器構(gòu)建和性能評(píng)估(具體可參見圖2-1)。圖2-1生物序列分析方法主要步驟2.3基于殘基層面和序列層面的特征介紹基于殘基層面的特征主要是為了探索殘基的性質(zhì)以及在一個(gè)定長窗口內(nèi)殘基之間的關(guān)系,而基于序列層面的特征則側(cè)重于根據(jù)整條序列來提取全局信息。對(duì)于基于殘基層面的分析任務(wù),為了捕獲特定殘基的屬性特征,本文使用滑動(dòng)窗口策略和片段分割策略,在用戶定義的一個(gè)固定長度的窗口區(qū)域內(nèi)提取特征。對(duì)于序列層面分析,通過序列信息將生物序列轉(zhuǎn)換成特征向量。本文提出的序列分析系統(tǒng)BioSeq-Analysis2.0包含了26種殘基層面的特征提取方法,其中適用于DNA的有7種[11,28-31],適用于RNA的有6種[11,28,29,32],適用于蛋白質(zhì)的有13種[11,14,28,33-42],以及34種序列層面的新特征,包括適用于DNA的9種新特征[10,20,43],適用于RNA的7種新特征[20,43][10],適用于蛋白質(zhì)的18種新特征[44-62]。特別地,本文中的序列分析系統(tǒng)可以提供殘基層面完整的分析流程。在DNA-Analysis2.0中,有7種不同的基于殘基水平的特征可以用于生成多種分類器,這些特征可以進(jìn)一步劃分為三類(詳細(xì)類別見表2-1)。第一類是有關(guān)殘基組成成分的特征,共有四種。在這四個(gè)特征中,第一個(gè)是基于獨(dú)熱編碼的特征,首先將殘基按特定順序排列,然后用四個(gè)二進(jìn)制位表示第i個(gè)殘基類別,其中第i位設(shè)置為1,剩下所有其他位設(shè)置為0;第一類中剩下的三個(gè)特征是位置特異性-2,位置特異性-和位置特異性-4,這些方法反映了基于獨(dú)熱編碼的DNA序列中任何兩個(gè)核苷酸之間的不同位置特異性,位置特異性表
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-15-2.4基于監(jiān)督學(xué)習(xí)構(gòu)造多種分類器基于殘基層面和基于序列層面的大多數(shù)生物序列分析任務(wù)都可以作為分類任務(wù)處理。特別地,許多常見的分類算法已廣泛應(yīng)用于生物序列分析。對(duì)于基于殘基層面的分析任務(wù),本文中提供了兩種分類算法:支持向量機(jī)和隨機(jī)森林以及一種序列標(biāo)記算法條件隨機(jī)常分類算法和序列標(biāo)注算法都是機(jī)器學(xué)習(xí)中常用的算法,他們的關(guān)系和區(qū)別如下圖2-2所示:圖2-2序列標(biāo)注算法與分類算法的關(guān)系在BioSeq-Analysis2.0中,支持向量機(jī)算法的實(shí)現(xiàn)依賴于具有高斯核函數(shù)的LIBSVM包[67]。在BioSeq-Analysis2.0中,用戶可以根據(jù)需要自己設(shè)置支持向量機(jī)算法的參數(shù)c和g,或者可以根據(jù)具體的性能指標(biāo)如準(zhǔn)確性(Acc),馬修斯相關(guān)系數(shù)(MCC)或ROC[68]下面積曲線(AUC)對(duì)這些參數(shù)進(jìn)行自動(dòng)優(yōu)化。隨機(jī)森林是一種靈活且廣泛使用的監(jiān)督機(jī)器學(xué)習(xí)算法,在BioSeq-Analysis2.0中使用Python中被廣泛應(yīng)用的Scikit-learn軟件包[69]作為隨機(jī)森林算法的實(shí)現(xiàn),用戶可以根據(jù)自己的需要選擇決策樹的數(shù)量也可以對(duì)此參數(shù)進(jìn)行自動(dòng)優(yōu)化。此外,為了捕獲序列中殘基的全局和長范圍內(nèi)的順序信息,本文提供一種序列標(biāo)記算法(條件隨機(jī)場)來用于基于殘基層面的分析任務(wù)。與支持向量機(jī)和隨機(jī)森林等分類算法相比,條件隨機(jī)場作為一種序列標(biāo)記算法,能夠以全局方式對(duì)生物序列進(jìn)行建模,考慮序列中所有殘基間的依賴性信息,如圖2-2中所示。DNA,RNA或蛋白質(zhì)序列作為觀察序列處理,序列中的每個(gè)殘基標(biāo)記為0或1。給定生物序列X及其標(biāo)記Y,可以用X訓(xùn)練條件概率分類器P(Y|X)對(duì)于每個(gè)觀察序列x,其標(biāo)簽序列y的條件概率可以通過公式(2-4)
本文編號(hào):3098788
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3098788.html
最近更新
教材專著