基于序列信息的人類N-7甲基鳥(niǎo)嘌呤修飾位點(diǎn)的預(yù)測(cè)
發(fā)布時(shí)間:2020-12-18 17:35
N-7甲基鳥(niǎo)嘌呤(m7G)修飾是轉(zhuǎn)錄后調(diào)控中最常見(jiàn)的堿基修飾之一,廣泛分布于tRNA、rRNA以及真核生物mRNA的5′帽子區(qū)。對(duì)維持RNA的加工代謝、穩(wěn)定、出核以及蛋白質(zhì)翻譯具有重要作用。識(shí)別N-7甲基鳥(niǎo)嘌呤可以為了解其功能提供重要線索,現(xiàn)在大多數(shù)識(shí)別方法主要依靠的是生化實(shí)驗(yàn),然而傳統(tǒng)生化實(shí)驗(yàn)來(lái)識(shí)別修飾位點(diǎn)的缺點(diǎn)越來(lái)越明顯。隨著測(cè)序技術(shù)的飛速發(fā)展,含有N-7甲基鳥(niǎo)嘌呤修飾位點(diǎn)的RNA數(shù)據(jù)的積累為我們系統(tǒng)地研究N-7甲基鳥(niǎo)嘌呤修飾位點(diǎn)提供了機(jī)會(huì)。計(jì)算機(jī)技術(shù)可以快速、準(zhǔn)確和廉價(jià)地識(shí)別RNA中的修飾位點(diǎn),因此構(gòu)建N-7甲基鳥(niǎo)嘌呤修飾位點(diǎn)預(yù)測(cè)模型非常重要。目前在國(guó)內(nèi)外針對(duì)N-7甲基鳥(niǎo)嘌呤修飾位點(diǎn)的預(yù)測(cè)模型相對(duì)較少,這促使我們開(kāi)發(fā)一套基于生物信息學(xué)的N-7甲基鳥(niǎo)嘌呤修飾位點(diǎn)預(yù)測(cè)模型。本文基于N-7甲基鳥(niǎo)嘌呤修飾位點(diǎn)序列信息構(gòu)建預(yù)測(cè)模型。我們首先從含有N-7甲基鳥(niǎo)嘌呤修飾位點(diǎn)附近的RNA序列中提取四種特征包括核苷酸性質(zhì)頻率、k聯(lián)體、偽核苷酸組分、單核苷酸二進(jìn)制編碼,基于四種特征利用支持向量機(jī)構(gòu)建N-7甲基鳥(niǎo)嘌呤修飾位點(diǎn)預(yù)測(cè)模型,然后通過(guò)參數(shù)尋優(yōu)、特征融合以及特征篩選等方法提...
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
m7G-seq識(shí)別N-7甲基鳥(niǎo)嘌呤的實(shí)驗(yàn)方法
第二章數(shù)據(jù)準(zhǔn)備和特征提取方法7相似度分析使用。為了應(yīng)對(duì)新一代測(cè)序技術(shù)產(chǎn)生的快速增長(zhǎng)的測(cè)序數(shù)據(jù)量,我們使用了一種新的并行化的CD-HIT軟件[19],該程序使用了一種新的并行化策略和其他一些技術(shù)來(lái)加快數(shù)據(jù)處理速度,以便對(duì)數(shù)據(jù)集進(jìn)行有效的聚類,其工作原理如下:這種新的并行化技術(shù)的基本思想是基于兩個(gè)表來(lái)運(yùn)作的,首先需要使用T個(gè)線程,其中T-1個(gè)線程用來(lái)運(yùn)行一個(gè)表(不可變的檢查表)的多個(gè)過(guò)程,剩下的一個(gè)線程使用另一個(gè)表(可變的聚類表)并行地運(yùn)行多個(gè)過(guò)程。由于CD-HIT的順序特性,需要對(duì)輸入序列進(jìn)行適當(dāng)?shù)姆纸M并切換word表,來(lái)保證并行化的正確性,在運(yùn)行多個(gè)過(guò)程中時(shí)集群過(guò)程可能會(huì)在檢查過(guò)程之前或之后完成,因此需要使用適當(dāng)?shù)恼{(diào)度來(lái)確保所有線程在絕大多數(shù)時(shí)間都處于活動(dòng)狀態(tài)。在每一輪結(jié)束時(shí),聚類表將成為下一輪的檢查表,而這一輪的檢查表將被清空,成為下一輪的聚類表,并行化的CD-HIT程序是通過(guò)兩輪計(jì)算來(lái)實(shí)現(xiàn)的。這種技術(shù)下的CD-HIT軟件可以對(duì)數(shù)據(jù)進(jìn)行更高效的預(yù)處理,更節(jié)約時(shí)間。下面需要介紹CD-HIT軟件使用過(guò)程中的步驟和注意事項(xiàng)[20]。首先需要下載CD-HIT軟件(本文下載的是Windows版本),安裝界面如圖2-1所示:圖2-1CD-HIT安裝界面在CD-HIT中我們使用cd-hit-est.exe文件,該文件用于比較兩個(gè)數(shù)據(jù)集中的相似性序列。cd-hit-est.exe文件的輸入為兩個(gè)fasta格式的文件,輸出為數(shù)據(jù)集2中和數(shù)據(jù)集1之間不相似的核苷酸序列文件和數(shù)據(jù)集2和數(shù)據(jù)集1之間相似的核苷酸序列文件。由于本文中我們需要處理的數(shù)據(jù)集為RNA序列的正負(fù)樣本,因此我們將需要處理的正負(fù)樣本數(shù)據(jù)放在同一文件夾下,然后進(jìn)入系統(tǒng)并打開(kāi)軟件窗口。cd-hit-est界面如圖2-2所示:
電子科技大學(xué)碩士學(xué)位論文8圖2-2cd-hit-est界面cd-hit-est.exe中包含了很多參數(shù),其中-i代表輸入文件,要求是fasta格式;-o表示輸出文件路徑和名字;-n表示序列比對(duì)用到的短字長(zhǎng)度,本文使用值為8,當(dāng)-n=4時(shí),代表的閾值是0.75~0.80,當(dāng)-n=5時(shí),代表的閾值是0.80~0.85,當(dāng)-n=6時(shí),代表的閾值是0.85~0.88,當(dāng)-n=7時(shí),代表閾值是0.88~0.90,-n=8、9、10時(shí),代表的閾值是0.90~1.0;-c表示刪除DNA、RNA序列相似性的閾值,該值是0.8時(shí)代表去除整體相似程度在80%以上的冗余序列;-d表示使用fasta標(biāo)題中第一個(gè)空格前的字段作為序列名字。若cd-hit-est.exe文件和輸入文件的路徑名不相符,需要在輸入文件名和輸出文件名前面加上完整的路徑名。本文中,將參數(shù)-c設(shè)置為0.80,也就是刪除RNA序列相似性80%以上的序列,經(jīng)過(guò)CD-HIT軟件處理后,我們最終得到了741條RNA序列的正負(fù)樣本數(shù)據(jù),數(shù)據(jù)處理前后RNA序列數(shù)據(jù)集數(shù)量如表2-1所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于矩陣策略的不完備混合型數(shù)據(jù)增量式特征選擇算法[J]. 沈玉峰,林徐. 西昌學(xué)院學(xué)報(bào)(自然科學(xué)版). 2020(01)
[2]基于Relief-F特征加權(quán)的模糊支持向量機(jī)的分類算法[J]. 左喻灝,賈連印,游進(jìn)國(guó),張丹威. 化工自動(dòng)化及儀表. 2019(10)
[3]基于MATLAB軟件的LIBSVM的應(yīng)用實(shí)例研究[J]. 寧必鋒. 福建茶葉. 2019(08)
[4]基于計(jì)算模型的RNA甲基化修飾位點(diǎn)預(yù)測(cè)研究綜述[J]. 江詩(shī)雨,邱望仁. 景德鎮(zhèn)學(xué)院學(xué)報(bào). 2017(03)
[5]基于改進(jìn)的LogitBoost算法的垃圾網(wǎng)頁(yè)檢測(cè)研究[J]. 周爽,王洪鈺,李曉,孫磊,龐建萍. 科技視界. 2015(27)
[6]大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J]. 何清,李寧,羅文娟,史忠植. 模式識(shí)別與人工智能. 2014(04)
[7]隨機(jī)森林與支持向量機(jī)分類性能比較[J]. 黃衍,查偉雄. 軟件. 2012(06)
[8]基于RBF核函數(shù)的支持向量機(jī)參數(shù)選擇[J]. 林升梁,劉志. 浙江工業(yè)大學(xué)學(xué)報(bào). 2007(02)
[9]基于網(wǎng)格搜索的支持向量機(jī)核函數(shù)參數(shù)的確定[J]. 王興玲,李占斌. 中國(guó)海洋大學(xué)學(xué)報(bào)(自然科學(xué)版). 2005(05)
[10]支持向量機(jī)及其應(yīng)用研究綜述[J]. 祁亨年. 計(jì)算機(jī)工程. 2004(10)
碩士論文
[1]基于二分類SVM的多分類方法比較研究[D]. 焦春鵬.西安電子科技大學(xué) 2011
[2]樸素貝葉斯分類器的研究與應(yīng)用[D]. 王國(guó)才.重慶交通大學(xué) 2010
本文編號(hào):2924338
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
m7G-seq識(shí)別N-7甲基鳥(niǎo)嘌呤的實(shí)驗(yàn)方法
第二章數(shù)據(jù)準(zhǔn)備和特征提取方法7相似度分析使用。為了應(yīng)對(duì)新一代測(cè)序技術(shù)產(chǎn)生的快速增長(zhǎng)的測(cè)序數(shù)據(jù)量,我們使用了一種新的并行化的CD-HIT軟件[19],該程序使用了一種新的并行化策略和其他一些技術(shù)來(lái)加快數(shù)據(jù)處理速度,以便對(duì)數(shù)據(jù)集進(jìn)行有效的聚類,其工作原理如下:這種新的并行化技術(shù)的基本思想是基于兩個(gè)表來(lái)運(yùn)作的,首先需要使用T個(gè)線程,其中T-1個(gè)線程用來(lái)運(yùn)行一個(gè)表(不可變的檢查表)的多個(gè)過(guò)程,剩下的一個(gè)線程使用另一個(gè)表(可變的聚類表)并行地運(yùn)行多個(gè)過(guò)程。由于CD-HIT的順序特性,需要對(duì)輸入序列進(jìn)行適當(dāng)?shù)姆纸M并切換word表,來(lái)保證并行化的正確性,在運(yùn)行多個(gè)過(guò)程中時(shí)集群過(guò)程可能會(huì)在檢查過(guò)程之前或之后完成,因此需要使用適當(dāng)?shù)恼{(diào)度來(lái)確保所有線程在絕大多數(shù)時(shí)間都處于活動(dòng)狀態(tài)。在每一輪結(jié)束時(shí),聚類表將成為下一輪的檢查表,而這一輪的檢查表將被清空,成為下一輪的聚類表,并行化的CD-HIT程序是通過(guò)兩輪計(jì)算來(lái)實(shí)現(xiàn)的。這種技術(shù)下的CD-HIT軟件可以對(duì)數(shù)據(jù)進(jìn)行更高效的預(yù)處理,更節(jié)約時(shí)間。下面需要介紹CD-HIT軟件使用過(guò)程中的步驟和注意事項(xiàng)[20]。首先需要下載CD-HIT軟件(本文下載的是Windows版本),安裝界面如圖2-1所示:圖2-1CD-HIT安裝界面在CD-HIT中我們使用cd-hit-est.exe文件,該文件用于比較兩個(gè)數(shù)據(jù)集中的相似性序列。cd-hit-est.exe文件的輸入為兩個(gè)fasta格式的文件,輸出為數(shù)據(jù)集2中和數(shù)據(jù)集1之間不相似的核苷酸序列文件和數(shù)據(jù)集2和數(shù)據(jù)集1之間相似的核苷酸序列文件。由于本文中我們需要處理的數(shù)據(jù)集為RNA序列的正負(fù)樣本,因此我們將需要處理的正負(fù)樣本數(shù)據(jù)放在同一文件夾下,然后進(jìn)入系統(tǒng)并打開(kāi)軟件窗口。cd-hit-est界面如圖2-2所示:
電子科技大學(xué)碩士學(xué)位論文8圖2-2cd-hit-est界面cd-hit-est.exe中包含了很多參數(shù),其中-i代表輸入文件,要求是fasta格式;-o表示輸出文件路徑和名字;-n表示序列比對(duì)用到的短字長(zhǎng)度,本文使用值為8,當(dāng)-n=4時(shí),代表的閾值是0.75~0.80,當(dāng)-n=5時(shí),代表的閾值是0.80~0.85,當(dāng)-n=6時(shí),代表的閾值是0.85~0.88,當(dāng)-n=7時(shí),代表閾值是0.88~0.90,-n=8、9、10時(shí),代表的閾值是0.90~1.0;-c表示刪除DNA、RNA序列相似性的閾值,該值是0.8時(shí)代表去除整體相似程度在80%以上的冗余序列;-d表示使用fasta標(biāo)題中第一個(gè)空格前的字段作為序列名字。若cd-hit-est.exe文件和輸入文件的路徑名不相符,需要在輸入文件名和輸出文件名前面加上完整的路徑名。本文中,將參數(shù)-c設(shè)置為0.80,也就是刪除RNA序列相似性80%以上的序列,經(jīng)過(guò)CD-HIT軟件處理后,我們最終得到了741條RNA序列的正負(fù)樣本數(shù)據(jù),數(shù)據(jù)處理前后RNA序列數(shù)據(jù)集數(shù)量如表2-1所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于矩陣策略的不完備混合型數(shù)據(jù)增量式特征選擇算法[J]. 沈玉峰,林徐. 西昌學(xué)院學(xué)報(bào)(自然科學(xué)版). 2020(01)
[2]基于Relief-F特征加權(quán)的模糊支持向量機(jī)的分類算法[J]. 左喻灝,賈連印,游進(jìn)國(guó),張丹威. 化工自動(dòng)化及儀表. 2019(10)
[3]基于MATLAB軟件的LIBSVM的應(yīng)用實(shí)例研究[J]. 寧必鋒. 福建茶葉. 2019(08)
[4]基于計(jì)算模型的RNA甲基化修飾位點(diǎn)預(yù)測(cè)研究綜述[J]. 江詩(shī)雨,邱望仁. 景德鎮(zhèn)學(xué)院學(xué)報(bào). 2017(03)
[5]基于改進(jìn)的LogitBoost算法的垃圾網(wǎng)頁(yè)檢測(cè)研究[J]. 周爽,王洪鈺,李曉,孫磊,龐建萍. 科技視界. 2015(27)
[6]大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J]. 何清,李寧,羅文娟,史忠植. 模式識(shí)別與人工智能. 2014(04)
[7]隨機(jī)森林與支持向量機(jī)分類性能比較[J]. 黃衍,查偉雄. 軟件. 2012(06)
[8]基于RBF核函數(shù)的支持向量機(jī)參數(shù)選擇[J]. 林升梁,劉志. 浙江工業(yè)大學(xué)學(xué)報(bào). 2007(02)
[9]基于網(wǎng)格搜索的支持向量機(jī)核函數(shù)參數(shù)的確定[J]. 王興玲,李占斌. 中國(guó)海洋大學(xué)學(xué)報(bào)(自然科學(xué)版). 2005(05)
[10]支持向量機(jī)及其應(yīng)用研究綜述[J]. 祁亨年. 計(jì)算機(jī)工程. 2004(10)
碩士論文
[1]基于二分類SVM的多分類方法比較研究[D]. 焦春鵬.西安電子科技大學(xué) 2011
[2]樸素貝葉斯分類器的研究與應(yīng)用[D]. 王國(guó)才.重慶交通大學(xué) 2010
本文編號(hào):2924338
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/2924338.html
最近更新
教材專著