DBN在蛋白質(zhì)編碼區(qū)識(shí)別問題中的應(yīng)用研究
發(fā)布時(shí)間:2021-07-08 07:19
針對(duì)真核生物DNA序列中蛋白質(zhì)編碼區(qū)的識(shí)別問題,提出基于深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)的組合模型。通過信號(hào)處理技術(shù)對(duì)真核生物的DNA序列進(jìn)行數(shù)值轉(zhuǎn)換,并結(jié)合統(tǒng)計(jì)學(xué)知識(shí)提取轉(zhuǎn)換后DNA序列的數(shù)值特征;利用隨機(jī)森林對(duì)所提取的特征變量降維;用深度置信網(wǎng)絡(luò)模型對(duì)DNA序列分類判別;根據(jù)短時(shí)傅里葉變換(Short Time Fourier Transform,STFT)技術(shù)對(duì)外顯子區(qū)準(zhǔn)確定位。在三個(gè)標(biāo)準(zhǔn)測(cè)試集上比較組合模型與傳統(tǒng)Logistic回歸模型、貝葉斯判別模型的判別效果,結(jié)果顯示,深度置信網(wǎng)絡(luò)組合模型的準(zhǔn)確率和特異度等指標(biāo)都明顯優(yōu)于Logistic回歸模型和貝葉斯判別模型。
【文章來源】:計(jì)算機(jī)工程與應(yīng)用. 2020,56(04)北大核心CSCD
【文章頁數(shù)】:9 頁
【部分圖文】:
真核生物的蛋白質(zhì)編碼區(qū)圖示
為了更好地對(duì)深度置信模型進(jìn)行訓(xùn)練,將原始數(shù)據(jù)集分為兩部分,一部分作為訓(xùn)練集,另一部分作為測(cè)試集,其中前70%的數(shù)據(jù)作為測(cè)試集,后30%的數(shù)據(jù)作為訓(xùn)練集。具體數(shù)據(jù)分布如表6所示。3 真核生物蛋白質(zhì)編碼區(qū)識(shí)別模型的建立
本文以測(cè)試集的前5條DNA序列為例,將深度置信網(wǎng)絡(luò)模型的輸出值輸入STFT模型中對(duì)編碼區(qū)進(jìn)行定位,由此可以得到不同DNA序列的時(shí)頻譜在位置軸上的投影,如圖4所示。從圖中可以看出,外顯子區(qū)域和內(nèi)含子區(qū)域在固定頻率上是不一樣的,也就是說在位置軸上投影的幅頻特性有明顯區(qū)別。因此根據(jù)DNA序列的STFT時(shí)頻分析,可以確定出編碼區(qū)的位置,其中峰值為2的是內(nèi)含子所在區(qū)域,峰值為1的為外顯子所在區(qū)域。根據(jù)圖4可以看出,藍(lán)線代表DNA序列的真實(shí)位點(diǎn),紅線代表DNA序列的預(yù)測(cè)位點(diǎn),它們時(shí)域圖重合的部分表明模型正確預(yù)測(cè)內(nèi)外顯子的位點(diǎn),反之則預(yù)測(cè)有誤。從圖中可以看出,本文提出的基于深度置信網(wǎng)絡(luò)的組合識(shí)別模型的判別能力較強(qiáng),預(yù)測(cè)的位點(diǎn)也比較準(zhǔn)確。
【參考文獻(xiàn)】:
期刊論文
[1]深度置信網(wǎng)絡(luò)模型及應(yīng)用研究綜述[J]. 劉方園,王水花,張煜東. 計(jì)算機(jī)工程與應(yīng)用. 2018(01)
[2]基于改進(jìn)深度置信網(wǎng)絡(luò)的大棚冬棗病蟲害預(yù)測(cè)模型[J]. 張善文,張傳雷,丁軍. 農(nóng)業(yè)工程學(xué)報(bào). 2017(19)
[3]基于深度置信網(wǎng)絡(luò)的電力系統(tǒng)暫態(tài)穩(wěn)定評(píng)估方法[J]. 朱喬木,黨杰,陳金富,徐友平,李銀紅,段獻(xiàn)忠. 中國(guó)電機(jī)工程學(xué)報(bào). 2018(03)
[4]基于全相位頻譜分析的基因識(shí)別算法研究[J]. 王飛宇,鄭紫微,楊任爾. 寧波大學(xué)學(xué)報(bào)(理工版). 2016(02)
[5]稀疏自動(dòng)編碼器在文本分類中的應(yīng)用研究[J]. 秦勝君,盧志平. 科學(xué)技術(shù)與工程. 2013(31)
[6]DNA序列數(shù)值映射方法的研究[J]. 饒妮妮,邱麗君. 生物醫(yī)學(xué)工程學(xué)雜志. 2005(04)
博士論文
[1]若干統(tǒng)計(jì)計(jì)算模型研究及其在生物醫(yī)學(xué)信息處理中的應(yīng)用[D]. 劉廣臣.山東大學(xué) 2016
[2]基于信號(hào)處理理論和方法的基因預(yù)測(cè)研究[D]. 馬寶山.大連海事大學(xué) 2008
碩士論文
[1]基于序列信號(hào)特征SCM法的基因識(shí)別的MATLAB實(shí)現(xiàn)[D]. 王方舟.山東大學(xué) 2013
[2]基于信號(hào)處理方法的基因識(shí)別算法研究[D]. 王震.天津大學(xué) 2010
本文編號(hào):3271123
【文章來源】:計(jì)算機(jī)工程與應(yīng)用. 2020,56(04)北大核心CSCD
【文章頁數(shù)】:9 頁
【部分圖文】:
真核生物的蛋白質(zhì)編碼區(qū)圖示
為了更好地對(duì)深度置信模型進(jìn)行訓(xùn)練,將原始數(shù)據(jù)集分為兩部分,一部分作為訓(xùn)練集,另一部分作為測(cè)試集,其中前70%的數(shù)據(jù)作為測(cè)試集,后30%的數(shù)據(jù)作為訓(xùn)練集。具體數(shù)據(jù)分布如表6所示。3 真核生物蛋白質(zhì)編碼區(qū)識(shí)別模型的建立
本文以測(cè)試集的前5條DNA序列為例,將深度置信網(wǎng)絡(luò)模型的輸出值輸入STFT模型中對(duì)編碼區(qū)進(jìn)行定位,由此可以得到不同DNA序列的時(shí)頻譜在位置軸上的投影,如圖4所示。從圖中可以看出,外顯子區(qū)域和內(nèi)含子區(qū)域在固定頻率上是不一樣的,也就是說在位置軸上投影的幅頻特性有明顯區(qū)別。因此根據(jù)DNA序列的STFT時(shí)頻分析,可以確定出編碼區(qū)的位置,其中峰值為2的是內(nèi)含子所在區(qū)域,峰值為1的為外顯子所在區(qū)域。根據(jù)圖4可以看出,藍(lán)線代表DNA序列的真實(shí)位點(diǎn),紅線代表DNA序列的預(yù)測(cè)位點(diǎn),它們時(shí)域圖重合的部分表明模型正確預(yù)測(cè)內(nèi)外顯子的位點(diǎn),反之則預(yù)測(cè)有誤。從圖中可以看出,本文提出的基于深度置信網(wǎng)絡(luò)的組合識(shí)別模型的判別能力較強(qiáng),預(yù)測(cè)的位點(diǎn)也比較準(zhǔn)確。
【參考文獻(xiàn)】:
期刊論文
[1]深度置信網(wǎng)絡(luò)模型及應(yīng)用研究綜述[J]. 劉方園,王水花,張煜東. 計(jì)算機(jī)工程與應(yīng)用. 2018(01)
[2]基于改進(jìn)深度置信網(wǎng)絡(luò)的大棚冬棗病蟲害預(yù)測(cè)模型[J]. 張善文,張傳雷,丁軍. 農(nóng)業(yè)工程學(xué)報(bào). 2017(19)
[3]基于深度置信網(wǎng)絡(luò)的電力系統(tǒng)暫態(tài)穩(wěn)定評(píng)估方法[J]. 朱喬木,黨杰,陳金富,徐友平,李銀紅,段獻(xiàn)忠. 中國(guó)電機(jī)工程學(xué)報(bào). 2018(03)
[4]基于全相位頻譜分析的基因識(shí)別算法研究[J]. 王飛宇,鄭紫微,楊任爾. 寧波大學(xué)學(xué)報(bào)(理工版). 2016(02)
[5]稀疏自動(dòng)編碼器在文本分類中的應(yīng)用研究[J]. 秦勝君,盧志平. 科學(xué)技術(shù)與工程. 2013(31)
[6]DNA序列數(shù)值映射方法的研究[J]. 饒妮妮,邱麗君. 生物醫(yī)學(xué)工程學(xué)雜志. 2005(04)
博士論文
[1]若干統(tǒng)計(jì)計(jì)算模型研究及其在生物醫(yī)學(xué)信息處理中的應(yīng)用[D]. 劉廣臣.山東大學(xué) 2016
[2]基于信號(hào)處理理論和方法的基因預(yù)測(cè)研究[D]. 馬寶山.大連海事大學(xué) 2008
碩士論文
[1]基于序列信號(hào)特征SCM法的基因識(shí)別的MATLAB實(shí)現(xiàn)[D]. 王方舟.山東大學(xué) 2013
[2]基于信號(hào)處理方法的基因識(shí)別算法研究[D]. 王震.天津大學(xué) 2010
本文編號(hào):3271123
本文鏈接:http://sikaile.net/jingjilunwen/jiliangjingjilunwen/3271123.html
最近更新
教材專著