天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Context加權(quán)的基因組序列編碼研究

發(fā)布時(shí)間:2020-10-26 03:56
   隨著基因組序列的高效壓縮算法不斷地涌現(xiàn),各類利用序列內(nèi)統(tǒng)計(jì)特性和重復(fù)特性來進(jìn)行生物序列壓縮的方法不斷地被優(yōu)化。其中,針對(duì)同源物種間DNA序列高度相似度的特點(diǎn),利用目標(biāo)序列去構(gòu)造一個(gè)Context加權(quán)模型,將概率分布放入算術(shù)編碼器編碼以實(shí)現(xiàn)對(duì)DNA序列的壓縮,所得的效果非常的顯著。前面所有的研究都是在如何優(yōu)化權(quán)值,卻沒有人去研究過這種加權(quán)算法中各個(gè)時(shí)刻的概率分布是否參與加權(quán)的選擇上,所以針對(duì)前人對(duì)這一研究不足的情況,本文設(shè)計(jì)使用可選擇的Context加權(quán)模型,根據(jù)描述長(zhǎng)度增量來判斷概率分布的相似性,再?zèng)Q定是否進(jìn)行加權(quán),最后得到我們的研究結(jié)果。首先,對(duì)我們經(jīng)過處理之后所得的目標(biāo)序列進(jìn)行存儲(chǔ),留作待編碼時(shí)去檢索。我們需要考慮每個(gè)字符間的一個(gè)相關(guān)性特點(diǎn),提出利用多組Context模型加權(quán)合并的辦法來有效地減小碼長(zhǎng),這里我們選用了一種均等權(quán)值的方式。然后對(duì)每個(gè)模型中概率分布的描述長(zhǎng)度進(jìn)行計(jì)算,然后利用描述長(zhǎng)度增量與門限的關(guān)系,判斷概率分布的相似性,若是相似,則采用加權(quán)的方法進(jìn)行編碼求碼長(zhǎng),若是概率分布不相似,則選擇其中信息熵最小的概率分布去編碼,最后得到總的碼長(zhǎng)。進(jìn)而統(tǒng)計(jì)門限不同情況下所對(duì)應(yīng)求得的編碼碼長(zhǎng)的值,進(jìn)行分析。實(shí)驗(yàn)結(jié)果表明,通過描述長(zhǎng)度去判斷概率分布是否相似再選擇性的去做Context加權(quán)可以對(duì)目標(biāo)序列的壓縮效率進(jìn)行更好的改善,也就是可以有效的減小碼長(zhǎng),無失真的壓縮,其中一種模型下提高了千分之6的壓縮效率。也就說明了在進(jìn)行基因序列壓縮的過程中,運(yùn)用這樣的方法可以提高我們的壓縮效率。
【學(xué)位單位】:云南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:O157.4
【部分圖文】:

基于Context加權(quán)的基因組序列編碼研究


圖3-11三個(gè)相似的計(jì)數(shù)分布??這里我們根據(jù)前面的理論來簡(jiǎn)單說明一下計(jì)算碼長(zhǎng)的時(shí)候概率分布的問題,??
【參考文獻(xiàn)】

相關(guān)期刊論文 前2條

1 孟小峰;慈祥;;大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J];計(jì)算機(jī)研究與發(fā)展;2013年01期

2 謝雪英,孫嘯,陸祖宏;卡方檢驗(yàn)確定背景序列模型Markov chain的階數(shù)(英文)[J];Journal of Southeast University(English Edition);2003年04期



本文編號(hào):2856453

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/yysx/2856453.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶06a58***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com