基于CUDA的生物序列數(shù)據(jù)算術(shù)編碼并行壓縮
本文選題:算術(shù)編碼 + 生物序列; 參考:《計算機應用與軟件》2016年12期
【摘要】:隨著下一代生物序列測序技術(shù)的發(fā)展,大文件生物序列數(shù)據(jù)越來越常見。雖然壓縮序列數(shù)據(jù)能減少數(shù)據(jù)存儲空間,但是傳統(tǒng)的數(shù)據(jù)壓縮的方法很難快速完成大規(guī)模的序列壓縮,因此如何縮短數(shù)據(jù)壓縮時間是當前壓縮技術(shù)研究的一個重要方向。采用CUDA技術(shù)實現(xiàn)算術(shù)編碼,分析核苷酸生物序列數(shù)據(jù)特性,給出不同物種及數(shù)據(jù)庫生物序列數(shù)據(jù)集中核苷酸的分布概率,提出并比較三種并行壓縮方法,指出先驗概率的并行壓縮方法具有更好的壓縮性能。實驗結(jié)果表明,先驗概率的并行壓縮方法不僅具有較高的時間效率,而且也能保持較高的數(shù)據(jù)壓縮率,能較好地解決大規(guī)模生物序列文件的高效快速壓縮問題。
[Abstract]:With the development of next generation biological sequence sequencing technology, large-file biological sequence data are becoming more and more common. Although the compression of sequence data can reduce the data storage space, it is difficult for the traditional data compression method to complete the large-scale data compression quickly. Therefore, how to shorten the time of data compression is an important research direction of the current compression technology. The arithmetic coding is realized by using CUDA technique, the characteristics of nucleotide biological sequence data are analyzed, the distribution probability of nucleotides in biological sequence data sets of different species and database is given, and three parallel compression methods are proposed and compared. It is pointed out that the parallel compression method with prior probability has better compression performance. The experimental results show that the parallel compression method based on priori probability not only has high time efficiency, but also can maintain a high data compression rate, and it can solve the problem of fast and efficient compression of large scale biological sequence files.
【作者單位】: 上海大學計算機工程與科學學院;上海眾恒信息產(chǎn)業(yè)股份有限公司;
【基金】:國家自然科學基金重大研究計劃項目(91330116) 教育部留學回國人員科研啟動基金
【分類號】:Q811.4;TP301.6
【相似文獻】
相關(guān)期刊論文 前10條
1 沈世鎰;生物序列的語義分析與第二密碼規(guī)則的探索[J];工程數(shù)學學報;2004年05期
2 李玉擰;生物序列的鄰位約束比較方法[J];北京工業(yè)大學學報;2005年05期
3 謝惠民;生物序列分析中的若干數(shù)學方法[J];高校應用數(shù)學學報A輯(中文版);2005年04期
4 顧燕紅,史定華,王翼飛;隱馬氏模型在生物序列分析中的應用[J];自然雜志;2001年05期
5 沈世鎰,余濤,開波,阮吉壽;生物序列的語義分析與第二密碼規(guī)則的探索(續(xù))[J];工程數(shù)學學報;2004年06期
6 T.P.Speed,史定華 ,王斌賓 ,顧燕紅;生物序列分析[J];自然雜志;2002年05期
7 白鳳蘭;廖波;王天明;;拓撲指數(shù)在生物序列相似性比較中的應用[J];生物數(shù)學學報;2006年04期
8 鄭珂暉;寧正元;王健;;基于正則表達式的生物序列檢索方法[J];莆田學院學報;2009年05期
9 黃均才;王鳳碧;周明天;;生物序列局部聯(lián)配中的馬賽克問題的一種解決方法[J];生物信息學;2006年03期
10 侯鳳成;劉弘;;基于Q學習的生物序列比對方法[J];信息技術(shù)與信息化;2007年02期
相關(guān)會議論文 前3條
1 陳雙平;鄭浩然;王習書;王煦法;;生物序列的描述復雜性分析[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
2 張培源;肖軼;;以一個案例淺談說明書對功能性限定的生物序列權(quán)利要求的支持[A];2014年中華全國專利代理人協(xié)會年會第五屆知識產(chǎn)權(quán)論壇論文(第三部分)[C];2014年
3 鄒小勇;李占潮;周漩;戴宗;;基于生物序列信息的功能預測研究[A];第十一屆全國計算(機)化學學術(shù)會議論文摘要集[C];2011年
相關(guān)博士學位論文 前6條
1 鄧偉;生物序列的相似性分析及k詞模型研究[D];山東大學;2015年
2 常桂松;生物序列分析中若干概率模型研究及應用[D];大連理工大學;2011年
3 郭穎;生物序列的幾何刻畫及應用[D];大連理工大學;2008年
4 李昭;生物序列相似性比較算法的研究[D];中國科學院研究生院(計算技術(shù)研究所);2002年
5 沈一飛;生物序列數(shù)據(jù)比較與模體發(fā)現(xiàn)算法研究[D];中國科學技術(shù)大學;2006年
6 孫偉東;CUDA計算技術(shù)在生物序列數(shù)據(jù)處理中的應用研究[D];東北大學;2011年
相關(guān)碩士學位論文 前10條
1 華克儒;一個有保障的馬氏相似性學習框架及其在生物序列分析中的應用[D];西北農(nóng)林科技大學;2015年
2 汪挺松;曲率在生物序列相似性分析中的應用[D];大連理工大學;2007年
3 練智超;預測生物序列功能的自動方法研究[D];吉林大學;2008年
4 趙麗華;生物序列模式發(fā)現(xiàn)算法的研究[D];西安電子科技大學;2007年
5 邱伯仁;生物序列的索引研究及其應用[D];復旦大學;2009年
6 孫維潔;支持得分矩陣的近似查詢處理技術(shù)研究[D];東北大學;2011年
7 李梅;基于DTW距離的生物序列相似性分析[D];大連交通大學;2010年
8 侯鳳成;基于Q學習的生物序列比對方法[D];山東師范大學;2007年
9 張鑫鑫;生物序列數(shù)據(jù)K-mer頻次統(tǒng)計與可視化研究[D];中國科學技術(shù)大學;2014年
10 鄭元榮;生物序列及其索引的壓縮存儲技術(shù)的研究與實現(xiàn)[D];哈爾濱工業(yè)大學;2007年
,本文編號:1945112
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1945112.html