天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機應(yīng)用論文 >

基于共現(xiàn)詞頻的序列相似性研究

發(fā)布時間:2022-09-29 16:24
  隨著第二代測序技術(shù)的發(fā)展,產(chǎn)生了大量的生物序列數(shù)據(jù),這些豐富的數(shù)據(jù)資源為科研人員的研究提供了便捷,也提高了人們的工作效率。在這些數(shù)據(jù)資源給人們提供便利的同時,也對人們?nèi)绾慰焖儆行У靥幚磉@些大數(shù)據(jù)提出了挑戰(zhàn)。若對每條數(shù)據(jù)都進行信息提取或物種注釋,既耗時工作量又很大。本工作將共現(xiàn)詞頻作為研究序列相似性的主要指標,并從以下三個方面展開研究:首先應(yīng)用一種歸一化的共現(xiàn)詞頻方法——Jaccard進行序列相似性計算,然后將共現(xiàn)詞頻技術(shù)與圖模型結(jié)合,計算序列權(quán)重,最后應(yīng)用序列權(quán)重進行序列聚類。主要工作結(jié)果如下:(1)基于改進的Jaccard系數(shù)文檔相似度計算方法。針對傳統(tǒng)的文檔相似度計算方法中存在的相似度計算不精等問題,提出一種基于改進的Jaccard系數(shù)確定文檔相似度的方法。通過文本預(yù)處理,按照一定的滑動窗口大小,對文本進行分割,將文本用L字元素(k-mers)表示,并記錄其在每個文檔中的出現(xiàn)頻度。通過對兩文本間存在的共現(xiàn)k-mers詞頻做歸一化處理、計算其在文本中所占比重及對兩文本相似度所做的貢獻,得到兩文本基于改進的Jaccard系數(shù)文檔相似度。隨后利用搜狗實驗室提供的語料,對本工作提出的相似度... 

【文章頁數(shù)】:83 頁

【學(xué)位級別】:碩士

【文章目錄】:
中文摘要
Abstract
緒論
    第一節(jié) 研究背景和意義
    第二節(jié) 國內(nèi)外研究現(xiàn)狀
        0.2.1 文本相似度研究
        0.2.2 生物序列聚類研究
    第三節(jié) 論文的主要內(nèi)容研究
    第四節(jié) 論文的組織結(jié)構(gòu)
第一章 相關(guān)工作
    第一節(jié) 常用相似度計算方法
        1.1.1 共現(xiàn)詞頻與Jaccard相似度
        1.1.2 余弦相似度
        1.1.3 編輯距離
        1.1.4 D-type方法
    第二節(jié) 基于圖的權(quán)重計算方法
        1.2.1 PageRank算法
        1.2.2 TextRank算法
    第三節(jié) 常用生物序列聚類方法
        1.3.1 Afcluster
        1.3.2 QCluster
        1.3.3 CD-HIT
        1.3.4 USEARCH
    第四節(jié) 本章小結(jié)
第二章 基于改進的Jaccard系數(shù)文檔相似度計算方法
    第一節(jié) 改進的Jaccard系數(shù)文檔相似度算法
        2.1.1 文本分割
        2.1.2 權(quán)重計算
        2.1.3 相似度計算
    第二節(jié) 算法示例
    第三節(jié) 實驗介紹
        2.3.1 實驗數(shù)據(jù)
        2.3.2 評估指標
        2.3.3 實驗結(jié)果
    第四節(jié) 本章小結(jié)
第三章 SeqRank:基于圖模型的序列權(quán)重計算模型
    第一節(jié) SeqRank算法
        3.1.1 序列分割
        3.1.2 圖模型構(gòu)造
        3.1.3 權(quán)重計算
    第二節(jié) 實驗介紹
        3.2.1 實驗數(shù)據(jù)
        3.2.2 實驗結(jié)果
        3.2.3 SeqRank不足之處
    第三節(jié) 本章小結(jié)
第四章 基于SeqRank的聚類算法
    第一節(jié) SeqRank改進思路
    第二節(jié) 基于SeqRank的聚類算法
        4.2.1 基于MSR計算序列重要性
        4.2.2 選取候選序列
        4.2.3 尋找序列中心
        4.2.4 序列聚類
    第三節(jié) 實驗介紹
        4.3.1 實驗數(shù)據(jù)
        4.3.2 評估指標
        4.3.3 實驗結(jié)果
    第四節(jié) 本章小結(jié)
第五章 總結(jié)與展望
    第一節(jié) 研究工作總結(jié)
    第二節(jié) 未來工作展望
參考文獻
攻讀學(xué)位期間承擔(dān)的科研任務(wù)與主要成果
    科研任務(wù)
    主要成果
致謝
個人簡歷


【參考文獻】:
期刊論文
[1]基于余弦相似度和實例加權(quán)改進的貝葉斯算法[J]. 王行甫,付歡歡,王琳.  計算機系統(tǒng)應(yīng)用. 2016(08)
[2]一種改進的文本相似度算法在政務(wù)系統(tǒng)中的應(yīng)用[J]. 賈惠娟.  信息技術(shù)與信息化. 2016(07)
[3]基于巴氏系數(shù)和Jaccard系數(shù)的協(xié)同過濾算法[J]. 楊家慧,劉方愛.  計算機應(yīng)用. 2016(07)
[4]基于向量空間模型的中文文本相似度的研究[J]. 薛蘇琴,牛永潔.  電子設(shè)計工程. 2016(10)
[5]一種基于Jaccard相似度的社團發(fā)現(xiàn)方法[J]. 孫宇.  電子技術(shù)與軟件工程. 2016(03)
[6]基于文本計算和鏈接分析的主題導(dǎo)航優(yōu)化——以ERS網(wǎng)站為例[J]. 許鑫,蘇曉蘭.  情報學(xué)報. 2015 (09)
[7]一種基于熵的文本相似性計算方法[J]. 李圣文,凌微,龔君芳,周長征.  計算機應(yīng)用研究. 2016(03)
[8]基于Hadoop平臺的文本相似度檢測系統(tǒng)的研究[J]. 王小林,肖慧,邰偉鵬.  計算機技術(shù)與發(fā)展. 2015(08)
[9]基于改進的TF-IDF方法的文本相似度算法研究[J]. 周麗杰,于偉海,郭成.  泰山學(xué)院學(xué)報. 2015(03)
[10]基于余弦相似度的人臉識別系統(tǒng)的實現(xiàn)[J]. 劉一瑋,楊韜,劉瑾,于振澤,孫嘉琨.  電子技術(shù)與軟件工程. 2015(09)

碩士論文
[1]金華火腿品質(zhì)特征的GC-MS指紋圖譜研究[D]. 呂曉雷.浙江工商大學(xué) 2013
[2]基于多示例學(xué)習(xí)的中文文本表示及分類研究[D]. 何維.大連理工大學(xué) 2009



本文編號:3682919

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3682919.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶33c61***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com