天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于共現(xiàn)詞頻的序列相似性研究

發(fā)布時(shí)間:2022-09-29 16:24
  隨著第二代測(cè)序技術(shù)的發(fā)展,產(chǎn)生了大量的生物序列數(shù)據(jù),這些豐富的數(shù)據(jù)資源為科研人員的研究提供了便捷,也提高了人們的工作效率。在這些數(shù)據(jù)資源給人們提供便利的同時(shí),也對(duì)人們?nèi)绾慰焖儆行У靥幚磉@些大數(shù)據(jù)提出了挑戰(zhàn)。若對(duì)每條數(shù)據(jù)都進(jìn)行信息提取或物種注釋,既耗時(shí)工作量又很大。本工作將共現(xiàn)詞頻作為研究序列相似性的主要指標(biāo),并從以下三個(gè)方面展開(kāi)研究:首先應(yīng)用一種歸一化的共現(xiàn)詞頻方法——Jaccard進(jìn)行序列相似性計(jì)算,然后將共現(xiàn)詞頻技術(shù)與圖模型結(jié)合,計(jì)算序列權(quán)重,最后應(yīng)用序列權(quán)重進(jìn)行序列聚類(lèi)。主要工作結(jié)果如下:(1)基于改進(jìn)的Jaccard系數(shù)文檔相似度計(jì)算方法。針對(duì)傳統(tǒng)的文檔相似度計(jì)算方法中存在的相似度計(jì)算不精等問(wèn)題,提出一種基于改進(jìn)的Jaccard系數(shù)確定文檔相似度的方法。通過(guò)文本預(yù)處理,按照一定的滑動(dòng)窗口大小,對(duì)文本進(jìn)行分割,將文本用L字元素(k-mers)表示,并記錄其在每個(gè)文檔中的出現(xiàn)頻度。通過(guò)對(duì)兩文本間存在的共現(xiàn)k-mers詞頻做歸一化處理、計(jì)算其在文本中所占比重及對(duì)兩文本相似度所做的貢獻(xiàn),得到兩文本基于改進(jìn)的Jaccard系數(shù)文檔相似度。隨后利用搜狗實(shí)驗(yàn)室提供的語(yǔ)料,對(duì)本工作提出的相似度... 

【文章頁(yè)數(shù)】:83 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
中文摘要
Abstract
緒論
    第一節(jié) 研究背景和意義
    第二節(jié) 國(guó)內(nèi)外研究現(xiàn)狀
        0.2.1 文本相似度研究
        0.2.2 生物序列聚類(lèi)研究
    第三節(jié) 論文的主要內(nèi)容研究
    第四節(jié) 論文的組織結(jié)構(gòu)
第一章 相關(guān)工作
    第一節(jié) 常用相似度計(jì)算方法
        1.1.1 共現(xiàn)詞頻與Jaccard相似度
        1.1.2 余弦相似度
        1.1.3 編輯距離
        1.1.4 D-type方法
    第二節(jié) 基于圖的權(quán)重計(jì)算方法
        1.2.1 PageRank算法
        1.2.2 TextRank算法
    第三節(jié) 常用生物序列聚類(lèi)方法
        1.3.1 Afcluster
        1.3.2 QCluster
        1.3.3 CD-HIT
        1.3.4 USEARCH
    第四節(jié) 本章小結(jié)
第二章 基于改進(jìn)的Jaccard系數(shù)文檔相似度計(jì)算方法
    第一節(jié) 改進(jìn)的Jaccard系數(shù)文檔相似度算法
        2.1.1 文本分割
        2.1.2 權(quán)重計(jì)算
        2.1.3 相似度計(jì)算
    第二節(jié) 算法示例
    第三節(jié) 實(shí)驗(yàn)介紹
        2.3.1 實(shí)驗(yàn)數(shù)據(jù)
        2.3.2 評(píng)估指標(biāo)
        2.3.3 實(shí)驗(yàn)結(jié)果
    第四節(jié) 本章小結(jié)
第三章 SeqRank:基于圖模型的序列權(quán)重計(jì)算模型
    第一節(jié) SeqRank算法
        3.1.1 序列分割
        3.1.2 圖模型構(gòu)造
        3.1.3 權(quán)重計(jì)算
    第二節(jié) 實(shí)驗(yàn)介紹
        3.2.1 實(shí)驗(yàn)數(shù)據(jù)
        3.2.2 實(shí)驗(yàn)結(jié)果
        3.2.3 SeqRank不足之處
    第三節(jié) 本章小結(jié)
第四章 基于SeqRank的聚類(lèi)算法
    第一節(jié) SeqRank改進(jìn)思路
    第二節(jié) 基于SeqRank的聚類(lèi)算法
        4.2.1 基于MSR計(jì)算序列重要性
        4.2.2 選取候選序列
        4.2.3 尋找序列中心
        4.2.4 序列聚類(lèi)
    第三節(jié) 實(shí)驗(yàn)介紹
        4.3.1 實(shí)驗(yàn)數(shù)據(jù)
        4.3.2 評(píng)估指標(biāo)
        4.3.3 實(shí)驗(yàn)結(jié)果
    第四節(jié) 本章小結(jié)
第五章 總結(jié)與展望
    第一節(jié) 研究工作總結(jié)
    第二節(jié) 未來(lái)工作展望
參考文獻(xiàn)
攻讀學(xué)位期間承擔(dān)的科研任務(wù)與主要成果
    科研任務(wù)
    主要成果
致謝
個(gè)人簡(jiǎn)歷


【參考文獻(xiàn)】:
期刊論文
[1]基于余弦相似度和實(shí)例加權(quán)改進(jìn)的貝葉斯算法[J]. 王行甫,付歡歡,王琳.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2016(08)
[2]一種改進(jìn)的文本相似度算法在政務(wù)系統(tǒng)中的應(yīng)用[J]. 賈惠娟.  信息技術(shù)與信息化. 2016(07)
[3]基于巴氏系數(shù)和Jaccard系數(shù)的協(xié)同過(guò)濾算法[J]. 楊家慧,劉方愛(ài).  計(jì)算機(jī)應(yīng)用. 2016(07)
[4]基于向量空間模型的中文文本相似度的研究[J]. 薛蘇琴,牛永潔.  電子設(shè)計(jì)工程. 2016(10)
[5]一種基于Jaccard相似度的社團(tuán)發(fā)現(xiàn)方法[J]. 孫宇.  電子技術(shù)與軟件工程. 2016(03)
[6]基于文本計(jì)算和鏈接分析的主題導(dǎo)航優(yōu)化——以ERS網(wǎng)站為例[J]. 許鑫,蘇曉蘭.  情報(bào)學(xué)報(bào). 2015 (09)
[7]一種基于熵的文本相似性計(jì)算方法[J]. 李圣文,凌微,龔君芳,周長(zhǎng)征.  計(jì)算機(jī)應(yīng)用研究. 2016(03)
[8]基于Hadoop平臺(tái)的文本相似度檢測(cè)系統(tǒng)的研究[J]. 王小林,肖慧,邰偉鵬.  計(jì)算機(jī)技術(shù)與發(fā)展. 2015(08)
[9]基于改進(jìn)的TF-IDF方法的文本相似度算法研究[J]. 周麗杰,于偉海,郭成.  泰山學(xué)院學(xué)報(bào). 2015(03)
[10]基于余弦相似度的人臉識(shí)別系統(tǒng)的實(shí)現(xiàn)[J]. 劉一瑋,楊韜,劉瑾,于振澤,孫嘉琨.  電子技術(shù)與軟件工程. 2015(09)

碩士論文
[1]金華火腿品質(zhì)特征的GC-MS指紋圖譜研究[D]. 呂曉雷.浙江工商大學(xué) 2013
[2]基于多示例學(xué)習(xí)的中文文本表示及分類(lèi)研究[D]. 何維.大連理工大學(xué) 2009



本文編號(hào):3682919

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3682919.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)33c61***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com