天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于分布式架構(gòu)的海量文本快速相似度檢測(cè)研究

發(fā)布時(shí)間:2021-12-09 14:27
  為了在海量文本中快速精確的找到所需文本,本文提出了一種基于分布式架構(gòu)的海量文本相似度檢測(cè)方法。首先使用TF-IDF進(jìn)行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候選樣本集,最后采用余弦相似度算法計(jì)算最終相似度。在全文粒度和句子粒度上,通過(guò)與指紋算法Simhash以及Simhash算法結(jié)合余弦相似度算法實(shí)驗(yàn)比較發(fā)現(xiàn),本方法在準(zhǔn)確率和速度上都有明顯的優(yōu)勢(shì),因此能夠滿足海量文本快速相似度檢測(cè)的要求。 

【文章來(lái)源】:中國(guó)傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019,26(01)

【文章頁(yè)數(shù)】:6 頁(yè)

【文章目錄】:
1 引言
2 關(guān)鍵技術(shù)
    2.1 Elasticsearch
    2.2 余弦相似度
    2.3 TF-IDF
3 分布式海量文本快速相似度檢測(cè)技術(shù)研究改進(jìn)
4 實(shí)驗(yàn)驗(yàn)證
    4.1 實(shí)驗(yàn)數(shù)據(jù)及工具
    4.2 實(shí)驗(yàn)結(jié)果分析
5 結(jié)束語(yǔ)


【參考文獻(xiàn)】:
期刊論文
[1]開(kāi)源搜索引擎Elasticsearch和Solr對(duì)比和分析[J]. 魏濤,孟方園,袁平,殷鋒.  現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(06)
[2]一種基于ElasticSearch的推薦系統(tǒng)架構(gòu)[J]. 郝勝男,趙領(lǐng)杰.  電腦知識(shí)與技術(shù). 2017(36)
[3]基于語(yǔ)義指紋的海量文本快速相似檢測(cè)算法研究[J]. 姜雪,萬(wàn)正景,梁燕,陶以政.  電腦知識(shí)與技術(shù). 2016(36)
[4]基于ElasticSearch的海量AIS數(shù)據(jù)存儲(chǔ)方法[J]. 鄭義成,莫?dú)J華,王海鴻.  指揮信息系統(tǒng)與技術(shù). 2016(03)
[5]基于Simhash算法的重復(fù)數(shù)據(jù)刪除技術(shù)的研究與改進(jìn)[J]. 陳春玲,陳琳,熊晶,余瀚.  南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(03)
[6]結(jié)合漢明距離及語(yǔ)義的文本相似度量方法研究[J]. 胡維華,鮑乾,李柯.  杭州電子科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(03)
[7]基于Simhash的海量相似文檔快速搜索優(yōu)化方法[J]. 張廣慶,葛唯益,賀成龍.  指揮信息系統(tǒng)與技術(shù). 2015(02)
[8]文本相似性在抄襲問(wèn)題中的應(yīng)用研究[J]. 丁智斌,霍豫宗,杜念.  華北科技學(xué)院學(xué)報(bào). 2013(01)

碩士論文
[1]向量空間模型與語(yǔ)義理解相結(jié)合的論文相似度算法研究[D]. 嚴(yán)春梅.西南交通大學(xué) 2015



本文編號(hào):3530797

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3530797.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1bc6d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com