基于分布式架構(gòu)的海量文本快速相似度檢測研究
發(fā)布時間:2021-12-09 14:27
為了在海量文本中快速精確的找到所需文本,本文提出了一種基于分布式架構(gòu)的海量文本相似度檢測方法。首先使用TF-IDF進(jìn)行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候選樣本集,最后采用余弦相似度算法計算最終相似度。在全文粒度和句子粒度上,通過與指紋算法Simhash以及Simhash算法結(jié)合余弦相似度算法實驗比較發(fā)現(xiàn),本方法在準(zhǔn)確率和速度上都有明顯的優(yōu)勢,因此能夠滿足海量文本快速相似度檢測的要求。
【文章來源】:中國傳媒大學(xué)學(xué)報(自然科學(xué)版). 2019,26(01)
【文章頁數(shù)】:6 頁
【文章目錄】:
1 引言
2 關(guān)鍵技術(shù)
2.1 Elasticsearch
2.2 余弦相似度
2.3 TF-IDF
3 分布式海量文本快速相似度檢測技術(shù)研究改進(jìn)
4 實驗驗證
4.1 實驗數(shù)據(jù)及工具
4.2 實驗結(jié)果分析
5 結(jié)束語
【參考文獻(xiàn)】:
期刊論文
[1]開源搜索引擎Elasticsearch和Solr對比和分析[J]. 魏濤,孟方園,袁平,殷鋒. 現(xiàn)代計算機(專業(yè)版). 2018(06)
[2]一種基于ElasticSearch的推薦系統(tǒng)架構(gòu)[J]. 郝勝男,趙領(lǐng)杰. 電腦知識與技術(shù). 2017(36)
[3]基于語義指紋的海量文本快速相似檢測算法研究[J]. 姜雪,萬正景,梁燕,陶以政. 電腦知識與技術(shù). 2016(36)
[4]基于ElasticSearch的海量AIS數(shù)據(jù)存儲方法[J]. 鄭義成,莫欽華,王海鴻. 指揮信息系統(tǒng)與技術(shù). 2016(03)
[5]基于Simhash算法的重復(fù)數(shù)據(jù)刪除技術(shù)的研究與改進(jìn)[J]. 陳春玲,陳琳,熊晶,余瀚. 南京郵電大學(xué)學(xué)報(自然科學(xué)版). 2016(03)
[6]結(jié)合漢明距離及語義的文本相似度量方法研究[J]. 胡維華,鮑乾,李柯. 杭州電子科技大學(xué)學(xué)報(自然科學(xué)版). 2016(03)
[7]基于Simhash的海量相似文檔快速搜索優(yōu)化方法[J]. 張廣慶,葛唯益,賀成龍. 指揮信息系統(tǒng)與技術(shù). 2015(02)
[8]文本相似性在抄襲問題中的應(yīng)用研究[J]. 丁智斌,霍豫宗,杜念. 華北科技學(xué)院學(xué)報. 2013(01)
碩士論文
[1]向量空間模型與語義理解相結(jié)合的論文相似度算法研究[D]. 嚴(yán)春梅.西南交通大學(xué) 2015
本文編號:3530797
【文章來源】:中國傳媒大學(xué)學(xué)報(自然科學(xué)版). 2019,26(01)
【文章頁數(shù)】:6 頁
【文章目錄】:
1 引言
2 關(guān)鍵技術(shù)
2.1 Elasticsearch
2.2 余弦相似度
2.3 TF-IDF
3 分布式海量文本快速相似度檢測技術(shù)研究改進(jìn)
4 實驗驗證
4.1 實驗數(shù)據(jù)及工具
4.2 實驗結(jié)果分析
5 結(jié)束語
【參考文獻(xiàn)】:
期刊論文
[1]開源搜索引擎Elasticsearch和Solr對比和分析[J]. 魏濤,孟方園,袁平,殷鋒. 現(xiàn)代計算機(專業(yè)版). 2018(06)
[2]一種基于ElasticSearch的推薦系統(tǒng)架構(gòu)[J]. 郝勝男,趙領(lǐng)杰. 電腦知識與技術(shù). 2017(36)
[3]基于語義指紋的海量文本快速相似檢測算法研究[J]. 姜雪,萬正景,梁燕,陶以政. 電腦知識與技術(shù). 2016(36)
[4]基于ElasticSearch的海量AIS數(shù)據(jù)存儲方法[J]. 鄭義成,莫欽華,王海鴻. 指揮信息系統(tǒng)與技術(shù). 2016(03)
[5]基于Simhash算法的重復(fù)數(shù)據(jù)刪除技術(shù)的研究與改進(jìn)[J]. 陳春玲,陳琳,熊晶,余瀚. 南京郵電大學(xué)學(xué)報(自然科學(xué)版). 2016(03)
[6]結(jié)合漢明距離及語義的文本相似度量方法研究[J]. 胡維華,鮑乾,李柯. 杭州電子科技大學(xué)學(xué)報(自然科學(xué)版). 2016(03)
[7]基于Simhash的海量相似文檔快速搜索優(yōu)化方法[J]. 張廣慶,葛唯益,賀成龍. 指揮信息系統(tǒng)與技術(shù). 2015(02)
[8]文本相似性在抄襲問題中的應(yīng)用研究[J]. 丁智斌,霍豫宗,杜念. 華北科技學(xué)院學(xué)報. 2013(01)
碩士論文
[1]向量空間模型與語義理解相結(jié)合的論文相似度算法研究[D]. 嚴(yán)春梅.西南交通大學(xué) 2015
本文編號:3530797
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3530797.html
最近更新
教材專著