一種基于Lucene的高效索引建立方法
發(fā)布時(shí)間:2021-03-07 13:35
隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們也越來(lái)越多的使用電子文檔記錄數(shù)據(jù),電子文檔具有容量大,易存儲(chǔ)和易轉(zhuǎn)移等特點(diǎn),但當(dāng)數(shù)據(jù)量較大時(shí)查找電子文檔的內(nèi)容就需要借助索引技術(shù)加快搜索速度,索引技術(shù)的優(yōu)劣直接影響用戶(hù)的使用體驗(yàn)。主要探討單機(jī)存儲(chǔ)大規(guī)模文檔時(shí)高效索引的建立問(wèn)題,論文分析檢索系統(tǒng)的組成和原理,最后使用Lucene工具包通過(guò)多線程建立多個(gè)索引目錄的方式,加速索引的建立以及索引查詢(xún)的速度。實(shí)驗(yàn)結(jié)果表明,該文的方法能有效提升索引的創(chuàng)建和搜索速度。
【文章來(lái)源】:工業(yè)控制計(jì)算機(jī). 2020,33(01)
【文章頁(yè)數(shù)】:2 頁(yè)
【部分圖文】:
Lucene索引創(chuàng)建及搜索
論文實(shí)驗(yàn)采用Java語(yǔ)言,針對(duì)100M、200M至1G的文本集,分別使用單線程程序和本文提出的多線程多索引目錄的方法創(chuàng)建索引并檢索關(guān)鍵字,比較創(chuàng)建索引的速度和檢索關(guān)鍵字的速度。實(shí)驗(yàn)結(jié)果如圖2所示。通過(guò)實(shí)驗(yàn)結(jié)果可以看出,在創(chuàng)建索引階段,本文的方法可以明顯提高索引的創(chuàng)建速度,并且數(shù)據(jù)集越大速度提升越明顯。在索引檢索階段,當(dāng)索引數(shù)據(jù)量較小時(shí)單線程有優(yōu)勢(shì),但是當(dāng)索引數(shù)據(jù)量增大時(shí),多線程的檢索效率更高。這是由于索引數(shù)據(jù)量較小時(shí),多線程需要額外的線程創(chuàng)建和切換時(shí)間,導(dǎo)致整個(gè)過(guò)程耗時(shí)更多。
【參考文獻(xiàn)】:
期刊論文
[1]基于搜索引擎日志的用戶(hù)查詢(xún)意圖分類(lèi)[J]. 楊杰,徐越,余建橋,蔣建華. 指揮信息系統(tǒng)與技術(shù). 2019(02)
[2]基于SSM框架的高并發(fā)電子商務(wù)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J]. 吳倩,應(yīng)捷,韓旭. 電子商務(wù). 2019(03)
[3]Hash表與B+樹(shù)相結(jié)合的高效目錄索引結(jié)構(gòu)[J]. 劉賢焯,王勁林,朱明,鄧峰,孫鵬. 西安交通大學(xué)學(xué)報(bào). 2013(04)
[4]關(guān)于Lucene索引工具的性能優(yōu)化研究[J]. 張春燕,劉發(fā)升. 計(jì)算機(jī)技術(shù)與發(fā)展. 2011(05)
[5]Lucene的全文檢索的研究與應(yīng)用[J]. 李永春,丁華福. 計(jì)算機(jī)技術(shù)與發(fā)展. 2010(02)
[6]基于Lucene的索引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 黃少林,王華,張玉紅,蔣一峰. 現(xiàn)代情報(bào). 2009(07)
[7]一種高效的全文檢索索引技術(shù)[J]. 陳瑋,陳玉鵬,石晶,陸達(dá). 計(jì)算機(jī)應(yīng)用研究. 2004(07)
碩士論文
[1]基于Lucene的全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 范蕾.廈門(mén)大學(xué) 2014
本文編號(hào):3069194
【文章來(lái)源】:工業(yè)控制計(jì)算機(jī). 2020,33(01)
【文章頁(yè)數(shù)】:2 頁(yè)
【部分圖文】:
Lucene索引創(chuàng)建及搜索
論文實(shí)驗(yàn)采用Java語(yǔ)言,針對(duì)100M、200M至1G的文本集,分別使用單線程程序和本文提出的多線程多索引目錄的方法創(chuàng)建索引并檢索關(guān)鍵字,比較創(chuàng)建索引的速度和檢索關(guān)鍵字的速度。實(shí)驗(yàn)結(jié)果如圖2所示。通過(guò)實(shí)驗(yàn)結(jié)果可以看出,在創(chuàng)建索引階段,本文的方法可以明顯提高索引的創(chuàng)建速度,并且數(shù)據(jù)集越大速度提升越明顯。在索引檢索階段,當(dāng)索引數(shù)據(jù)量較小時(shí)單線程有優(yōu)勢(shì),但是當(dāng)索引數(shù)據(jù)量增大時(shí),多線程的檢索效率更高。這是由于索引數(shù)據(jù)量較小時(shí),多線程需要額外的線程創(chuàng)建和切換時(shí)間,導(dǎo)致整個(gè)過(guò)程耗時(shí)更多。
【參考文獻(xiàn)】:
期刊論文
[1]基于搜索引擎日志的用戶(hù)查詢(xún)意圖分類(lèi)[J]. 楊杰,徐越,余建橋,蔣建華. 指揮信息系統(tǒng)與技術(shù). 2019(02)
[2]基于SSM框架的高并發(fā)電子商務(wù)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J]. 吳倩,應(yīng)捷,韓旭. 電子商務(wù). 2019(03)
[3]Hash表與B+樹(shù)相結(jié)合的高效目錄索引結(jié)構(gòu)[J]. 劉賢焯,王勁林,朱明,鄧峰,孫鵬. 西安交通大學(xué)學(xué)報(bào). 2013(04)
[4]關(guān)于Lucene索引工具的性能優(yōu)化研究[J]. 張春燕,劉發(fā)升. 計(jì)算機(jī)技術(shù)與發(fā)展. 2011(05)
[5]Lucene的全文檢索的研究與應(yīng)用[J]. 李永春,丁華福. 計(jì)算機(jī)技術(shù)與發(fā)展. 2010(02)
[6]基于Lucene的索引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 黃少林,王華,張玉紅,蔣一峰. 現(xiàn)代情報(bào). 2009(07)
[7]一種高效的全文檢索索引技術(shù)[J]. 陳瑋,陳玉鵬,石晶,陸達(dá). 計(jì)算機(jī)應(yīng)用研究. 2004(07)
碩士論文
[1]基于Lucene的全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 范蕾.廈門(mén)大學(xué) 2014
本文編號(hào):3069194
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3069194.html
最近更新
教材專(zhuān)著