基于Lucene的大數(shù)據(jù)量全文搜索引擎的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于Lucene的大數(shù)據(jù)量全文搜索引擎的研究與實(shí)現(xiàn)
更多相關(guān)文章: 大數(shù)據(jù)量 Lucene 索引與搜索優(yōu)化 實(shí)時(shí)性搜索 全文檢索系統(tǒng)
【摘要】:大數(shù)據(jù)時(shí)代,搜索引擎已經(jīng)成為人們獲取信息和進(jìn)行信息化管理的重要工具,Lucene作為當(dāng)前最為流行的開源搜索工具之一,已經(jīng)應(yīng)用到很多領(lǐng)域。但是隨著數(shù)據(jù)量的增長(zhǎng)Lucene會(huì)遇到很多問題,大數(shù)據(jù)量索引產(chǎn)生的大索引文件會(huì)在索引創(chuàng)建、索引優(yōu)化合并以及搜索等操作時(shí)暴露出很多問題,而且大索引也影響著搜索的實(shí)時(shí)性。這些隨著數(shù)據(jù)量增大而帶來的一系列問題一直以來都困擾著開發(fā)人員,對(duì)于Lucene也只是一個(gè)搜索引擎工具包,在實(shí)際應(yīng)用中特別是大數(shù)據(jù)量情況下的應(yīng)用中需要我們做的還有很多很多。本文就是圍繞這些問題而展開,并提出了一套有效解決以上問題的方案。通過不斷的學(xué)習(xí)和實(shí)踐,我們總結(jié)了影響大數(shù)據(jù)量索引和搜索性能主要的原因是大索引文件以及索引碎片的共同存在,造成增量索引、索引合并以及搜索加載成本太高和對(duì)大量數(shù)據(jù)進(jìn)行索引和合并時(shí)遇到的磁盤IO瓶頸和內(nèi)存的過度消耗。針對(duì)以上問題,我們主要從三個(gè)方面入手以解決大數(shù)據(jù)量下索引和搜索的問題:第一,針對(duì)單索引情況采用緩存技術(shù),內(nèi)存索引目錄以及復(fù)用Index Writer和Index Search對(duì)象等方法減少磁盤IO并提高搜索加載速度;第二,我們提出了一種多文件存儲(chǔ)的主索引局部?jī)?yōu)化合并的策略來解決因大索引文件和索引碎片共存而帶來的索引增量和合并成本過高問題;第三,將索引增量與索引更新分開處理,分索引文件存儲(chǔ)進(jìn)行內(nèi)部?jī)?yōu)化,以減少主索引合并優(yōu)化頻率,并為實(shí)時(shí)性搜索提供支持。考慮到實(shí)際應(yīng)用中的實(shí)時(shí)性要求和傳統(tǒng)實(shí)時(shí)性搜索解決方案在大數(shù)據(jù)量情況下存在的問題,我們提出了一種新的實(shí)時(shí)性搜索解決方案。在文章最后我們采用以上提出的索引和搜索優(yōu)化方案以及實(shí)時(shí)性搜索解決方案實(shí)現(xiàn)了一個(gè)全文搜索引擎并嵌入到實(shí)際的項(xiàng)目中。
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 吐爾地·托合提;維尼拉·木沙江;艾斯卡爾·艾木都拉;;維、哈、柯多文種全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2009年06期
2 李國(guó)芳;;全文搜索引擎快速搭建的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2012年11期
3 張俊飛;;全文搜索引擎搭建解析[J];現(xiàn)代計(jì)算機(jī);2013年25期
4 呂夢(mèng)瑩;;全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];科技致富向?qū)?2013年11期
5 陳華輝;一個(gè)中英文全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2001年03期
6 許譚;祝彥杰;;森林碳匯文獻(xiàn)全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];科技資訊;2008年33期
7 趙淑梅;;全文搜索引擎技術(shù)[J];鄭州鐵路職業(yè)技術(shù)學(xué)院學(xué)報(bào);2008年03期
8 杜勇強(qiáng);;基于行為統(tǒng)計(jì)的全文搜索引擎排序算法[J];計(jì)算機(jī)與數(shù)字工程;2006年10期
9 趙力;;網(wǎng)站全文搜索引擎技術(shù)的初步研究及應(yīng)用[J];科技信息;2009年11期
10 王志敏;黃文;謝小紅;賴建宇;;基于全文搜索引擎的空間數(shù)據(jù)搜索研究[J];國(guó)土資源信息化;2013年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前2條
1 吐爾地·托合提;維尼拉·木沙江;艾斯卡爾·艾木都拉;;維、哈、柯全文搜索引擎中查詢處理研究與實(shí)現(xiàn)[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
2 陸偉;周雪忠;吳朝暉;;基于XML的WEB數(shù)據(jù)庫(kù)全文搜索引擎[A];中國(guó)中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條
1 湖北 周東飛;用Spy-CD構(gòu)建網(wǎng)站全文搜索引擎[N];電腦報(bào);2002年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前9條
1 楊彬;基于Lucene.NET的局域網(wǎng)全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
2 高利雅;基于solr全文搜索引擎的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
3 高建貴;基于Lucene的大數(shù)據(jù)量全文搜索引擎的研究與實(shí)現(xiàn)[D];重慶大學(xué);2015年
4 翟永恒;基于Lucene的全文搜索引擎的應(yīng)用研究[D];貴州大學(xué);2009年
5 徐傳運(yùn);基于主題相關(guān)的P2P全文搜索引擎的研究[D];重慶大學(xué);2006年
6 張瑞;基于Lucene的中英文文檔全文搜索引擎[D];電子科技大學(xué);2008年
7 吳卓斌;基于LUCENE全文搜索引擎關(guān)鍵技術(shù)的研究[D];暨南大學(xué);2007年
8 蘇亮;基于多級(jí)Hash分詞的全文搜索引擎的研究[D];北京郵電大學(xué);2008年
9 李曉東;一個(gè)企業(yè)搜索平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];東北大學(xué);2012年
,本文編號(hào):1196385
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1196385.html