基于Tika和Lucene的桌面搜索引擎研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于Tika和Lucene的桌面搜索引擎研究與實(shí)現(xiàn)
更多相關(guān)文章: 桌面搜索引擎 索引優(yōu)化 索引片斷 多線程索引 多線程寫入
【摘要】:在桌面搜索引擎中,對于二進(jìn)制文件格式的處理,通常需要針對每一種具體的文件格式編寫?yīng)毩⒌慕馕銎?復(fù)雜度較高且不易維護(hù)。從分析開源搜索引擎Lucene出發(fā),提出一種基于Tika和Lucene的桌面搜索引擎框架,能夠使用統(tǒng)一的應(yīng)用編程接口來處理不同二進(jìn)制格式的文檔。整個框架均為開放源代碼形式,各模塊間耦合度低,易于擴(kuò)展。在實(shí)現(xiàn)方面,基于最新的Lucene4.1,實(shí)現(xiàn)了對桌面系統(tǒng)內(nèi)文檔的全文搜索;并在索引性能優(yōu)化方面,相比于傳統(tǒng)的參數(shù)配置優(yōu)化和內(nèi)存緩沖優(yōu)化兩方面,使用最新的DWPT(documents writer per thread)技術(shù),使索引性能提升了35%。
【作者單位】: 首都師范大學(xué)信息工程學(xué)院;北京理工大學(xué)圖書館;
【關(guān)鍵詞】: 桌面搜索引擎 索引優(yōu)化 索引片斷 多線程索引 多線程寫入
【基金】:國家自然科學(xué)基金項(xiàng)目(61272446) 北京市屬高等學(xué)校人才強(qiáng)教深化計(jì)劃“中青年骨干人才”基金項(xiàng)目(PHR201008083)
【分類號】:TP391.3
【正文快照】: 0引言桌面計(jì)算機(jī)上分布著數(shù)量龐大、內(nèi)容包羅萬象的文檔資源,對于這些不同格式的文檔,管理起來較為復(fù)雜,并隨著文檔數(shù)量的日益增加,在短時間內(nèi)很難找出需要的文檔;而且,僅通過文件名的文檔查找方式,很多時候無法滿足用戶需求。文獻(xiàn)[1-4]提出了全文搜索的方法,使得桌面搜索的
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 義天鵬;陳啟安;;基于Lucene的中文分析器分詞性能比較研究[J];計(jì)算機(jī)工程;2012年22期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前2條
1 李麗枝;陶振凱;;基于Lucene全文檢索的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2013年19期
2 王璐;于超;王博;王國春;林金花;李輝;;本體語義檢索系統(tǒng)[J];長春工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2013年06期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 衣波;網(wǎng)絡(luò)輿情信息的話題發(fā)現(xiàn)和追蹤技術(shù)的研究與應(yīng)用[D];廣東工業(yè)大學(xué);2013年
2 史仁仁;網(wǎng)絡(luò)輿情話題識別與跟蹤系統(tǒng)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2013年
3 范晨熙;基于Hadoop的搜索引擎的研究與應(yīng)用[D];浙江理工大學(xué);2013年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前2條
1 胡長春;劉功申;;面向搜索引擎Lucene的中文分析器[J];計(jì)算機(jī)工程與應(yīng)用;2009年12期
2 聞玉彪;賈時銀;鄧世昆;李遠(yuǎn)方;;一種改進(jìn)的最大匹配中文分詞算法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年10期
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李偉超;;桌面搜索引擎評析[J];現(xiàn)代情報;2007年12期
2 喬俊;Sybase SQL Server素引的使用和優(yōu)化原則研究[J];電腦知識與技術(shù);2004年23期
3 南天浩;淺談數(shù)據(jù)庫優(yōu)化查詢技術(shù)[J];山東教育學(xué)院學(xué)報;2004年06期
4 王愛軍;基于數(shù)據(jù)庫查詢過程優(yōu)化設(shè)計(jì)[J];電子科技大學(xué)學(xué)報;2003年02期
5 ;亟待突破瓶頸——文檔管理和桌面搜索期望更加適用和高效[J];微電腦世界;2006年03期
6 黃昆;;桌面搜索:海水和火焰共生[J];中國計(jì)算機(jī)用戶;2006年34期
7 羅海波;王加陽;;淺析數(shù)據(jù)庫的查詢優(yōu)化和合理索引[J];中國中醫(yī)藥現(xiàn)代遠(yuǎn)程教育;2007年03期
8 陳甫;龔玉霞;;關(guān)系數(shù)據(jù)庫中索引優(yōu)化淺談[J];科學(xué)咨詢(科技管理);2010年08期
9 梁京章;李幼紅;潘瑩;葉云;;P2P資料搜索引擎的研究和設(shè)計(jì)[J];廣西大學(xué)學(xué)報(自然科學(xué)版);2006年04期
10 徐豐;用二叉樹結(jié)構(gòu)索引優(yōu)化檢索系統(tǒng)[J];情報理論與實(shí)踐;1987年06期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 申兵一;鞏青歌;;基于Lucene桌面搜索引擎系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[A];江蘇省電子學(xué)會2010年學(xué)術(shù)年會論文集[C];2010年
2 陳濤;;Oracle應(yīng)用系統(tǒng)的優(yōu)化方案[A];海南省通信學(xué)會學(xué)術(shù)年會論文集(2008)[C];2008年
3 王曉輝;王柏;;通過有效使用索引優(yōu)化Oracle應(yīng)用系統(tǒng)性能[A];第九屆全國青年通信學(xué)術(shù)會議論文集[C];2004年
4 蔣華;;基于B~+樹批量加入算法的空間數(shù)據(jù)庫索引優(yōu)化策略[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年
5 張延松;龔瑋薇;王占偉;黃偉;胡偉;季曉東;黃云奎;王珊;;ScaMMDB:面向可擴(kuò)展內(nèi)存數(shù)據(jù)庫系統(tǒng)的研究[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(一)[C];2008年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 鄭依華;搜索引擎也開源[N];計(jì)算機(jī)世界;2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 劉科;內(nèi)容感知存儲系統(tǒng)中的信息檢索關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 許志敏;基于Android的桌面搜索引擎的研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2010年
2 焦明飛;基于安卓系統(tǒng)的桌面搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2013年
3 孟美華;桌面搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2009年
4 謝海潮;手機(jī)桌面搜索引擎的研究與實(shí)現(xiàn)[D];大連理工大學(xué);2009年
5 肖晨;CMS中檢索子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];解放軍信息工程大學(xué);2007年
6 彭濤;煤炭銷售票管理系統(tǒng)數(shù)據(jù)庫優(yōu)化方法應(yīng)用的研究[D];太原科技大學(xué);2011年
7 王利;SQL SERVER數(shù)據(jù)庫性能調(diào)整與優(yōu)化[D];電子科技大學(xué);2007年
8 黃均樂;基于lucene的圖像搜索[D];中南民族大學(xué);2008年
9 李運(yùn)莉;web數(shù)據(jù)庫應(yīng)用系統(tǒng)性能優(yōu)化[D];華中科技大學(xué);2006年
10 曾雪;海量數(shù)據(jù)的快速查詢算法研究[D];南京郵電大學(xué);2012年
,本文編號:1073581
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1073581.html