LUCENE搜索算法剖析及優(yōu)化研究
本文關(guān)鍵詞:LUCENE搜索算法剖析及優(yōu)化研究
更多相關(guān)文章: Lucene 搜索算法 向量空間模型 TF-IDF 離散隨機(jī)最優(yōu)化
【摘要】:介紹了開源搜索引擎Lucene的索引與搜索過(guò)程,剖析了Lucene的基于向量空間模型的文檔相關(guān)度模型和基于TF-IDF的權(quán)重計(jì)分算法,在分析其文檔相關(guān)度分值計(jì)算公式的基礎(chǔ)上,指出了可通過(guò)修正評(píng)分機(jī)制和優(yōu)化向量空間模型的算法來(lái)改進(jìn)Lucene的搜索功能和性能的途徑。并提出了一種基于離散隨機(jī)最優(yōu)化的快速搜索算法,以期提升Lucene在大文檔集實(shí)時(shí)搜索時(shí)的性能。
【作者單位】: 上海外國(guó)語(yǔ)大學(xué)圖書館;
【基金】:國(guó)家社科基金“泛在知識(shí)環(huán)境下圖書館知識(shí)發(fā)現(xiàn)技術(shù)與應(yīng)用研究”項(xiàng)目(編號(hào):12CTQ006) 上海市教育委員會(huì)科研創(chuàng)新項(xiàng)目(編號(hào):14ZS073)的資助
【分類號(hào)】:TP391.3
【正文快照】: 0引言快速搜索技術(shù)一直是信息搜索和知識(shí)發(fā)現(xiàn)領(lǐng)域研究的熱點(diǎn)。如何根據(jù)用戶興趣模型及搜索請(qǐng)求從數(shù)據(jù)庫(kù)海量文檔中快速返回相關(guān)文檔,并按照用戶興趣相關(guān)度進(jìn)行高效排序,如何選用高效的開發(fā)工具來(lái)構(gòu)建性能優(yōu)良的全文搜索引擎,均是本項(xiàng)目研究的重要內(nèi)容。當(dāng)前,在眾多開源搜索引
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條
1 王歡;孫瑞志;;基于領(lǐng)域本體和Lucene的語(yǔ)義檢索系統(tǒng)研究[J];計(jì)算機(jī)應(yīng)用;2010年06期
2 竇天芳;姜愛蓉;;資源發(fā)現(xiàn)系統(tǒng)功能分析及應(yīng)用前景[J];圖書情報(bào)工作;2012年07期
3 黃承慧;印鑒;陸寄遠(yuǎn);;一種改進(jìn)的Lucene語(yǔ)義相似度檢索算法[J];中山大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年02期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 毛布;謝汶;;一種基于博弈論的死鎖檢測(cè)機(jī)制研究[J];成都電子機(jī)械高等?茖W(xué)校學(xué)報(bào);2010年04期
2 李從東;高楊;趙映紅;;突發(fā)事件應(yīng)急管理中的情景適應(yīng)度研究[J];電子科技大學(xué)學(xué)報(bào)(社科版);2012年04期
3 秦鴻;錢國(guó)富;鐘遠(yuǎn)薪;;三種發(fā)現(xiàn)服務(wù)系統(tǒng)的比較研究[J];大學(xué)圖書館學(xué)報(bào);2012年05期
4 楊東波;邢軍;;國(guó)家圖書館“文津搜索”的設(shè)計(jì)與實(shí)現(xiàn)[J];國(guó)家圖書館學(xué)刊;2014年03期
5 朱玲;崔海媛;聶華;;網(wǎng)絡(luò)級(jí)發(fā)現(xiàn)服務(wù)的實(shí)施:實(shí)踐與思考——以北大圖書館“未名學(xué)術(shù)搜索”為例[J];大學(xué)圖書館學(xué)報(bào);2014年04期
6 葛慧麗;葉志飛;;一種基于迭代運(yùn)算引文排序的科技文獻(xiàn)檢索系統(tǒng)[J];計(jì)算機(jī)時(shí)代;2011年09期
7 姜鑫;余平;;基于Lucene的音視頻資源檢索系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2011年11期
8 馬曉丹;鄧曉晴;彭文娟;閻紅燦;;基于領(lǐng)域本體的知識(shí)庫(kù)架構(gòu)和實(shí)現(xiàn)[J];河北聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年04期
9 李自輝;;基于B/S架構(gòu)的圖書館管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];科技信息;2013年14期
10 楊魯捷;;搜遞、e讀、primo三大資源發(fā)現(xiàn)系統(tǒng)中文圖書覆蓋情況比較[J];河南圖書館學(xué)刊;2013年08期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 王芳;基于本體的廣域農(nóng)業(yè)信息服務(wù)系統(tǒng)關(guān)鍵技術(shù)研究[D];河北農(nóng)業(yè)大學(xué);2012年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 董錦霞;基于菱形思維的概念檢索模型研究[D];大連理工大學(xué);2011年
2 李大鵬;基于本體的學(xué)科知識(shí)地圖構(gòu)建研究[D];華中師范大學(xué);2011年
3 桂許軍;基于JavaEE平臺(tái)與Lucene的信息文檔搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2011年
4 葉繼平;基于Lucene的全文信息檢索技術(shù)的研究與應(yīng)用[D];江南大學(xué);2012年
5 樊皓;粗糙本體支持的信息語(yǔ)義檢索研究[D];大連海事大學(xué);2012年
6 姜鑫;教學(xué)視頻信息文本化檢索平臺(tái)的構(gòu)建與應(yīng)用[D];華東師范大學(xué);2012年
7 王敏;個(gè)性化搜索中隱私保護(hù)的問(wèn)題研究[D];河北工程大學(xué);2012年
8 謝劍芳;Web主題信息檢索中的語(yǔ)義檢索技術(shù)研究及應(yīng)用[D];重慶交通大學(xué);2012年
9 徐曉文;基于本體的農(nóng)業(yè)數(shù)據(jù)語(yǔ)義關(guān)聯(lián)發(fā)現(xiàn)技術(shù)[D];華僑大學(xué);2012年
10 張琦玉;基于Lucene的應(yīng)用系統(tǒng)內(nèi)部搜索的研究與設(shè)計(jì)[D];南京理工大學(xué);2013年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 呂學(xué)強(qiáng),任飛亮,黃志丹,姚天順;句子相似模型和最相似句子查找算法[J];東北大學(xué)學(xué)報(bào);2003年06期
2 張承立;陳劍波;齊開悅;;基于語(yǔ)義網(wǎng)的語(yǔ)義相似度算法改進(jìn)[J];計(jì)算機(jī)工程與應(yīng)用;2006年17期
3 宋佳;諸云強(qiáng);劉潤(rùn)達(dá);;一種基于Lucene改進(jìn)的全文檢索工具包[J];計(jì)算機(jī)工程與應(yīng)用;2008年04期
4 周登朋;謝康林;;Lucene搜索引擎[J];計(jì)算機(jī)工程;2007年18期
5 鄭廷;鄭誠(chéng);;基于Lucene的語(yǔ)義檢索系統(tǒng)[J];計(jì)算機(jī)工程;2008年16期
6 黃果;周竹榮;周亭;;基于領(lǐng)域本體的語(yǔ)義相似度計(jì)算研究[J];計(jì)算機(jī)工程與科學(xué);2007年05期
7 鄭世明;任在安;宋自林;邵榮明;戴榮榮;潘明聰;;基于Ontology的語(yǔ)義查詢分析研究[J];南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版);2008年04期
8 李鵬;陶蘭;王弼佐;;一種改進(jìn)的本體語(yǔ)義相似度計(jì)算及其應(yīng)用[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年01期
9 管建和;甘劍峰;;基于Lucene全文檢索引擎的應(yīng)用研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年02期
10 蔣一峰;王華;張玉紅;黃少林;;基于Lucene的語(yǔ)義檢索系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年20期
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 許中衛(wèi);李煒;宋杰;吳建國(guó);;束搜索算法的精度優(yōu)化研究[J];計(jì)算機(jī)工程與應(yīng)用;2006年09期
2 周日貴;謝強(qiáng);姜楠;丁秋林;;多模式高概率量子搜索算法[J];南京航空航天大學(xué)學(xué)報(bào);2007年02期
3 張懷;許林英;;空間有限條件下博弈搜索算法的優(yōu)化[J];電子測(cè)量技術(shù);2007年08期
4 孫吉貴;張居陽(yáng);陳尚偉;;多元約束混合搜索算法研究[J];自動(dòng)化學(xué)報(bào);2007年09期
5 馮遠(yuǎn)靜;俞立;馮祖仁;;蟻群協(xié)同模式搜索算法及其收斂性分析[J];控制理論與應(yīng)用;2007年06期
6 劉躍軍;蘇靜;;一種改進(jìn)三步搜索算法的設(shè)計(jì)與實(shí)現(xiàn)[J];河南科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年04期
7 鐘普查;鮑皖蘇;;多目標(biāo)元素的量子搜索算法[J];計(jì)算機(jī)工程與應(yīng)用;2008年24期
8 張超;劉蕊潔;;大型交通網(wǎng)絡(luò)最優(yōu)路徑的隨機(jī)深度搜索算法[J];鐵路計(jì)算機(jī)應(yīng)用;2009年02期
9 劉勇;馬良;;非線性極大極小問(wèn)題的混沌萬(wàn)有引力搜索算法求解[J];計(jì)算機(jī)應(yīng)用研究;2012年01期
10 金文梁;陳向東;;相位不匹配的量子搜索算法[J];電子學(xué)報(bào);2012年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 羅家祥;唐立新;李小林;劉建榮;鄔成新;;分散搜索算法在板坯匹配優(yōu)化問(wèn)題中的應(yīng)用研究[A];全國(guó)冶金自動(dòng)化信息網(wǎng)2009年會(huì)論文集[C];2009年
2 張玲;姜立志;;能量抵消測(cè)量相位中的相位搜索算法[A];2009年全國(guó)水聲學(xué)學(xué)術(shù)交流暨水聲學(xué)分會(huì)換屆改選會(huì)議論文集[C];2009年
3 李金;蔣國(guó)平;;一種改進(jìn)的復(fù)雜網(wǎng)絡(luò)搜索算法[A];2007中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];2007年
4 李瀟磊;伍瑞卿;朱維樂(lè);;運(yùn)動(dòng)搜索算法的比較與改進(jìn)[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年
5 程振波;鄧志東;;優(yōu)化策略模型下的匹配律算法[A];2009年中國(guó)智能自動(dòng)化會(huì)議論文集(第五分冊(cè))[東南大學(xué)學(xué)報(bào)(增刊)][C];2009年
6 彭明僑;羅先覺;鄒曉松;;基于改進(jìn)概率搜索算法的模擬電路故障診斷[A];第四屆中國(guó)測(cè)試學(xué)術(shù)會(huì)議論文集[C];2006年
7 常新杰;李言俊;;搜索算法的研究進(jìn)展[A];1998年中國(guó)智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];1998年
8 糜玉林;左斌;;基于協(xié)同控制的極值搜索算法與控制器一體化設(shè)計(jì)[A];2007年中國(guó)智能自動(dòng)化會(huì)議論文集[C];2007年
9 鐘普查;鮑皖蘇;;基于相位變換的量子搜索算法研究[A];第十三屆全國(guó)量子光學(xué)學(xué)術(shù)報(bào)告會(huì)論文摘要集[C];2008年
10 羅春華;張繼勇;鄭方;徐明星;;一種基于HTK的詞圖搜索算法[A];第六屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2001年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前8條
1 孫杰;基于絕熱演化的量子搜索算法研究[D];華中科技大學(xué);2013年
2 張映玉;絕熱量子搜索算法研究[D];華中科技大學(xué);2011年
3 閻興,
本文編號(hào):1263725
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1263725.html