基于Lucene的企業(yè)智能搜索引擎實現(xiàn)的研究.pdf
本文關(guān)鍵詞:基于Lucene的企業(yè)智能搜索引擎實現(xiàn)研究,由筆耕文化傳播整理發(fā)布。
文檔介紹:
I摘要傳統(tǒng)互聯(lián)網(wǎng)搜索引擎可以供用戶檢索到許多信息,但對于企業(yè)用戶,它搜索結(jié)果涵蓋范圍太廣且不能達(dá)成對內(nèi)部系統(tǒng)報表或數(shù)據(jù)庫的有效查找。再加上現(xiàn)代企業(yè)信息化的繁榮興盛,使得專用的搜索引擎成為他們提高工作效率的迫切需要,企業(yè)搜索引擎也因此成為當(dāng)前科技中備受關(guān)注的研究之一。所以論文選定“基于Lucene的企業(yè)智能搜索引擎實現(xiàn)研究”這一課題,結(jié)合浙江中煙建設(shè)搜素引擎系統(tǒng)的目標(biāo),引入并改進(jìn)一系列技術(shù),提出了面向煙草企業(yè)的智能搜索引擎架構(gòu),并設(shè)計實現(xiàn)了浙江中煙搜索引擎系統(tǒng)。本文研究的關(guān)鍵點有:(1)根據(jù)浙江中煙智能搜索引擎系統(tǒng)要達(dá)到的目標(biāo)總結(jié)出現(xiàn)代企業(yè)對搜索引擎的兩種需求:一是通過主題搜索為用戶提供特定行業(yè)的相關(guān)信息,如行業(yè)動態(tài)等;二是根據(jù)用戶輸入的普通查詢關(guān)鍵詞搜索到相關(guān)報表或?qū)?nèi)部關(guān)系數(shù)據(jù)庫內(nèi)容。(2)設(shè)計特定主題的增量型聚焦網(wǎng)絡(luò)爬蟲:在傳統(tǒng)爬蟲架構(gòu)基礎(chǔ)上建立煙草主題爬蟲架構(gòu),改進(jìn)爬行策略提高爬行速率與準(zhǔn)確率,根據(jù)煙草行業(yè)網(wǎng)站特點制定增量模型提高爬蟲的時新性,并將爬取的內(nèi)容進(jìn)行云存儲、去噪與查重等處理。(3)基于Lucene建立煙草行業(yè)的智能檢索模型:結(jié)合Lucene的向量空間模型算法和改進(jìn)的PageRank算法給出面向煙草行業(yè)相關(guān)度排序算法;根據(jù)...
內(nèi)容來自轉(zhuǎn)載請標(biāo)明出處.
本文關(guān)鍵詞:基于Lucene的企業(yè)智能搜索引擎實現(xiàn)研究,,由筆耕文化傳播整理發(fā)布。
本文編號:60879
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/60879.html