基于Lucene的企業(yè)智能搜索引擎實(shí)現(xiàn)的研究.pdf
本文關(guān)鍵詞:基于Lucene的企業(yè)智能搜索引擎實(shí)現(xiàn)研究,由筆耕文化傳播整理發(fā)布。
文檔介紹:
I摘要傳統(tǒng)互聯(lián)網(wǎng)搜索引擎可以供用戶檢索到許多信息,但對(duì)于企業(yè)用戶,它搜索結(jié)果涵蓋范圍太廣且不能達(dá)成對(duì)內(nèi)部系統(tǒng)報(bào)表或數(shù)據(jù)庫(kù)的有效查找。再加上現(xiàn)代企業(yè)信息化的繁榮興盛,使得專用的搜索引擎成為他們提高工作效率的迫切需要,企業(yè)搜索引擎也因此成為當(dāng)前科技中備受關(guān)注的研究之一。所以論文選定“基于Lucene的企業(yè)智能搜索引擎實(shí)現(xiàn)研究”這一課題,結(jié)合浙江中煙建設(shè)搜素引擎系統(tǒng)的目標(biāo),引入并改進(jìn)一系列技術(shù),提出了面向煙草企業(yè)的智能搜索引擎架構(gòu),并設(shè)計(jì)實(shí)現(xiàn)了浙江中煙搜索引擎系統(tǒng)。本文研究的關(guān)鍵點(diǎn)有:(1)根據(jù)浙江中煙智能搜索引擎系統(tǒng)要達(dá)到的目標(biāo)總結(jié)出現(xiàn)代企業(yè)對(duì)搜索引擎的兩種需求:一是通過(guò)主題搜索為用戶提供特定行業(yè)的相關(guān)信息,如行業(yè)動(dòng)態(tài)等;二是根據(jù)用戶輸入的普通查詢關(guān)鍵詞搜索到相關(guān)報(bào)表或?qū)?nèi)部關(guān)系數(shù)據(jù)庫(kù)內(nèi)容。(2)設(shè)計(jì)特定主題的增量型聚焦網(wǎng)絡(luò)爬蟲:在傳統(tǒng)爬蟲架構(gòu)基礎(chǔ)上建立煙草主題爬蟲架構(gòu),改進(jìn)爬行策略提高爬行速率與準(zhǔn)確率,根據(jù)煙草行業(yè)網(wǎng)站特點(diǎn)制定增量模型提高爬蟲的時(shí)新性,并將爬取的內(nèi)容進(jìn)行云存儲(chǔ)、去噪與查重等處理。(3)基于Lucene建立煙草行業(yè)的智能檢索模型:結(jié)合Lucene的向量空間模型算法和改進(jìn)的PageRank算法給出面向煙草行業(yè)相關(guān)度排序算法;根據(jù)...
內(nèi)容來(lái)自轉(zhuǎn)載請(qǐng)標(biāo)明出處.
本文關(guān)鍵詞:基于Lucene的企業(yè)智能搜索引擎實(shí)現(xiàn)研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):60879
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/60879.html