基于Lucene網(wǎng)頁(yè)排名改進(jìn)的分布式搜索系統(tǒng)

發(fā)布時(shí)間：2017-04-10 21:51

本文關(guān)鍵詞：基于Lucene網(wǎng)頁(yè)排名改進(jìn)的分布式搜索系統(tǒng)，由筆耕文化傳播整理發(fā)布。

【摘要】：近年來(lái),互聯(lián)網(wǎng)信息量日益龐大,如何從海量數(shù)據(jù)中高效準(zhǔn)確定位到目標(biāo)信息成為搜索引擎的一大挑戰(zhàn)。構(gòu)建大規(guī)模集群實(shí)現(xiàn)對(duì)目標(biāo)信息的分布式并行搜索是應(yīng)對(duì)上述問(wèn)題的重要途徑,這為分布式搜索領(lǐng)域的高速發(fā)展提供了土壤,許多與此相關(guān)的技術(shù)很快出現(xiàn),如Hadoop、Spark等,與此同時(shí),對(duì)信息進(jìn)行準(zhǔn)確篩選與過(guò)濾顯得尤為重要,這便要求完善信息評(píng)判機(jī)制,以實(shí)現(xiàn)對(duì)信息的有效甄別。在上述前提下,本文深入分析了搜索引擎的相關(guān)原理和實(shí)現(xiàn)機(jī)制,詳細(xì)介紹了Hadoop相關(guān)技術(shù)和開(kāi)源工具Lucene相關(guān)技術(shù),并在此基礎(chǔ)上展開(kāi)了構(gòu)建高性能搜索引擎的研究工作。首先,為實(shí)現(xiàn)信息采集過(guò)程中URL高效過(guò)濾與去重,本文采用嵌入式數(shù)據(jù)庫(kù)Berkeley DB記錄已處理鏈接隊(duì)列,Berkeley DB與調(diào)用程序共享內(nèi)存空間保證了訪問(wèn)的快捷性。其次,本文采用追加方式進(jìn)行索引更新,針對(duì)新加入數(shù)據(jù)不必重建整個(gè)索引,而是為新數(shù)據(jù)單獨(dú)生成索引文件,并且可以獨(dú)立訪問(wèn)。當(dāng)追加索引文件個(gè)數(shù)達(dá)到閾值時(shí)引發(fā)合并操作,本文通過(guò)實(shí)驗(yàn)選取了最優(yōu)閾值大大提高了構(gòu)建索引的效率。然后,分析了已有的幾種網(wǎng)頁(yè)評(píng)分算法的優(yōu)缺點(diǎn),基于Lucene固有的網(wǎng)頁(yè)評(píng)分算法做出了改進(jìn),提出了基于詞頻位置加權(quán)和文檔新鮮度的網(wǎng)頁(yè)評(píng)分算法,本算法不單是關(guān)注查詢關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的次數(shù),還將查詢?cè)~在網(wǎng)頁(yè)中出現(xiàn)的位置以及網(wǎng)頁(yè)的新鮮程度作為網(wǎng)頁(yè)得分的重要影響因子,這種方式能夠更加全面地評(píng)判網(wǎng)頁(yè)的優(yōu)劣程度。最后,本文先基于開(kāi)源Java工具包Lucene構(gòu)建出單節(jié)點(diǎn)搜索子系統(tǒng),子系統(tǒng)具備完整搜索引擎的各個(gè)組件,能夠獨(dú)立提供搜索服務(wù),在此基礎(chǔ)上,利用Hadoop技術(shù)建立了由三個(gè)單節(jié)點(diǎn)子系統(tǒng)構(gòu)成的小型集群服務(wù)系統(tǒng),實(shí)現(xiàn)了數(shù)據(jù)的分布式冗余存儲(chǔ)和索引構(gòu)建的高效并行,并將改進(jìn)后的網(wǎng)頁(yè)評(píng)分算法應(yīng)用于分布式系統(tǒng)上,對(duì)改進(jìn)前后搜索結(jié)果的正確率做了比較,實(shí)際實(shí)驗(yàn)證明新算法優(yōu)于Lucene固有算法。
【關(guān)鍵詞】：索引優(yōu)化 Lucene Hadoop 網(wǎng)頁(yè)評(píng)分機(jī)制
【學(xué)位授予單位】：西安電子科技大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2014
【分類號(hào)】：TP391.3
【目錄】：

摘要5-6
ABSTRACT6-14
第一章緒論14-22
1.1 課題背景14-17
1.1.1 搜索技術(shù)的誕生與成長(zhǎng)14-16
1.1.2 搜索技術(shù)現(xiàn)狀16-17
1.2 課題研究意義17-19
1.3 國(guó)內(nèi)外研究現(xiàn)狀19-20
1.4 本文研究?jī)?nèi)容及章節(jié)安排20-22
第二章分布式搜索相關(guān)介紹22-32
2.1 Heritrix網(wǎng)絡(luò)爬蟲(chóng)22
2.2 Lucene技術(shù)22-25
2.3 中文分詞技術(shù)25-28
2.4 Hadoop平臺(tái)28-30
2.4.1 HDFS存儲(chǔ)28-29
2.4.2 Map-Reduce模型29-30
2.5 分布式搜素引擎30-31
2.6 本章小結(jié)31-32
第三章系統(tǒng)優(yōu)化策略與評(píng)分機(jī)制改進(jìn)32-38
3.1 系統(tǒng)優(yōu)化策略32-35
3.1.1 URL高效處理與過(guò)濾32-33
3.1.2 索引更新優(yōu)化33-35
3.2 網(wǎng)頁(yè)評(píng)分機(jī)制改進(jìn)35-37
3.2.1 已有的網(wǎng)頁(yè)評(píng)分算法35-36
3.2.2 Lucene固有的網(wǎng)頁(yè)評(píng)分算法36
3.2.3 基于Lucene固有算法的改進(jìn)36-37
3.3 本章小結(jié)37-38
第四章分布式搜索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)38-60
4.1 系統(tǒng)總體介紹38-39
4.2 單節(jié)點(diǎn)子系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)39-51
4.2.1 子系統(tǒng)概述39
4.2.2 信息采集模塊介紹39-44
4.2.3 信息索引模塊介紹44-48
4.2.4 信息檢索模塊介紹48-49
4.2.5 結(jié)果展示模塊介紹49-51
4.3 多節(jié)點(diǎn)集群系統(tǒng)構(gòu)建51-57
4.3.1 Hadoop平臺(tái)的搭建51-54
4.3.2 Hadoop平臺(tái)下分布式索引與搜索的構(gòu)建54-57
4.4 系統(tǒng)的準(zhǔn)確率分析57-58
4.5 本章小結(jié)58-60
第五章總結(jié)與展望60-62
5.1 研究結(jié)論60
5.2 展望60-62
參考文獻(xiàn)62-64
致謝64-66
作者簡(jiǎn)介66-67

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 馬福晶;;網(wǎng)絡(luò)環(huán)境下的信息檢索[J];電腦與電信;2007年12期

2 郎小偉;王申康;;基于Lucene的全文檢索系統(tǒng)研究與開(kāi)發(fā)[J];計(jì)算機(jī)工程;2006年04期

本文關(guān)鍵詞：基于Lucene網(wǎng)頁(yè)排名改進(jìn)的分布式搜索系統(tǒng)，，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：297615

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/297615.html

上一篇：基于云架構(gòu)的存儲(chǔ)資源管控技術(shù)研究
下一篇：基于Lucene的手機(jī)全文檢索功能的設(shè)計(jì)與實(shí)現(xiàn)

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Lucene網(wǎng)頁(yè)排名改進(jìn)的分布式搜索系統(tǒng)