基于Lucene網(wǎng)頁(yè)排名改進(jìn)的分布式搜索系統(tǒng)
發(fā)布時(shí)間:2017-04-10 21:51
本文關(guān)鍵詞:基于Lucene網(wǎng)頁(yè)排名改進(jìn)的分布式搜索系統(tǒng),由筆耕文化傳播整理發(fā)布。
【摘要】:近年來(lái),互聯(lián)網(wǎng)信息量日益龐大,如何從海量數(shù)據(jù)中高效準(zhǔn)確定位到目標(biāo)信息成為搜索引擎的一大挑戰(zhàn)。構(gòu)建大規(guī)模集群實(shí)現(xiàn)對(duì)目標(biāo)信息的分布式并行搜索是應(yīng)對(duì)上述問(wèn)題的重要途徑,這為分布式搜索領(lǐng)域的高速發(fā)展提供了土壤,許多與此相關(guān)的技術(shù)很快出現(xiàn),如Hadoop、Spark等,與此同時(shí),對(duì)信息進(jìn)行準(zhǔn)確篩選與過(guò)濾顯得尤為重要,這便要求完善信息評(píng)判機(jī)制,以實(shí)現(xiàn)對(duì)信息的有效甄別。在上述前提下,本文深入分析了搜索引擎的相關(guān)原理和實(shí)現(xiàn)機(jī)制,詳細(xì)介紹了Hadoop相關(guān)技術(shù)和開(kāi)源工具Lucene相關(guān)技術(shù),并在此基礎(chǔ)上展開(kāi)了構(gòu)建高性能搜索引擎的研究工作。首先,為實(shí)現(xiàn)信息采集過(guò)程中URL高效過(guò)濾與去重,本文采用嵌入式數(shù)據(jù)庫(kù)Berkeley DB記錄已處理鏈接隊(duì)列,Berkeley DB與調(diào)用程序共享內(nèi)存空間保證了訪問(wèn)的快捷性。其次,本文采用追加方式進(jìn)行索引更新,針對(duì)新加入數(shù)據(jù)不必重建整個(gè)索引,而是為新數(shù)據(jù)單獨(dú)生成索引文件,并且可以獨(dú)立訪問(wèn)。當(dāng)追加索引文件個(gè)數(shù)達(dá)到閾值時(shí)引發(fā)合并操作,本文通過(guò)實(shí)驗(yàn)選取了最優(yōu)閾值大大提高了構(gòu)建索引的效率。然后,分析了已有的幾種網(wǎng)頁(yè)評(píng)分算法的優(yōu)缺點(diǎn),基于Lucene固有的網(wǎng)頁(yè)評(píng)分算法做出了改進(jìn),提出了基于詞頻位置加權(quán)和文檔新鮮度的網(wǎng)頁(yè)評(píng)分算法,本算法不單是關(guān)注查詢關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的次數(shù),還將查詢?cè)~在網(wǎng)頁(yè)中出現(xiàn)的位置以及網(wǎng)頁(yè)的新鮮程度作為網(wǎng)頁(yè)得分的重要影響因子,這種方式能夠更加全面地評(píng)判網(wǎng)頁(yè)的優(yōu)劣程度。最后,本文先基于開(kāi)源Java工具包Lucene構(gòu)建出單節(jié)點(diǎn)搜索子系統(tǒng),子系統(tǒng)具備完整搜索引擎的各個(gè)組件,能夠獨(dú)立提供搜索服務(wù),在此基礎(chǔ)上,利用Hadoop技術(shù)建立了由三個(gè)單節(jié)點(diǎn)子系統(tǒng)構(gòu)成的小型集群服務(wù)系統(tǒng),實(shí)現(xiàn)了數(shù)據(jù)的分布式冗余存儲(chǔ)和索引構(gòu)建的高效并行,并將改進(jìn)后的網(wǎng)頁(yè)評(píng)分算法應(yīng)用于分布式系統(tǒng)上,對(duì)改進(jìn)前后搜索結(jié)果的正確率做了比較,實(shí)際實(shí)驗(yàn)證明新算法優(yōu)于Lucene固有算法。
【關(guān)鍵詞】:索引優(yōu)化 Lucene Hadoop 網(wǎng)頁(yè)評(píng)分機(jī)制
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【目錄】:
- 摘要5-6
- ABSTRACT6-14
- 第一章 緒論14-22
- 1.1 課題背景14-17
- 1.1.1 搜索技術(shù)的誕生與成長(zhǎng)14-16
- 1.1.2 搜索技術(shù)現(xiàn)狀16-17
- 1.2 課題研究意義17-19
- 1.3 國(guó)內(nèi)外研究現(xiàn)狀19-20
- 1.4 本文研究?jī)?nèi)容及章節(jié)安排20-22
- 第二章 分布式搜索相關(guān)介紹22-32
- 2.1 Heritrix網(wǎng)絡(luò)爬蟲(chóng)22
- 2.2 Lucene技術(shù)22-25
- 2.3 中文分詞技術(shù)25-28
- 2.4 Hadoop平臺(tái)28-30
- 2.4.1 HDFS存儲(chǔ)28-29
- 2.4.2 Map-Reduce模型29-30
- 2.5 分布式搜素引擎30-31
- 2.6 本章小結(jié)31-32
- 第三章 系統(tǒng)優(yōu)化策略與評(píng)分機(jī)制改進(jìn)32-38
- 3.1 系統(tǒng)優(yōu)化策略32-35
- 3.1.1 URL高效處理與過(guò)濾32-33
- 3.1.2 索引更新優(yōu)化33-35
- 3.2 網(wǎng)頁(yè)評(píng)分機(jī)制改進(jìn)35-37
- 3.2.1 已有的網(wǎng)頁(yè)評(píng)分算法35-36
- 3.2.2 Lucene固有的網(wǎng)頁(yè)評(píng)分算法36
- 3.2.3 基于Lucene固有算法的改進(jìn)36-37
- 3.3 本章小結(jié)37-38
- 第四章 分布式搜索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)38-60
- 4.1 系統(tǒng)總體介紹38-39
- 4.2 單節(jié)點(diǎn)子系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)39-51
- 4.2.1 子系統(tǒng)概述39
- 4.2.2 信息采集模塊介紹39-44
- 4.2.3 信息索引模塊介紹44-48
- 4.2.4 信息檢索模塊介紹48-49
- 4.2.5 結(jié)果展示模塊介紹49-51
- 4.3 多節(jié)點(diǎn)集群系統(tǒng)構(gòu)建51-57
- 4.3.1 Hadoop平臺(tái)的搭建51-54
- 4.3.2 Hadoop平臺(tái)下分布式索引與搜索的構(gòu)建54-57
- 4.4 系統(tǒng)的準(zhǔn)確率分析57-58
- 4.5 本章小結(jié)58-60
- 第五章 總結(jié)與展望60-62
- 5.1 研究結(jié)論60
- 5.2 展望60-62
- 參考文獻(xiàn)62-64
- 致謝64-66
- 作者簡(jiǎn)介66-67
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 馬福晶;;網(wǎng)絡(luò)環(huán)境下的信息檢索[J];電腦與電信;2007年12期
2 郎小偉;王申康;;基于Lucene的全文檢索系統(tǒng)研究與開(kāi)發(fā)[J];計(jì)算機(jī)工程;2006年04期
本文關(guān)鍵詞:基于Lucene網(wǎng)頁(yè)排名改進(jìn)的分布式搜索系統(tǒng),,由筆耕文化傳播整理發(fā)布。
本文編號(hào):297615
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/297615.html
最近更新
教材專著