基于Lucene和Heritrix搜索引擎的設(shè)計
本文關(guān)鍵詞:基于Lucene和Heritrix搜索引擎的設(shè)計,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)迅猛的發(fā)展,網(wǎng)絡(luò)信息量不斷增多,面對海量的網(wǎng)絡(luò)信息,人們發(fā)現(xiàn),通用搜索引擎的準確率低、實時性較差。搜索引擎是把因特網(wǎng)技術(shù)和計算機應(yīng)用技術(shù)相結(jié)合起來所形成的一種信息檢索技術(shù)。垂直搜索引擎是指用戶可以對某一特定領(lǐng)域進行檢索,用戶利用它可以在海量的數(shù)據(jù)中更精準、快速、便捷、專業(yè)的進行檢索。垂直搜索引擎是用于搜索某一特定主題的搜索工具,也被稱為專業(yè)搜索引擎。它主要克服了通用搜索引擎的信息海量、查詢準確度不夠、查詢內(nèi)容不深入等缺點,它主要特點是將網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化數(shù)據(jù),然后進行索引。Lucene運用大量的面向?qū)ο笤O(shè)計思想成為了一個優(yōu)秀全文搜索引擎。Heritrix是具有強大抓取數(shù)據(jù)能力的爬蟲軟件,實現(xiàn)在特定的Web網(wǎng)頁中進行數(shù)據(jù)抓取,然后用數(shù)據(jù)庫把抓取內(nèi)容組織起來,最終通過服務(wù)器顯示出與客戶端所請求的匹配的相關(guān)信息。本文結(jié)合國內(nèi)外搜索引擎發(fā)展的現(xiàn)有狀況,論述了基于Lucene和Heritrix垂直搜索引擎的原理,并對垂直搜索引擎進行設(shè)計。本文首先論述了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu),然后詳細介紹了開放源代碼的全文檢索引擎工具包Lucene、java開源網(wǎng)絡(luò)爬蟲Heritrix、以及Web服務(wù)器。最后,設(shè)計并且開發(fā)了一個垂直搜索引擎——圖書信息搜索引擎。該搜索引擎利用了Lucene和Heritrix進行了詳細的設(shè)計,實現(xiàn)了利用網(wǎng)絡(luò)爬蟲抓取網(wǎng)站的圖書信息并進行結(jié)構(gòu)化提取和存儲,然后建立索引數(shù)據(jù)庫,最終用戶可以通過搜索的方式更加準確的搜索出用戶所需要的圖書信息。
【關(guān)鍵詞】:垂直搜索引擎 Lucene Heritrix 網(wǎng)絡(luò)爬蟲
【學(xué)位授予單位】:長春工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3
【目錄】:
- 摘要3-4
- Abstract4-8
- 第一章 引言8-12
- 1.1 課題研究背景和意義8
- 1.2 國內(nèi)外的現(xiàn)狀8-10
- 1.3 本文的主要工作10
- 1.4 本文組織結(jié)構(gòu)和章節(jié)安排10
- 1.4.1 本文組織結(jié)構(gòu)10
- 1.4.2 本文章節(jié)安排10
- 1.5 設(shè)計目標10-12
- 第二章 垂直搜索引擎相關(guān)技術(shù)12-22
- 2.1 垂直搜索引擎的介紹及探究12-14
- 2.1.1 垂直搜索的概述12
- 2.1.2 垂直搜索引擎和通用搜索引擎的異同點12-13
- 2.1.3 垂直搜索引擎的構(gòu)成13-14
- 2.2 網(wǎng)絡(luò)爬蟲技術(shù)14-19
- 2.2.1 Heritrix網(wǎng)絡(luò)爬蟲的概述14-15
- 2.2.2 網(wǎng)絡(luò)爬蟲的工作原理15
- 2.2.3 網(wǎng)絡(luò)爬蟲的抓取工作策略15-18
- 2.2.4 Heritrix網(wǎng)絡(luò)爬蟲工具的應(yīng)用優(yōu)勢18
- 2.2.5 網(wǎng)絡(luò)爬蟲的注意事項18-19
- 2.3 信息提取技術(shù)19
- 2.3.1 信息提取技術(shù)概述19
- 2.3.2 信息提取技術(shù)19
- 2.4 中文分詞技術(shù)19-21
- 2.4.1 中文分詞概述20
- 2.4.2 中文分詞相關(guān)技術(shù)20-21
- 2.5 全文索引技術(shù)21-22
- 2.5.1 全文索引技術(shù)概述21
- 2.5.2 全文索引技術(shù)方法21-22
- 第三章 全文搜索引擎LUCENE22-30
- 3.1 全文搜索引擎LUCENE簡介22
- 3.2 LUCENE框架組成和優(yōu)勢22-24
- 3.3 LUCENE的索引24-28
- 3.3.1 Lucene的邏輯結(jié)構(gòu)24-25
- 3.3.2 Lucene的物理結(jié)構(gòu)25
- 3.3.3 Lucene索引的創(chuàng)立25-27
- 3.3.4 索引的合并與優(yōu)化27-28
- 3.4 LUCENE的搜索28-29
- 3.4.1 Lucene搜索的創(chuàng)建28
- 3.4.2 Lucene對搜索結(jié)果的評分和排序28-29
- 3.5 小結(jié)29-30
- 第四章 圖書垂直搜索引擎系統(tǒng)分析30-36
- 4.1 需求分析30-34
- 4.1.1 需求背景30
- 4.1.2 業(yè)務(wù)流程30-31
- 4.1.3 數(shù)據(jù)流動過程31
- 4.1.4 功能分析31-32
- 4.1.5 數(shù)據(jù)分析32-33
- 4.1.6 狀態(tài)轉(zhuǎn)換圖33-34
- 4.2 系統(tǒng)環(huán)境分析34
- 4.3 系統(tǒng)性能分析34-36
- 第五章 圖書信息垂直搜索引擎的設(shè)計36-42
- 5.1 垂直搜索引擎系統(tǒng)的設(shè)計36-37
- 5.1.1 系統(tǒng)功能概述36
- 5.1.2 系統(tǒng)功能設(shè)計36-37
- 5.2 設(shè)計爬蟲模塊37-39
- 5.2.1 爬蟲的設(shè)計思想37
- 5.2.2 確定爬蟲清單37-39
- 5.3 建立信息抽取模塊39-40
- 5.3.1 信息抽取模塊概述39
- 5.3.2 信息抽取模塊的設(shè)計思想39-40
- 5.4 建立索引和設(shè)計數(shù)據(jù)庫40-42
- 5.4.1 建立索引40
- 5.4.2 設(shè)計數(shù)據(jù)庫40-42
- 第六章 圖書信息垂直搜索引擎的實現(xiàn)42-48
- 6.1 抓取圖書信息網(wǎng)頁42-43
- 6.2 抽取網(wǎng)頁信息43
- 6.3 索引和數(shù)據(jù)庫的建立43-45
- 6.3.1 建立圖書信息詞庫43
- 6.3.2 數(shù)據(jù)添加43-44
- 6.3.3 構(gòu)建索引并向索引添加圖書信息44
- 6.3.4 圖書信息的綜合處理44-45
- 6.4 建立索引模塊45-48
- 6.4.1 管理配置文件和相關(guān)類開發(fā)設(shè)計45-46
- 6.4.2 前臺的頁面設(shè)計46-48
- 結(jié)論48-49
- 致謝49-50
- 參考文獻50-52
- 攻讀碩士學(xué)位期間研究成果52
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 趙剛;郭東偉;李丹;;基于序列比對的動態(tài)Web信息抽取算法[J];吉林大學(xué)學(xué)報(理學(xué)版);2010年03期
2 白萬民;蘇希樂;;Heritrix在垂直搜索引擎中的應(yīng)用[J];計算機時代;2011年09期
3 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機應(yīng)用;2005年09期
4 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計算機應(yīng)用與軟件;2009年01期
5 黃瑋夏;;分類搜索引擎的體系構(gòu)建及其使用方法探析[J];情報科學(xué);2009年04期
6 劉杰;;垂直搜索引擎的應(yīng)用研究[J];企業(yè)技術(shù)開發(fā);2011年13期
7 朱敏;羅省賢;;基于Heritrix的面向特定主題的聚焦爬蟲研究[J];計算機技術(shù)與發(fā)展;2012年02期
8 洪光宗,王皓;搜索引擎Robot技術(shù)實現(xiàn)的原理分析[J];現(xiàn)代圖書情報技術(shù);2002年01期
9 祝奕;;垂直搜索引擎的構(gòu)建與應(yīng)用[J];信息與電腦(理論版);2010年01期
10 勞志佳;;基于Lucene3.5搜索技術(shù)的研究與實現(xiàn)[J];現(xiàn)代計算機(專業(yè)版);2012年06期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前7條
1 杜佳倫;面向用戶體驗需求的垂直搜索引擎的研究[D];吉林大學(xué);2011年
2 楊成寶;我國搜索引擎市場發(fā)展趨勢與策略研究[D];山東大學(xué);2011年
3 仇亞東;面向農(nóng)業(yè)領(lǐng)域的垂直搜索技術(shù)的研究[D];南京農(nóng)業(yè)大學(xué);2010年
4 李春燕;企業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2010年
5 陳向東;寵物用品垂直搜索引擎研究與設(shè)計[D];西北農(nóng)林科技大學(xué);2010年
6 魯小川;基于LUCENE的網(wǎng)絡(luò)搜索引擎系統(tǒng)研究及實現(xiàn)[D];武漢理工大學(xué);2010年
7 金嬋鳴;垂直搜索引擎系統(tǒng)的研究[D];武漢理工大學(xué);2010年
本文關(guān)鍵詞:基于Lucene和Heritrix搜索引擎的設(shè)計,由筆耕文化傳播整理發(fā)布。
,本文編號:378273
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/378273.html