天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于Lucene和Heritrix搜索引擎的設(shè)計(jì)

發(fā)布時(shí)間:2017-05-19 09:12

  本文關(guān)鍵詞:基于Lucene和Heritrix搜索引擎的設(shè)計(jì),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)迅猛的發(fā)展,網(wǎng)絡(luò)信息量不斷增多,面對(duì)海量的網(wǎng)絡(luò)信息,人們發(fā)現(xiàn),通用搜索引擎的準(zhǔn)確率低、實(shí)時(shí)性較差。搜索引擎是把因特網(wǎng)技術(shù)和計(jì)算機(jī)應(yīng)用技術(shù)相結(jié)合起來(lái)所形成的一種信息檢索技術(shù)。垂直搜索引擎是指用戶可以對(duì)某一特定領(lǐng)域進(jìn)行檢索,用戶利用它可以在海量的數(shù)據(jù)中更精準(zhǔn)、快速、便捷、專業(yè)的進(jìn)行檢索。垂直搜索引擎是用于搜索某一特定主題的搜索工具,也被稱為專業(yè)搜索引擎。它主要克服了通用搜索引擎的信息海量、查詢準(zhǔn)確度不夠、查詢內(nèi)容不深入等缺點(diǎn),它主要特點(diǎn)是將網(wǎng)頁(yè)的非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化數(shù)據(jù),然后進(jìn)行索引。Lucene運(yùn)用大量的面向?qū)ο笤O(shè)計(jì)思想成為了一個(gè)優(yōu)秀全文搜索引擎。Heritrix是具有強(qiáng)大抓取數(shù)據(jù)能力的爬蟲軟件,實(shí)現(xiàn)在特定的Web網(wǎng)頁(yè)中進(jìn)行數(shù)據(jù)抓取,然后用數(shù)據(jù)庫(kù)把抓取內(nèi)容組織起來(lái),最終通過(guò)服務(wù)器顯示出與客戶端所請(qǐng)求的匹配的相關(guān)信息。本文結(jié)合國(guó)內(nèi)外搜索引擎發(fā)展的現(xiàn)有狀況,論述了基于Lucene和Heritrix垂直搜索引擎的原理,并對(duì)垂直搜索引擎進(jìn)行設(shè)計(jì)。本文首先論述了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu),然后詳細(xì)介紹了開放源代碼的全文檢索引擎工具包Lucene、java開源網(wǎng)絡(luò)爬蟲Heritrix、以及Web服務(wù)器。最后,設(shè)計(jì)并且開發(fā)了一個(gè)垂直搜索引擎——圖書信息搜索引擎。該搜索引擎利用了Lucene和Heritrix進(jìn)行了詳細(xì)的設(shè)計(jì),實(shí)現(xiàn)了利用網(wǎng)絡(luò)爬蟲抓取網(wǎng)站的圖書信息并進(jìn)行結(jié)構(gòu)化提取和存儲(chǔ),然后建立索引數(shù)據(jù)庫(kù),最終用戶可以通過(guò)搜索的方式更加準(zhǔn)確的搜索出用戶所需要的圖書信息。
【關(guān)鍵詞】:垂直搜索引擎 Lucene Heritrix 網(wǎng)絡(luò)爬蟲
【學(xué)位授予單位】:長(zhǎng)春工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【目錄】:
  • 摘要3-4
  • Abstract4-8
  • 第一章 引言8-12
  • 1.1 課題研究背景和意義8
  • 1.2 國(guó)內(nèi)外的現(xiàn)狀8-10
  • 1.3 本文的主要工作10
  • 1.4 本文組織結(jié)構(gòu)和章節(jié)安排10
  • 1.4.1 本文組織結(jié)構(gòu)10
  • 1.4.2 本文章節(jié)安排10
  • 1.5 設(shè)計(jì)目標(biāo)10-12
  • 第二章 垂直搜索引擎相關(guān)技術(shù)12-22
  • 2.1 垂直搜索引擎的介紹及探究12-14
  • 2.1.1 垂直搜索的概述12
  • 2.1.2 垂直搜索引擎和通用搜索引擎的異同點(diǎn)12-13
  • 2.1.3 垂直搜索引擎的構(gòu)成13-14
  • 2.2 網(wǎng)絡(luò)爬蟲技術(shù)14-19
  • 2.2.1 Heritrix網(wǎng)絡(luò)爬蟲的概述14-15
  • 2.2.2 網(wǎng)絡(luò)爬蟲的工作原理15
  • 2.2.3 網(wǎng)絡(luò)爬蟲的抓取工作策略15-18
  • 2.2.4 Heritrix網(wǎng)絡(luò)爬蟲工具的應(yīng)用優(yōu)勢(shì)18
  • 2.2.5 網(wǎng)絡(luò)爬蟲的注意事項(xiàng)18-19
  • 2.3 信息提取技術(shù)19
  • 2.3.1 信息提取技術(shù)概述19
  • 2.3.2 信息提取技術(shù)19
  • 2.4 中文分詞技術(shù)19-21
  • 2.4.1 中文分詞概述20
  • 2.4.2 中文分詞相關(guān)技術(shù)20-21
  • 2.5 全文索引技術(shù)21-22
  • 2.5.1 全文索引技術(shù)概述21
  • 2.5.2 全文索引技術(shù)方法21-22
  • 第三章 全文搜索引擎LUCENE22-30
  • 3.1 全文搜索引擎LUCENE簡(jiǎn)介22
  • 3.2 LUCENE框架組成和優(yōu)勢(shì)22-24
  • 3.3 LUCENE的索引24-28
  • 3.3.1 Lucene的邏輯結(jié)構(gòu)24-25
  • 3.3.2 Lucene的物理結(jié)構(gòu)25
  • 3.3.3 Lucene索引的創(chuàng)立25-27
  • 3.3.4 索引的合并與優(yōu)化27-28
  • 3.4 LUCENE的搜索28-29
  • 3.4.1 Lucene搜索的創(chuàng)建28
  • 3.4.2 Lucene對(duì)搜索結(jié)果的評(píng)分和排序28-29
  • 3.5 小結(jié)29-30
  • 第四章 圖書垂直搜索引擎系統(tǒng)分析30-36
  • 4.1 需求分析30-34
  • 4.1.1 需求背景30
  • 4.1.2 業(yè)務(wù)流程30-31
  • 4.1.3 數(shù)據(jù)流動(dòng)過(guò)程31
  • 4.1.4 功能分析31-32
  • 4.1.5 數(shù)據(jù)分析32-33
  • 4.1.6 狀態(tài)轉(zhuǎn)換圖33-34
  • 4.2 系統(tǒng)環(huán)境分析34
  • 4.3 系統(tǒng)性能分析34-36
  • 第五章 圖書信息垂直搜索引擎的設(shè)計(jì)36-42
  • 5.1 垂直搜索引擎系統(tǒng)的設(shè)計(jì)36-37
  • 5.1.1 系統(tǒng)功能概述36
  • 5.1.2 系統(tǒng)功能設(shè)計(jì)36-37
  • 5.2 設(shè)計(jì)爬蟲模塊37-39
  • 5.2.1 爬蟲的設(shè)計(jì)思想37
  • 5.2.2 確定爬蟲清單37-39
  • 5.3 建立信息抽取模塊39-40
  • 5.3.1 信息抽取模塊概述39
  • 5.3.2 信息抽取模塊的設(shè)計(jì)思想39-40
  • 5.4 建立索引和設(shè)計(jì)數(shù)據(jù)庫(kù)40-42
  • 5.4.1 建立索引40
  • 5.4.2 設(shè)計(jì)數(shù)據(jù)庫(kù)40-42
  • 第六章 圖書信息垂直搜索引擎的實(shí)現(xiàn)42-48
  • 6.1 抓取圖書信息網(wǎng)頁(yè)42-43
  • 6.2 抽取網(wǎng)頁(yè)信息43
  • 6.3 索引和數(shù)據(jù)庫(kù)的建立43-45
  • 6.3.1 建立圖書信息詞庫(kù)43
  • 6.3.2 數(shù)據(jù)添加43-44
  • 6.3.3 構(gòu)建索引并向索引添加圖書信息44
  • 6.3.4 圖書信息的綜合處理44-45
  • 6.4 建立索引模塊45-48
  • 6.4.1 管理配置文件和相關(guān)類開發(fā)設(shè)計(jì)45-46
  • 6.4.2 前臺(tái)的頁(yè)面設(shè)計(jì)46-48
  • 結(jié)論48-49
  • 致謝49-50
  • 參考文獻(xiàn)50-52
  • 攻讀碩士學(xué)位期間研究成果52

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 趙剛;郭東偉;李丹;;基于序列比對(duì)的動(dòng)態(tài)Web信息抽取算法[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2010年03期

2 白萬(wàn)民;蘇希樂(lè);;Heritrix在垂直搜索引擎中的應(yīng)用[J];計(jì)算機(jī)時(shí)代;2011年09期

3 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期

4 白坤;耿國(guó)華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計(jì)算機(jī)應(yīng)用與軟件;2009年01期

5 黃瑋夏;;分類搜索引擎的體系構(gòu)建及其使用方法探析[J];情報(bào)科學(xué);2009年04期

6 劉杰;;垂直搜索引擎的應(yīng)用研究[J];企業(yè)技術(shù)開發(fā);2011年13期

7 朱敏;羅省賢;;基于Heritrix的面向特定主題的聚焦爬蟲研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2012年02期

8 洪光宗,王皓;搜索引擎Robot技術(shù)實(shí)現(xiàn)的原理分析[J];現(xiàn)代圖書情報(bào)技術(shù);2002年01期

9 祝奕;;垂直搜索引擎的構(gòu)建與應(yīng)用[J];信息與電腦(理論版);2010年01期

10 勞志佳;;基于Lucene3.5搜索技術(shù)的研究與實(shí)現(xiàn)[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2012年06期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前7條

1 杜佳倫;面向用戶體驗(yàn)需求的垂直搜索引擎的研究[D];吉林大學(xué);2011年

2 楊成寶;我國(guó)搜索引擎市場(chǎng)發(fā)展趨勢(shì)與策略研究[D];山東大學(xué);2011年

3 仇亞?wèn)|;面向農(nóng)業(yè)領(lǐng)域的垂直搜索技術(shù)的研究[D];南京農(nóng)業(yè)大學(xué);2010年

4 李春燕;企業(yè)信息垂直搜索引擎的研究與實(shí)現(xiàn)[D];中國(guó)地質(zhì)大學(xué)(北京);2010年

5 陳向東;寵物用品垂直搜索引擎研究與設(shè)計(jì)[D];西北農(nóng)林科技大學(xué);2010年

6 魯小川;基于LUCENE的網(wǎng)絡(luò)搜索引擎系統(tǒng)研究及實(shí)現(xiàn)[D];武漢理工大學(xué);2010年

7 金嬋鳴;垂直搜索引擎系統(tǒng)的研究[D];武漢理工大學(xué);2010年


  本文關(guān)鍵詞:基于Lucene和Heritrix搜索引擎的設(shè)計(jì),由筆耕文化傳播整理發(fā)布。



本文編號(hào):378273

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/378273.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶92cb6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com