天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

檢索系統(tǒng)中基于Heritrix信息抽取的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-07-30 22:10

  本文關(guān)鍵詞:檢索系統(tǒng)中基于Heritrix信息抽取的研究與實(shí)現(xiàn)


  更多相關(guān)文章: Java Heritrix Tika 信息抽取 網(wǎng)絡(luò)爬蟲(chóng)


【摘要】:隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)成了最大的信息載體。人們?cè)絹?lái)越多的依賴(lài)網(wǎng)絡(luò)獲取各種需求信息,互聯(lián)網(wǎng)上的信息查詢(xún)成了人們生活中一個(gè)不可或缺的重要部分。網(wǎng)絡(luò)信息具備以下特性:信息復(fù)雜度高,更新速度快,信息量大且增加速度快。這些特性使得網(wǎng)絡(luò)上的信息提取成為網(wǎng)絡(luò)信息技術(shù)發(fā)展中面臨的挑戰(zhàn)。如何更快、更準(zhǔn)、更全面的幫助用戶(hù)搜索目標(biāo)信息,滿(mǎn)足用戶(hù)的搜索需求,成為目前一個(gè)炙手可熱的問(wèn)題。解決這個(gè)問(wèn)題,最快且最有效的方式就是對(duì)搜索引擎的研究與優(yōu)化。信息提取作為搜索引擎重要的組成部分,直接影響搜索引擎搜索的準(zhǔn)確度和全面性,因此搜索引擎的優(yōu)化工作主要是對(duì)信息抽取部分的優(yōu)化。 本文結(jié)合近些年各大領(lǐng)域的優(yōu)秀研究成果,根據(jù)用戶(hù)需求的特殊性,從整體到部分,對(duì)信息抽取的各個(gè)模塊進(jìn)行了優(yōu)化設(shè)計(jì)和研究,最終設(shè)計(jì)實(shí)現(xiàn)了一個(gè)針對(duì)企業(yè)應(yīng)用的網(wǎng)絡(luò)爬蟲(chóng)。 本文所作的主要工作: 1.本文對(duì)當(dāng)前各領(lǐng)域搜索引擎做了系統(tǒng)的研究與比較,對(duì)目前幾種開(kāi)源技術(shù)做了一定研究,針對(duì)幾個(gè)重要的評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行了對(duì)比分析。此外,本文還對(duì)網(wǎng)絡(luò)爬蟲(chóng)部分相關(guān)技術(shù)做了介紹,主要包括Heritrix技術(shù)、Java技術(shù)以及爬蟲(chóng)的基本功能。 2.本文完成了信息檢索系統(tǒng)的整體設(shè)計(jì),重點(diǎn)研究了網(wǎng)絡(luò)爬蟲(chóng)以及信息解析的設(shè)計(jì)。網(wǎng)絡(luò)爬蟲(chóng)基于Heritrix開(kāi)源,擁有很強(qiáng)的擴(kuò)展性。用戶(hù)可以根據(jù)不同的需求,配置需要抓取的種子url,解析文件格式以及輸出文件格式。文中運(yùn)用Tika技術(shù)對(duì)下載獲得的網(wǎng)頁(yè)資源進(jìn)行解析處理,ApacheTika封裝了很多解析類(lèi)包,能夠有效處理不同格式的文件。 3.本文重點(diǎn)研究了面向企業(yè)平臺(tái)的信息抽取系統(tǒng)的具體實(shí)現(xiàn),信息抽取系統(tǒng)主要包括URL注入,網(wǎng)頁(yè)爬取,信息解析,頁(yè)面去重以及信息存儲(chǔ)。本文在詳細(xì)研究各模塊的實(shí)現(xiàn)方法的基礎(chǔ)上,最終完成了信息抽取系統(tǒng)的實(shí)現(xiàn)。 實(shí)驗(yàn)數(shù)據(jù)表明,本文設(shè)計(jì)的以Heritrix開(kāi)源為基礎(chǔ),結(jié)合Tika解析技術(shù)的信息抽取系統(tǒng)的功能完整,可以在有限的時(shí)間內(nèi)完成有效信息的抽取,為爬蟲(chóng)的優(yōu)化工作提供可靠的數(shù)據(jù)支持。
【關(guān)鍵詞】:Java Heritrix Tika 信息抽取 網(wǎng)絡(luò)爬蟲(chóng)
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.3
【目錄】:
  • 摘要4-6
  • ABSTRACT6-10
  • 第一章 引言10-14
  • 1.1 課題研究背景10-11
  • 1.2 課題研究意義11-12
  • 1.3 項(xiàng)目開(kāi)發(fā)內(nèi)容及論文章節(jié)結(jié)構(gòu)12-14
  • 第二章 檢索系統(tǒng)關(guān)鍵技術(shù)概述14-30
  • 2.1 搜索引擎14-18
  • 2.1.1 搜索引擎概述14-15
  • 2.1.2 搜索引擎分類(lèi)15-16
  • 2.1.3 搜索引擎組成結(jié)構(gòu)16-18
  • 2.2 目前開(kāi)源技術(shù)之間比較18-23
  • 2.2.1 索引時(shí)間19-20
  • 2.2.2 核心處理器和內(nèi)存20-21
  • 2.2.3 索引空間占用大小21-22
  • 2.2.4 搜索時(shí)間22-23
  • 2.3 網(wǎng)絡(luò)爬蟲(chóng)關(guān)鍵技術(shù)23-29
  • 2.3.1 爬蟲(chóng)基本功能23-27
  • 2.3.2 Java技術(shù)27
  • 2.3.3 Heritrix介紹27-29
  • 2.4 本章小結(jié)29-30
  • 第三章 檢索系統(tǒng)分析與概要設(shè)計(jì)30-41
  • 3.1 系統(tǒng)組成結(jié)構(gòu)30-32
  • 3.2 信息抽取概要設(shè)計(jì)32-39
  • 3.2.1 網(wǎng)頁(yè)爬取32-37
  • 3.2.2 信息解析37-39
  • 3.3 頁(yè)面去重部分概要設(shè)計(jì)39-40
  • 3.4 本章小結(jié)40-41
  • 第四章 系統(tǒng)主要功能模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)41-61
  • 4.1 信息抽取部分的詳細(xì)設(shè)計(jì)41-42
  • 4.2 URL注入部分的實(shí)現(xiàn)42-44
  • 4.3 網(wǎng)頁(yè)爬取部分的實(shí)現(xiàn)44-51
  • 4.4 信息解析部分的實(shí)現(xiàn)51-59
  • 4.4.1 FileConlection接口的實(shí)現(xiàn)52
  • 4.4.2 FileParser解析類(lèi)的實(shí)現(xiàn)52-56
  • 4.4.3 元數(shù)據(jù)標(biāo)簽提取的實(shí)現(xiàn)56-58
  • 4.4.4 異常處理的實(shí)現(xiàn)58-59
  • 4.5 頁(yè)面去重部分的實(shí)現(xiàn)59
  • 4.6 信息存儲(chǔ)部分的實(shí)現(xiàn)59-60
  • 4.7 本章小結(jié)60-61
  • 第五章 面向企業(yè)管理平臺(tái)的信息抽取實(shí)驗(yàn)測(cè)試與分析61-65
  • 5.1 企業(yè)管理平臺(tái)網(wǎng)站的準(zhǔn)備61
  • 5.2 企業(yè)管理平臺(tái)信息抽取多組實(shí)驗(yàn)61-63
  • 5.2.1 企業(yè)網(wǎng)站信息抽取實(shí)驗(yàn)61-62
  • 5.2.2 企業(yè)內(nèi)網(wǎng)信息抽取實(shí)驗(yàn)62-63
  • 5.2.3 企業(yè)辦公自動(dòng)化終端信息抽取實(shí)驗(yàn)63
  • 5.3 本章小結(jié)63-65
  • 第六章 總結(jié)與展望65-67
  • 6.1 論文工作總結(jié)65
  • 6.2 問(wèn)題和展望65-67
  • 參考文獻(xiàn)67-69
  • 致謝69

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前8條

1 孫立偉;何國(guó)輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年15期

2 周立柱,林玲;聚焦爬蟲(chóng)技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期

3 劉國(guó)靖;康麗;羅長(zhǎng)壽;;基于遺傳算法的主題爬蟲(chóng)策略[J];計(jì)算機(jī)應(yīng)用;2007年S2期

4 關(guān)慧芬;師軍;馬繼紅;;基于遺傳算法的主題爬行技術(shù)研究[J];計(jì)算機(jī)與數(shù)字工程;2008年10期

5 關(guān)佶紅;許紅儒;周水庚;;Web服務(wù)搜索技術(shù)綜述[J];計(jì)算機(jī)科學(xué)與探索;2010年05期

6 劉漢興;劉財(cái)興;;主題爬蟲(chóng)的搜索策略研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年12期

7 李曉紅;馮志勇;張亮;;元搜索引擎的個(gè)性化[J];天津大學(xué)學(xué)報(bào);2008年05期

8 郭志強(qiáng);楊松寧;吳光宇;;基于搜索引擎分類(lèi)及特點(diǎn)的分析[J];中國(guó)新技術(shù)新產(chǎn)品;2011年11期

,

本文編號(hào):596264

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/596264.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)b85fd***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
丰满人妻一二区二区三区av| 欧美激情中文字幕综合八区| 九九九热在线免费视频| 日本不卡在线视频你懂的| 欧美三级精品在线观看| 国产精品九九九一区二区| 国语对白刺激高潮在线视频| 中文字幕不卡欧美在线| 黄色国产自拍在线观看| 亚洲一区二区精品免费视频| 国产精品久久三级精品| 久久99亚洲小姐精品综合| 91亚洲精品亚洲国产| 久久精品国产一区久久久| 久久中文字幕中文字幕中文| 日韩高清毛片免费观看| 特黄大片性高水多欧美一级| 日本视频在线观看不卡| 大香蕉再在线大香蕉再在线| 亚洲熟女精品一区二区成人| 激情五月天免费在线观看| 亚洲精品中文字幕熟女| 国产精品第一香蕉视频| 高清免费在线不卡视频| 亚洲精品国产精品日韩| 日韩成人h视频在线观看| 免费特黄欧美亚洲黄片| 精品一区二区三区中文字幕 | 国产激情国产精品久久源| 日韩av生活片一区二区三区| 亚洲精品偷拍一区二区三区| 久久女同精品一区二区| 亚洲欧美日产综合在线网| 加勒比系列一区二区在线观看 | 国产精品人妻熟女毛片av久 | 国产精品国产亚洲看不卡| 亚洲欧美国产网爆精品| 国产午夜免费在线视频| 五月婷婷综合激情啪啪| 又大又紧又硬又湿又爽又猛| 91人妻人人做人碰人人九色|