天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向主題的網(wǎng)頁資源采集系統(tǒng)的研究與實現(xiàn)

發(fā)布時間:2017-05-18 12:04

  本文關(guān)鍵詞:面向主題的網(wǎng)頁資源采集系統(tǒng)的研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人類步入了互聯(lián)網(wǎng)時代,各種資源以互聯(lián)網(wǎng)為載體進(jìn)行匯聚、整合,形成了一個龐大的信息庫。在浩如煙海的信息資源中,如何快速、準(zhǔn)確、高效地獲取所需信息是亟待解決的問題。搜索引擎作為信息檢索的工具,成為用戶獲取信息的主要方式。然而,傳統(tǒng)的搜索引擎存在著網(wǎng)頁索引規(guī)模大、更新速度慢以及查詢結(jié)果精度低等缺點,為解決這些突出問題,垂直搜索引擎應(yīng)運而生。主題信息采集系統(tǒng)作為垂直搜索引擎的重要組成部分,在搜索引擎中占有舉足輕重的地位,并且隨著社會的發(fā)展、科技的進(jìn)步,其應(yīng)用范圍會越來越廣,對主題網(wǎng)頁資源采集系統(tǒng)進(jìn)行深入研究具有很深遠(yuǎn)的意義。圍繞構(gòu)建面向主題的網(wǎng)頁資源采集系統(tǒng),論文對主題信息采集涉及到的關(guān)鍵技術(shù)進(jìn)行深入研究,改進(jìn)主題相關(guān)度計算模型,優(yōu)化URL爬行策略,提出了基于網(wǎng)頁內(nèi)容和web超鏈接的雙重約束的主題網(wǎng)頁信息采集算法。本論文的主要工作如下:(1)本文對web信息抽取技術(shù)進(jìn)行研究,分析了基于自然語言處理、包裝器、Ontology方式、web查詢方法以及DOM樹形結(jié)構(gòu)的web信息抽取方法,研究了每種方法的優(yōu)缺點,并結(jié)合HTML文檔結(jié)構(gòu)和特點,分析了解析DOM樹形文檔的工作原理、相關(guān)API接口以及具體解析流程。(2)論文深入探討主題相關(guān)度計算模型,即布爾模型、向量空間模型和概率檢索模型,深入地研究了各模型的工作原理及實現(xiàn)機(jī)制,并分析各模型的優(yōu)缺點,為主題相關(guān)度計算模型的改進(jìn)奠定了堅實的基礎(chǔ)。此外,針對向量空間模型,具體分析了主題特征詞的權(quán)重計算方法。(3)本文針對信息采集過程中的爬行策略展開詳盡的研究,分析了最好優(yōu)先搜索算法、Fish算法以及Shark算法等基于文字內(nèi)容的啟發(fā)式算法,研究各算法實現(xiàn)原理及工作流程,并分析優(yōu)缺點,同時基于web有向圖結(jié)構(gòu),分析了HITS、Page Rank、TPR等算法并指出每種算法的優(yōu)劣。(4)論文在分析現(xiàn)有的主題相關(guān)度計算模型及爬行策略優(yōu)缺點的基礎(chǔ)上,結(jié)合HTML文檔結(jié)構(gòu),對向量空間模型進(jìn)行改進(jìn),同時考慮網(wǎng)頁內(nèi)容、鏈接錨文本以及URL字符串對URL主題相關(guān)度的影響,優(yōu)化了URL爬行策略,結(jié)合改進(jìn)后的主題相關(guān)度計算模型和優(yōu)化后的URL爬行策略,提出了基于網(wǎng)頁內(nèi)容和web超鏈接的雙重約束的主題網(wǎng)頁信息采集算法。(5)以大豆主題為例,基于Nutch開源架構(gòu)構(gòu)建主題網(wǎng)頁資源采集系統(tǒng),并對系統(tǒng)進(jìn)行性能測試與分析。實驗結(jié)果表明,該系統(tǒng)運行穩(wěn)定且具有較高的信息采集準(zhǔn)確度。
【關(guān)鍵詞】:信息采集 主題相關(guān)度 web信息抽取 主題爬蟲
【學(xué)位授予單位】:東北農(nóng)業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1;TP393.092
【目錄】:
  • 摘要8-9
  • 英文摘要9-11
  • 1 前言11-17
  • 1.1 課題研究目的和意義11-12
  • 1.2 國內(nèi)外研究現(xiàn)狀12-15
  • 1.3 研究的主要內(nèi)容15
  • 1.4 本文組織結(jié)構(gòu)15-17
  • 2 主題網(wǎng)頁信息采集概述17-25
  • 2.1 搜索引擎介紹17-19
  • 2.1.1 搜索引擎的發(fā)展17
  • 2.1.2 搜索引擎的分類17-18
  • 2.1.3 搜索引擎體系結(jié)構(gòu)18-19
  • 2.2 通用網(wǎng)絡(luò)爬蟲19-22
  • 2.2.1 網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)19-20
  • 2.2.2 網(wǎng)絡(luò)爬蟲的工作流程20-21
  • 2.2.3 網(wǎng)絡(luò)爬蟲的搜索策略21-22
  • 2.3 主題網(wǎng)頁信息采集22-24
  • 2.3.1 主題爬蟲結(jié)構(gòu)22-23
  • 2.3.2 主題爬蟲的工作流程23
  • 2.3.3 主題爬蟲的特性23-24
  • 2.4 本章小結(jié)24-25
  • 3 主題網(wǎng)頁信息采集關(guān)鍵技術(shù)研究25-44
  • 3.1 Web信息抽取技術(shù)25-31
  • 3.1.1 Web信息抽取方法25-28
  • 3.1.2 HTML網(wǎng)頁文檔對象模型28-31
  • 3.2 網(wǎng)頁主題相關(guān)度計算模型31-35
  • 3.2.1 布爾模型31
  • 3.2.2 向量空間模型31-33
  • 3.2.3 概率檢索模型33-35
  • 3.3 爬行策略算法研究35-39
  • 3.3.1 基于文字內(nèi)容的算法35-36
  • 3.3.2 基于鏈接分析的算法36-39
  • 3.4 采集算法改進(jìn)研究39-43
  • 3.4.1 主題相關(guān)度計算模型及爬行策略優(yōu)缺點分析39-40
  • 3.4.2 網(wǎng)頁主題相關(guān)度計算模型的改進(jìn)40
  • 3.4.3 URL爬行策略優(yōu)化40-42
  • 3.4.4 雙重約束主題采集算法42-43
  • 3.5 本章小結(jié)43-44
  • 4 系統(tǒng)設(shè)計與實現(xiàn)44-52
  • 4.1 大豆主題網(wǎng)頁資源采集系統(tǒng)的實現(xiàn)44-49
  • 4.1.1 Web開源軟件分析44
  • 4.1.2 Nutch架構(gòu)及其機(jī)制44-46
  • 4.1.3 基于Nutch的采集系統(tǒng)具體實現(xiàn)46-49
  • 4.2 實驗測試與分析49-51
  • 4.2.1 性能評價指標(biāo)49-50
  • 4.2.2 實驗比較及分析50-51
  • 4.3 本章小結(jié)51-52
  • 5 總結(jié)與展望52-54
  • 5.1 全文總結(jié)52
  • 5.2 研究展望52-54
  • 致謝54-55
  • 參考文獻(xiàn)55-59
  • 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文59

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前7條

1 趙喜樂;陳光;;垂直搜索引擎的抓取系統(tǒng)——基于網(wǎng)絡(luò)蜘蛛技術(shù)[J];電腦知識與技術(shù);2009年19期

2 夏天;;Nutch的插件機(jī)制分析[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2010年01期

3 李盛韜,趙章界,余智華;基于主題的Web信息采集系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機(jī)工程;2003年17期

4 陳釗;張冬梅;;Web信息抽取技術(shù)綜述[J];計算機(jī)應(yīng)用研究;2010年12期

5 姚玉開;王燁;盧翠榮;;向量空間模型的信息檢索技術(shù)[J];價值工程;2013年13期

6 蔣國瑞;王秋利;;基于本體的TBT電子信息產(chǎn)品領(lǐng)域主題爬蟲研究[J];情報雜志;2011年07期

7 劉高軍;夏景隆;;基于Heritrix的網(wǎng)絡(luò)爬蟲研究與應(yīng)用[J];軟件導(dǎo)刊;2013年05期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 張偉;垂直搜索引擎設(shè)計與實現(xiàn)[D];西安電子科技大學(xué);2008年


  本文關(guān)鍵詞:面向主題的網(wǎng)頁資源采集系統(tǒng)的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號:375984

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/375984.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ecd50***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com