面向主題的網(wǎng)頁資源采集系統(tǒng)的研究與實現(xiàn)

發(fā)布時間：2017-05-18 12:04

本文關(guān)鍵詞：面向主題的網(wǎng)頁資源采集系統(tǒng)的研究與實現(xiàn)，，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人類步入了互聯(lián)網(wǎng)時代,各種資源以互聯(lián)網(wǎng)為載體進行匯聚、整合,形成了一個龐大的信息庫。在浩如煙海的信息資源中,如何快速、準確、高效地獲取所需信息是亟待解決的問題。搜索引擎作為信息檢索的工具,成為用戶獲取信息的主要方式。然而,傳統(tǒng)的搜索引擎存在著網(wǎng)頁索引規(guī)模大、更新速度慢以及查詢結(jié)果精度低等缺點,為解決這些突出問題,垂直搜索引擎應運而生。主題信息采集系統(tǒng)作為垂直搜索引擎的重要組成部分,在搜索引擎中占有舉足輕重的地位,并且隨著社會的發(fā)展、科技的進步,其應用范圍會越來越廣,對主題網(wǎng)頁資源采集系統(tǒng)進行深入研究具有很深遠的意義。圍繞構(gòu)建面向主題的網(wǎng)頁資源采集系統(tǒng),論文對主題信息采集涉及到的關(guān)鍵技術(shù)進行深入研究,改進主題相關(guān)度計算模型,優(yōu)化URL爬行策略,提出了基于網(wǎng)頁內(nèi)容和web超鏈接的雙重約束的主題網(wǎng)頁信息采集算法。本論文的主要工作如下:(1)本文對web信息抽取技術(shù)進行研究,分析了基于自然語言處理、包裝器、Ontology方式、web查詢方法以及DOM樹形結(jié)構(gòu)的web信息抽取方法,研究了每種方法的優(yōu)缺點,并結(jié)合HTML文檔結(jié)構(gòu)和特點,分析了解析DOM樹形文檔的工作原理、相關(guān)API接口以及具體解析流程。(2)論文深入探討主題相關(guān)度計算模型,即布爾模型、向量空間模型和概率檢索模型,深入地研究了各模型的工作原理及實現(xiàn)機制,并分析各模型的優(yōu)缺點,為主題相關(guān)度計算模型的改進奠定了堅實的基礎(chǔ)。此外,針對向量空間模型,具體分析了主題特征詞的權(quán)重計算方法。(3)本文針對信息采集過程中的爬行策略展開詳盡的研究,分析了最好優(yōu)先搜索算法、Fish算法以及Shark算法等基于文字內(nèi)容的啟發(fā)式算法,研究各算法實現(xiàn)原理及工作流程,并分析優(yōu)缺點,同時基于web有向圖結(jié)構(gòu),分析了HITS、Page Rank、TPR等算法并指出每種算法的優(yōu)劣。(4)論文在分析現(xiàn)有的主題相關(guān)度計算模型及爬行策略優(yōu)缺點的基礎(chǔ)上,結(jié)合HTML文檔結(jié)構(gòu),對向量空間模型進行改進,同時考慮網(wǎng)頁內(nèi)容、鏈接錨文本以及URL字符串對URL主題相關(guān)度的影響,優(yōu)化了URL爬行策略,結(jié)合改進后的主題相關(guān)度計算模型和優(yōu)化后的URL爬行策略,提出了基于網(wǎng)頁內(nèi)容和web超鏈接的雙重約束的主題網(wǎng)頁信息采集算法。(5)以大豆主題為例,基于Nutch開源架構(gòu)構(gòu)建主題網(wǎng)頁資源采集系統(tǒng),并對系統(tǒng)進行性能測試與分析。實驗結(jié)果表明,該系統(tǒng)運行穩(wěn)定且具有較高的信息采集準確度。
【關(guān)鍵詞】：信息采集 主題相關(guān)度 web信息抽取 主題爬蟲
【學位授予單位】：東北農(nóng)業(yè)大學
【學位級別】：碩士
【學位授予年份】：2015
【分類號】：TP391.1;TP393.092
【目錄】：

摘要8-9
英文摘要9-11
1 前言11-17
1.1 課題研究目的和意義11-12
1.2 國內(nèi)外研究現(xiàn)狀12-15
1.3 研究的主要內(nèi)容15
1.4 本文組織結(jié)構(gòu)15-17
2 主題網(wǎng)頁信息采集概述17-25
2.1 搜索引擎介紹17-19
2.1.1 搜索引擎的發(fā)展17
2.1.2 搜索引擎的分類17-18
2.1.3 搜索引擎體系結(jié)構(gòu)18-19
2.2 通用網(wǎng)絡爬蟲19-22
2.2.1 網(wǎng)絡爬蟲的結(jié)構(gòu)19-20
2.2.2 網(wǎng)絡爬蟲的工作流程20-21
2.2.3 網(wǎng)絡爬蟲的搜索策略21-22
2.3 主題網(wǎng)頁信息采集22-24
2.3.1 主題爬蟲結(jié)構(gòu)22-23
2.3.2 主題爬蟲的工作流程23
2.3.3 主題爬蟲的特性23-24
2.4 本章小結(jié)24-25
3 主題網(wǎng)頁信息采集關(guān)鍵技術(shù)研究25-44
3.1 Web信息抽取技術(shù)25-31
3.1.1 Web信息抽取方法25-28
3.1.2 HTML網(wǎng)頁文檔對象模型28-31
3.2 網(wǎng)頁主題相關(guān)度計算模型31-35
3.2.1 布爾模型31
3.2.2 向量空間模型31-33
3.2.3 概率檢索模型33-35
3.3 爬行策略算法研究35-39
3.3.1 基于文字內(nèi)容的算法35-36
3.3.2 基于鏈接分析的算法36-39
3.4 采集算法改進研究39-43
3.4.1 主題相關(guān)度計算模型及爬行策略優(yōu)缺點分析39-40
3.4.2 網(wǎng)頁主題相關(guān)度計算模型的改進40
3.4.3 URL爬行策略優(yōu)化40-42
3.4.4 雙重約束主題采集算法42-43
3.5 本章小結(jié)43-44
4 系統(tǒng)設計與實現(xiàn)44-52
4.1 大豆主題網(wǎng)頁資源采集系統(tǒng)的實現(xiàn)44-49
4.1.1 Web開源軟件分析44
4.1.2 Nutch架構(gòu)及其機制44-46
4.1.3 基于Nutch的采集系統(tǒng)具體實現(xiàn)46-49
4.2 實驗測試與分析49-51
4.2.1 性能評價指標49-50
4.2.2 實驗比較及分析50-51
4.3 本章小結(jié)51-52
5 總結(jié)與展望52-54
5.1 全文總結(jié)52
5.2 研究展望52-54
致謝54-55
參考文獻55-59
攻讀碩士學位期間發(fā)表的學術(shù)論文59

【參考文獻】

中國期刊全文數(shù)據(jù)庫前7條

1 趙喜樂;陳光;;垂直搜索引擎的抓取系統(tǒng)——基于網(wǎng)絡蜘蛛技術(shù)[J];電腦知識與技術(shù);2009年19期

2 夏天;;Nutch的插件機制分析[J];廣西師范大學學報(自然科學版);2010年01期

3 李盛韜,趙章界,余智華;基于主題的Web信息采集系統(tǒng)的設計與實現(xiàn)[J];計算機工程;2003年17期

4 陳釗;張冬梅;;Web信息抽取技術(shù)綜述[J];計算機應用研究;2010年12期

5 姚玉開;王燁;盧翠榮;;向量空間模型的信息檢索技術(shù)[J];價值工程;2013年13期

6 蔣國瑞;王秋利;;基于本體的TBT電子信息產(chǎn)品領(lǐng)域主題爬蟲研究[J];情報雜志;2011年07期

7 劉高軍;夏景隆;;基于Heritrix的網(wǎng)絡爬蟲研究與應用[J];軟件導刊;2013年05期

中國碩士學位論文全文數(shù)據(jù)庫前1條

1 張偉;垂直搜索引擎設計與實現(xiàn)[D];西安電子科技大學;2008年

本文關(guān)鍵詞：面向主題的網(wǎng)頁資源采集系統(tǒng)的研究與實現(xiàn)，由筆耕文化傳播整理發(fā)布。

本文編號：375984

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/375984.html

上一篇：基于協(xié)議分析IPV6人侵檢測系統(tǒng)的設計與實現(xiàn)
下一篇：基于網(wǎng)絡距離的區(qū)域云資源節(jié)點選擇算法的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向主題的網(wǎng)頁資源采集系統(tǒng)的研究與實現(xiàn)