面向主題的網(wǎng)頁資源采集系統(tǒng)的研究與實現(xiàn)
本文關(guān)鍵詞:面向主題的網(wǎng)頁資源采集系統(tǒng)的研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人類步入了互聯(lián)網(wǎng)時代,各種資源以互聯(lián)網(wǎng)為載體進(jìn)行匯聚、整合,形成了一個龐大的信息庫。在浩如煙海的信息資源中,如何快速、準(zhǔn)確、高效地獲取所需信息是亟待解決的問題。搜索引擎作為信息檢索的工具,成為用戶獲取信息的主要方式。然而,傳統(tǒng)的搜索引擎存在著網(wǎng)頁索引規(guī)模大、更新速度慢以及查詢結(jié)果精度低等缺點,為解決這些突出問題,垂直搜索引擎應(yīng)運而生。主題信息采集系統(tǒng)作為垂直搜索引擎的重要組成部分,在搜索引擎中占有舉足輕重的地位,并且隨著社會的發(fā)展、科技的進(jìn)步,其應(yīng)用范圍會越來越廣,對主題網(wǎng)頁資源采集系統(tǒng)進(jìn)行深入研究具有很深遠(yuǎn)的意義。圍繞構(gòu)建面向主題的網(wǎng)頁資源采集系統(tǒng),論文對主題信息采集涉及到的關(guān)鍵技術(shù)進(jìn)行深入研究,改進(jìn)主題相關(guān)度計算模型,優(yōu)化URL爬行策略,提出了基于網(wǎng)頁內(nèi)容和web超鏈接的雙重約束的主題網(wǎng)頁信息采集算法。本論文的主要工作如下:(1)本文對web信息抽取技術(shù)進(jìn)行研究,分析了基于自然語言處理、包裝器、Ontology方式、web查詢方法以及DOM樹形結(jié)構(gòu)的web信息抽取方法,研究了每種方法的優(yōu)缺點,并結(jié)合HTML文檔結(jié)構(gòu)和特點,分析了解析DOM樹形文檔的工作原理、相關(guān)API接口以及具體解析流程。(2)論文深入探討主題相關(guān)度計算模型,即布爾模型、向量空間模型和概率檢索模型,深入地研究了各模型的工作原理及實現(xiàn)機(jī)制,并分析各模型的優(yōu)缺點,為主題相關(guān)度計算模型的改進(jìn)奠定了堅實的基礎(chǔ)。此外,針對向量空間模型,具體分析了主題特征詞的權(quán)重計算方法。(3)本文針對信息采集過程中的爬行策略展開詳盡的研究,分析了最好優(yōu)先搜索算法、Fish算法以及Shark算法等基于文字內(nèi)容的啟發(fā)式算法,研究各算法實現(xiàn)原理及工作流程,并分析優(yōu)缺點,同時基于web有向圖結(jié)構(gòu),分析了HITS、Page Rank、TPR等算法并指出每種算法的優(yōu)劣。(4)論文在分析現(xiàn)有的主題相關(guān)度計算模型及爬行策略優(yōu)缺點的基礎(chǔ)上,結(jié)合HTML文檔結(jié)構(gòu),對向量空間模型進(jìn)行改進(jìn),同時考慮網(wǎng)頁內(nèi)容、鏈接錨文本以及URL字符串對URL主題相關(guān)度的影響,優(yōu)化了URL爬行策略,結(jié)合改進(jìn)后的主題相關(guān)度計算模型和優(yōu)化后的URL爬行策略,提出了基于網(wǎng)頁內(nèi)容和web超鏈接的雙重約束的主題網(wǎng)頁信息采集算法。(5)以大豆主題為例,基于Nutch開源架構(gòu)構(gòu)建主題網(wǎng)頁資源采集系統(tǒng),并對系統(tǒng)進(jìn)行性能測試與分析。實驗結(jié)果表明,該系統(tǒng)運行穩(wěn)定且具有較高的信息采集準(zhǔn)確度。
【關(guān)鍵詞】:信息采集 主題相關(guān)度 web信息抽取 主題爬蟲
【學(xué)位授予單位】:東北農(nóng)業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1;TP393.092
【目錄】:
- 摘要8-9
- 英文摘要9-11
- 1 前言11-17
- 1.1 課題研究目的和意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-15
- 1.3 研究的主要內(nèi)容15
- 1.4 本文組織結(jié)構(gòu)15-17
- 2 主題網(wǎng)頁信息采集概述17-25
- 2.1 搜索引擎介紹17-19
- 2.1.1 搜索引擎的發(fā)展17
- 2.1.2 搜索引擎的分類17-18
- 2.1.3 搜索引擎體系結(jié)構(gòu)18-19
- 2.2 通用網(wǎng)絡(luò)爬蟲19-22
- 2.2.1 網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)19-20
- 2.2.2 網(wǎng)絡(luò)爬蟲的工作流程20-21
- 2.2.3 網(wǎng)絡(luò)爬蟲的搜索策略21-22
- 2.3 主題網(wǎng)頁信息采集22-24
- 2.3.1 主題爬蟲結(jié)構(gòu)22-23
- 2.3.2 主題爬蟲的工作流程23
- 2.3.3 主題爬蟲的特性23-24
- 2.4 本章小結(jié)24-25
- 3 主題網(wǎng)頁信息采集關(guān)鍵技術(shù)研究25-44
- 3.1 Web信息抽取技術(shù)25-31
- 3.1.1 Web信息抽取方法25-28
- 3.1.2 HTML網(wǎng)頁文檔對象模型28-31
- 3.2 網(wǎng)頁主題相關(guān)度計算模型31-35
- 3.2.1 布爾模型31
- 3.2.2 向量空間模型31-33
- 3.2.3 概率檢索模型33-35
- 3.3 爬行策略算法研究35-39
- 3.3.1 基于文字內(nèi)容的算法35-36
- 3.3.2 基于鏈接分析的算法36-39
- 3.4 采集算法改進(jìn)研究39-43
- 3.4.1 主題相關(guān)度計算模型及爬行策略優(yōu)缺點分析39-40
- 3.4.2 網(wǎng)頁主題相關(guān)度計算模型的改進(jìn)40
- 3.4.3 URL爬行策略優(yōu)化40-42
- 3.4.4 雙重約束主題采集算法42-43
- 3.5 本章小結(jié)43-44
- 4 系統(tǒng)設(shè)計與實現(xiàn)44-52
- 4.1 大豆主題網(wǎng)頁資源采集系統(tǒng)的實現(xiàn)44-49
- 4.1.1 Web開源軟件分析44
- 4.1.2 Nutch架構(gòu)及其機(jī)制44-46
- 4.1.3 基于Nutch的采集系統(tǒng)具體實現(xiàn)46-49
- 4.2 實驗測試與分析49-51
- 4.2.1 性能評價指標(biāo)49-50
- 4.2.2 實驗比較及分析50-51
- 4.3 本章小結(jié)51-52
- 5 總結(jié)與展望52-54
- 5.1 全文總結(jié)52
- 5.2 研究展望52-54
- 致謝54-55
- 參考文獻(xiàn)55-59
- 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文59
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前7條
1 趙喜樂;陳光;;垂直搜索引擎的抓取系統(tǒng)——基于網(wǎng)絡(luò)蜘蛛技術(shù)[J];電腦知識與技術(shù);2009年19期
2 夏天;;Nutch的插件機(jī)制分析[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2010年01期
3 李盛韜,趙章界,余智華;基于主題的Web信息采集系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機(jī)工程;2003年17期
4 陳釗;張冬梅;;Web信息抽取技術(shù)綜述[J];計算機(jī)應(yīng)用研究;2010年12期
5 姚玉開;王燁;盧翠榮;;向量空間模型的信息檢索技術(shù)[J];價值工程;2013年13期
6 蔣國瑞;王秋利;;基于本體的TBT電子信息產(chǎn)品領(lǐng)域主題爬蟲研究[J];情報雜志;2011年07期
7 劉高軍;夏景隆;;基于Heritrix的網(wǎng)絡(luò)爬蟲研究與應(yīng)用[J];軟件導(dǎo)刊;2013年05期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 張偉;垂直搜索引擎設(shè)計與實現(xiàn)[D];西安電子科技大學(xué);2008年
本文關(guān)鍵詞:面向主題的網(wǎng)頁資源采集系統(tǒng)的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:375984
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/375984.html