面向垂直搜索引擎的聚焦網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2024-03-08 20:03
隨著Internet的飛速發(fā)展,信息資源的規(guī)模已變得極其龐大。在海量的網(wǎng)絡(luò)信息資源中,快速、精確地找到用戶所需的信息變得日益困難。此時(shí),搜索引擎應(yīng)運(yùn)而生。搜索引擎為用戶查找信息提供了極大地便利,故而被人們廣泛使用。網(wǎng)絡(luò)爬蟲是搜索引擎的核心模塊,負(fù)責(zé)采集網(wǎng)絡(luò)上的各種網(wǎng)頁。網(wǎng)絡(luò)爬蟲的爬行策略和性能極大地影響了搜索引擎的服務(wù)質(zhì)量,因此,網(wǎng)絡(luò)爬蟲值得研究與改良。由于龐大的網(wǎng)絡(luò)規(guī)模和及時(shí)響應(yīng)需求,通用搜索引擎提供的檢索結(jié)果往往充斥著許多無關(guān)數(shù)據(jù),無法令用戶滿意。垂直搜索引擎,是為提供更細(xì)致精準(zhǔn)的搜索服務(wù)而發(fā)展的新一代搜索引擎。本文的研究對象是垂直搜索引擎中的聚焦網(wǎng)絡(luò)爬蟲。聚焦爬蟲專注于特定領(lǐng)域的信息采集,它的資源采集效率較高。聚焦爬蟲為爬蟲領(lǐng)域的發(fā)展提供了新的思路,具有較高的研究、實(shí)用價(jià)值。 本文首先概述了搜索引擎的發(fā)展?fàn)顩r和網(wǎng)絡(luò)爬蟲的研究現(xiàn)狀,闡述了搜索引擎的基本原理及工作流程,然后深入探討了聚焦爬蟲系統(tǒng)所涉及的各項(xiàng)關(guān)鍵技術(shù)。最后基于上述理論給出了一個(gè)聚焦爬蟲系統(tǒng)的工程化實(shí)現(xiàn)。 本文在聚焦爬蟲系統(tǒng)的爬行策略上,借鑒Fish-Search算法與Shark-Search算法的算法流程,在其基礎(chǔ)上動(dòng)...
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 概述
1.1.1 Internet的發(fā)展
1.1.2 搜索引擎的發(fā)展
1.2 國內(nèi)外相關(guān)技術(shù)發(fā)展現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 本文研究內(nèi)容與組織結(jié)構(gòu)
第二章 爬蟲體系結(jié)構(gòu)研究
2.1 搜索引擎概述
2.1.1 搜索引擎基本原理
2.1.2 通用搜索引擎的局限
2.1.3 垂直搜索引擎概述
2.2 網(wǎng)絡(luò)爬蟲研究
2.2.1 通用爬蟲基本原理及結(jié)構(gòu)
2.2.2 聚焦爬蟲系統(tǒng)結(jié)構(gòu)
2.2.3 主題頁面的分布特性
2.3 本章小結(jié)
第三章 聚焦網(wǎng)絡(luò)爬蟲關(guān)鍵算法的研究與改進(jìn)
3.1 主題爬行策略研究與改進(jìn)
3.1.1 基于網(wǎng)頁鏈接結(jié)構(gòu)的爬行策略
3.1.2 基于網(wǎng)頁內(nèi)容的爬行策略
3.1.3 其它策略
3.1.4 改進(jìn)的爬行策略
3.2 主題相關(guān)度計(jì)算方法
3.2.1 基于向量空間模型計(jì)算文本相似度
3.2.2 網(wǎng)頁主題相關(guān)度計(jì)算方法
3.2.3 鏈接主題相關(guān)度計(jì)算方法
3.3 網(wǎng)頁內(nèi)容的提取
3.3.1 HTML簡介
3.3.2 標(biāo)簽樹的建立
3.3.3 基于文字/標(biāo)簽密度的網(wǎng)頁正文提取方法
3.4 URL鏈接去重
3.5 中文分詞
3.5.1 中文分詞算法
3.5.2 jieba分詞系統(tǒng)
3.6 本章小結(jié)
第四章 基于改進(jìn)爬行策略的聚焦爬蟲系統(tǒng)設(shè)計(jì)
4.1 聚焦爬蟲系統(tǒng)的總體架構(gòu)
4.1.1 聚焦爬蟲系統(tǒng)模塊設(shè)計(jì)
4.1.2 聚焦爬蟲系統(tǒng)流程設(shè)計(jì)
4.2 網(wǎng)頁采集模塊
4.2.1 HTTP協(xié)議簡介
4.2.2 判斷網(wǎng)頁編碼
4.2.3 Gzip壓縮編碼傳輸
4.2.4 采集模塊流程
4.3 文本相似度計(jì)算模塊
4.4 線程池工作模塊
4.5 本章小結(jié)
第五章 系統(tǒng)實(shí)現(xiàn)及實(shí)驗(yàn)分析
5.1 系統(tǒng)的實(shí)現(xiàn)
5.1.1 實(shí)驗(yàn)環(huán)境
5.1.2 實(shí)驗(yàn)過程
5.1.3 相關(guān)度閾值的設(shè)定
5.2 實(shí)驗(yàn)與分析
5.2.1 評價(jià)方法
5.2.2 實(shí)驗(yàn)分析
5.3 本章小結(jié)
第六章 結(jié)束語
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
本文編號:3922324
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 概述
1.1.1 Internet的發(fā)展
1.1.2 搜索引擎的發(fā)展
1.2 國內(nèi)外相關(guān)技術(shù)發(fā)展現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 本文研究內(nèi)容與組織結(jié)構(gòu)
第二章 爬蟲體系結(jié)構(gòu)研究
2.1 搜索引擎概述
2.1.1 搜索引擎基本原理
2.1.2 通用搜索引擎的局限
2.1.3 垂直搜索引擎概述
2.2 網(wǎng)絡(luò)爬蟲研究
2.2.1 通用爬蟲基本原理及結(jié)構(gòu)
2.2.2 聚焦爬蟲系統(tǒng)結(jié)構(gòu)
2.2.3 主題頁面的分布特性
2.3 本章小結(jié)
第三章 聚焦網(wǎng)絡(luò)爬蟲關(guān)鍵算法的研究與改進(jìn)
3.1 主題爬行策略研究與改進(jìn)
3.1.1 基于網(wǎng)頁鏈接結(jié)構(gòu)的爬行策略
3.1.2 基于網(wǎng)頁內(nèi)容的爬行策略
3.1.3 其它策略
3.1.4 改進(jìn)的爬行策略
3.2 主題相關(guān)度計(jì)算方法
3.2.1 基于向量空間模型計(jì)算文本相似度
3.2.2 網(wǎng)頁主題相關(guān)度計(jì)算方法
3.2.3 鏈接主題相關(guān)度計(jì)算方法
3.3 網(wǎng)頁內(nèi)容的提取
3.3.1 HTML簡介
3.3.2 標(biāo)簽樹的建立
3.3.3 基于文字/標(biāo)簽密度的網(wǎng)頁正文提取方法
3.4 URL鏈接去重
3.5 中文分詞
3.5.1 中文分詞算法
3.5.2 jieba分詞系統(tǒng)
3.6 本章小結(jié)
第四章 基于改進(jìn)爬行策略的聚焦爬蟲系統(tǒng)設(shè)計(jì)
4.1 聚焦爬蟲系統(tǒng)的總體架構(gòu)
4.1.1 聚焦爬蟲系統(tǒng)模塊設(shè)計(jì)
4.1.2 聚焦爬蟲系統(tǒng)流程設(shè)計(jì)
4.2 網(wǎng)頁采集模塊
4.2.1 HTTP協(xié)議簡介
4.2.2 判斷網(wǎng)頁編碼
4.2.3 Gzip壓縮編碼傳輸
4.2.4 采集模塊流程
4.3 文本相似度計(jì)算模塊
4.4 線程池工作模塊
4.5 本章小結(jié)
第五章 系統(tǒng)實(shí)現(xiàn)及實(shí)驗(yàn)分析
5.1 系統(tǒng)的實(shí)現(xiàn)
5.1.1 實(shí)驗(yàn)環(huán)境
5.1.2 實(shí)驗(yàn)過程
5.1.3 相關(guān)度閾值的設(shè)定
5.2 實(shí)驗(yàn)與分析
5.2.1 評價(jià)方法
5.2.2 實(shí)驗(yàn)分析
5.3 本章小結(jié)
第六章 結(jié)束語
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
本文編號:3922324
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3922324.html
最近更新
教材專著