搜索引擎中網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)
發(fā)布時間:2017-11-15 18:21
本文關(guān)鍵詞:搜索引擎中網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)
更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲 Linux 半同步/半異步并發(fā)模型 Libevent
【摘要】:在互聯(lián)網(wǎng)快速發(fā)展的背景下,搜索引擎在人們生活工作中有著舉足輕重的作用,而網(wǎng)絡(luò)爬蟲是搜索引擎中的信息采集器,是搜索引擎技術(shù)的最基礎(chǔ)部分。特別是在今天這個大數(shù)據(jù)的時代,通過網(wǎng)絡(luò)爬蟲在互聯(lián)網(wǎng)上搜集到有價值的數(shù)據(jù),再進(jìn)行數(shù)據(jù)整理,是一個快速得到有效信息的重要手段。 本文是基于廣度優(yōu)先算法在Linux平臺下研究并實現(xiàn)的多線程網(wǎng)絡(luò)爬蟲程序。爬蟲系統(tǒng)從指定的初始URL開始抓取網(wǎng)頁,進(jìn)行網(wǎng)頁解析,獲取包含在網(wǎng)頁中未被爬取的URL,再對這些URL逐條地進(jìn)行爬行,盡可能多的獲取互聯(lián)網(wǎng)海量數(shù)據(jù)。針對網(wǎng)絡(luò)爬蟲系統(tǒng)中涉及的相關(guān)技術(shù),本文詳細(xì)分析與研究了網(wǎng)頁抓取算法、網(wǎng)頁去重算法,并提出半同步/半異步并發(fā)模型在系統(tǒng)中的應(yīng)用,有效的利用網(wǎng)絡(luò)資源,提高CPU利用率。此外,為了增加爬蟲系統(tǒng)的并發(fā)度,采用基于Libevent開源事件驅(qū)動框架庫的線程池設(shè)計。最終,通過模塊化程序設(shè)計思想將爬蟲系統(tǒng)分為請求連接模塊、數(shù)據(jù)分析模塊、URL管理模塊、URL調(diào)度模塊等,本文對其進(jìn)行一一設(shè)計與實現(xiàn),程序在GCC編譯環(huán)境下調(diào)試通過。 最后,文章對爬蟲系統(tǒng)進(jìn)行了性能測試,從多線程數(shù)以及最大連接數(shù)兩個方面,,對影響爬蟲系統(tǒng)抓取速度的因素做出分析,找到對網(wǎng)絡(luò)爬蟲系統(tǒng)性能產(chǎn)生較大影響的原因。
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 孟時;王彥;;larbin網(wǎng)絡(luò)爬蟲的體系結(jié)構(gòu)[J];電腦學(xué)習(xí);2010年04期
2 王后珍;張煥國;楊樝;;多變元Hash函數(shù)的構(gòu)造與分析[J];電子學(xué)報;2011年01期
3 李剛;周立柱;郭奇;林玲;;領(lǐng)域相關(guān)的Web網(wǎng)站抓取方法[J];計算機(jī)科學(xué);2007年02期
4 王鋒;王偉;張t
本文編號:1190756
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1190756.html
最近更新
教材專著