基于時(shí)效性的爬蟲調(diào)度
發(fā)布時(shí)間:2021-07-02 19:39
搜索引擎作為互聯(lián)網(wǎng)信息獲取的入口,實(shí)現(xiàn)高效、準(zhǔn)確的信息獲取非常重要,爬蟲作為搜索引擎的上游,其重要性不言而喻,特別是大數(shù)據(jù)時(shí)代信息更新頻繁,如何在第一時(shí)間獲取新聞是實(shí)現(xiàn)爬蟲時(shí)效性的重要因素。為了充分利用有限資源,提升帶寬利用率,設(shè)計(jì)一種基于歷史數(shù)據(jù)預(yù)測(cè)的爬蟲調(diào)度算法。該算法通過抓取網(wǎng)站歷史,更新頻次積累數(shù)據(jù),使用隨機(jī)森林回歸建立模型,并在系統(tǒng)中實(shí)現(xiàn)爬蟲調(diào)度。實(shí)驗(yàn)結(jié)果表明,該策略在抓取新鏈的命中率上提升了46%,平均成本降低了11%,平均抓取延時(shí)降低了14%。
【文章來(lái)源】:軟件導(dǎo)刊. 2020,19(01)
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
爬蟲基本架構(gòu)
互聯(lián)網(wǎng)信息更新很頻繁,對(duì)于網(wǎng)頁(yè)更新的變化規(guī)律,可以通過歷史數(shù)據(jù)挖掘得來(lái)。該算法流程如圖2所示。整個(gè)算法分為4個(gè)部分:(1)歷史數(shù)據(jù)積累;(2)抽取發(fā)布時(shí)間;(3)對(duì)歷史數(shù)據(jù)建模;(4)應(yīng)用調(diào)度模塊。詳細(xì)過程如下:
(2)抽取網(wǎng)頁(yè)發(fā)布時(shí)間。爬蟲系統(tǒng)在運(yùn)行一定時(shí)間后,會(huì)累積下大量網(wǎng)頁(yè)數(shù)據(jù),其中正文頁(yè)面通常會(huì)有文章發(fā)布時(shí)間,即使沒有,也能通過算法計(jì)算出大概文章時(shí)間。設(shè)正文頁(yè)面的父頁(yè)面上次調(diào)度時(shí)間為Tlast,本次調(diào)度時(shí)間為Tnow,頁(yè)面發(fā)布時(shí)間Tpage,可以得出結(jié)論如果Tlast不存在,說明頁(yè)面的父頁(yè)面是首次調(diào)度,不能確認(rèn)該頁(yè)面出現(xiàn)時(shí)間。如果Tnow-Tlast<1h,則可以把文章發(fā)布時(shí)間約等于兩次調(diào)度的中間值。提取發(fā)布時(shí)間算法流程如圖3所示。(3)歷史數(shù)據(jù)建模。網(wǎng)頁(yè)包含發(fā)布時(shí)間后,即可把同一個(gè)種子頁(yè)面擴(kuò)散出去的頁(yè)面聚類在一起,根據(jù)每個(gè)聚類的組,通過隨機(jī)森林回歸進(jìn)行建模,得到種子頁(yè)面時(shí)效性模型。其中未能抽取出發(fā)布時(shí)間的頁(yè)面和數(shù)量過小,不進(jìn)行模型構(gòu)建。
【參考文獻(xiàn)】:
期刊論文
[1]基于Python的專業(yè)網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 姜杉彪,黃凱林,盧昱江,張俊杰,曾志高,劉強(qiáng). 企業(yè)科技與發(fā)展. 2016(08)
[2]基于Hadoop的分布式主題網(wǎng)絡(luò)爬蟲研究[J]. 李應(yīng). 軟件導(dǎo)刊. 2016(03)
[3]大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國(guó)杰. 軟件學(xué)報(bào). 2014(09)
[4]國(guó)外搜索引擎評(píng)價(jià)研究綜述[J]. 馬志杰. 圖書館學(xué)研究. 2013(02)
[5]基于泊松過程的爬蟲調(diào)度策略分析[J]. 徐尚瑜. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2009(12)
[6]高性能網(wǎng)絡(luò)爬蟲:研究綜述[J]. 周德懋,李舟軍. 計(jì)算機(jī)科學(xué). 2009(08)
[7]網(wǎng)頁(yè)變化與增量搜集技術(shù)[J]. 孟濤,王繼民,閆宏飛. 軟件學(xué)報(bào). 2006(05)
[8]聚焦爬蟲技術(shù)研究綜述[J]. 周立柱,林玲. 計(jì)算機(jī)應(yīng)用. 2005(09)
[9]搜索引擎技術(shù)及研究[J]. 張興華. 現(xiàn)代情報(bào). 2004(04)
本文編號(hào):3261097
【文章來(lái)源】:軟件導(dǎo)刊. 2020,19(01)
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
爬蟲基本架構(gòu)
互聯(lián)網(wǎng)信息更新很頻繁,對(duì)于網(wǎng)頁(yè)更新的變化規(guī)律,可以通過歷史數(shù)據(jù)挖掘得來(lái)。該算法流程如圖2所示。整個(gè)算法分為4個(gè)部分:(1)歷史數(shù)據(jù)積累;(2)抽取發(fā)布時(shí)間;(3)對(duì)歷史數(shù)據(jù)建模;(4)應(yīng)用調(diào)度模塊。詳細(xì)過程如下:
(2)抽取網(wǎng)頁(yè)發(fā)布時(shí)間。爬蟲系統(tǒng)在運(yùn)行一定時(shí)間后,會(huì)累積下大量網(wǎng)頁(yè)數(shù)據(jù),其中正文頁(yè)面通常會(huì)有文章發(fā)布時(shí)間,即使沒有,也能通過算法計(jì)算出大概文章時(shí)間。設(shè)正文頁(yè)面的父頁(yè)面上次調(diào)度時(shí)間為Tlast,本次調(diào)度時(shí)間為Tnow,頁(yè)面發(fā)布時(shí)間Tpage,可以得出結(jié)論如果Tlast不存在,說明頁(yè)面的父頁(yè)面是首次調(diào)度,不能確認(rèn)該頁(yè)面出現(xiàn)時(shí)間。如果Tnow-Tlast<1h,則可以把文章發(fā)布時(shí)間約等于兩次調(diào)度的中間值。提取發(fā)布時(shí)間算法流程如圖3所示。(3)歷史數(shù)據(jù)建模。網(wǎng)頁(yè)包含發(fā)布時(shí)間后,即可把同一個(gè)種子頁(yè)面擴(kuò)散出去的頁(yè)面聚類在一起,根據(jù)每個(gè)聚類的組,通過隨機(jī)森林回歸進(jìn)行建模,得到種子頁(yè)面時(shí)效性模型。其中未能抽取出發(fā)布時(shí)間的頁(yè)面和數(shù)量過小,不進(jìn)行模型構(gòu)建。
【參考文獻(xiàn)】:
期刊論文
[1]基于Python的專業(yè)網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 姜杉彪,黃凱林,盧昱江,張俊杰,曾志高,劉強(qiáng). 企業(yè)科技與發(fā)展. 2016(08)
[2]基于Hadoop的分布式主題網(wǎng)絡(luò)爬蟲研究[J]. 李應(yīng). 軟件導(dǎo)刊. 2016(03)
[3]大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國(guó)杰. 軟件學(xué)報(bào). 2014(09)
[4]國(guó)外搜索引擎評(píng)價(jià)研究綜述[J]. 馬志杰. 圖書館學(xué)研究. 2013(02)
[5]基于泊松過程的爬蟲調(diào)度策略分析[J]. 徐尚瑜. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2009(12)
[6]高性能網(wǎng)絡(luò)爬蟲:研究綜述[J]. 周德懋,李舟軍. 計(jì)算機(jī)科學(xué). 2009(08)
[7]網(wǎng)頁(yè)變化與增量搜集技術(shù)[J]. 孟濤,王繼民,閆宏飛. 軟件學(xué)報(bào). 2006(05)
[8]聚焦爬蟲技術(shù)研究綜述[J]. 周立柱,林玲. 計(jì)算機(jī)應(yīng)用. 2005(09)
[9]搜索引擎技術(shù)及研究[J]. 張興華. 現(xiàn)代情報(bào). 2004(04)
本文編號(hào):3261097
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3261097.html
最近更新
教材專著