天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于時(shí)效性的爬蟲調(diào)度

發(fā)布時(shí)間:2021-07-02 19:39
  搜索引擎作為互聯(lián)網(wǎng)信息獲取的入口,實(shí)現(xiàn)高效、準(zhǔn)確的信息獲取非常重要,爬蟲作為搜索引擎的上游,其重要性不言而喻,特別是大數(shù)據(jù)時(shí)代信息更新頻繁,如何在第一時(shí)間獲取新聞是實(shí)現(xiàn)爬蟲時(shí)效性的重要因素。為了充分利用有限資源,提升帶寬利用率,設(shè)計(jì)一種基于歷史數(shù)據(jù)預(yù)測(cè)的爬蟲調(diào)度算法。該算法通過抓取網(wǎng)站歷史,更新頻次積累數(shù)據(jù),使用隨機(jī)森林回歸建立模型,并在系統(tǒng)中實(shí)現(xiàn)爬蟲調(diào)度。實(shí)驗(yàn)結(jié)果表明,該策略在抓取新鏈的命中率上提升了46%,平均成本降低了11%,平均抓取延時(shí)降低了14%。 

【文章來(lái)源】:軟件導(dǎo)刊. 2020,19(01)

【文章頁(yè)數(shù)】:5 頁(yè)

【部分圖文】:

基于時(shí)效性的爬蟲調(diào)度


爬蟲基本架構(gòu)

流程圖,時(shí)效性,調(diào)度算法,流程


互聯(lián)網(wǎng)信息更新很頻繁,對(duì)于網(wǎng)頁(yè)更新的變化規(guī)律,可以通過歷史數(shù)據(jù)挖掘得來(lái)。該算法流程如圖2所示。整個(gè)算法分為4個(gè)部分:(1)歷史數(shù)據(jù)積累;(2)抽取發(fā)布時(shí)間;(3)對(duì)歷史數(shù)據(jù)建模;(4)應(yīng)用調(diào)度模塊。詳細(xì)過程如下:

流程圖,算法,流程,頁(yè)面


(2)抽取網(wǎng)頁(yè)發(fā)布時(shí)間。爬蟲系統(tǒng)在運(yùn)行一定時(shí)間后,會(huì)累積下大量網(wǎng)頁(yè)數(shù)據(jù),其中正文頁(yè)面通常會(huì)有文章發(fā)布時(shí)間,即使沒有,也能通過算法計(jì)算出大概文章時(shí)間。設(shè)正文頁(yè)面的父頁(yè)面上次調(diào)度時(shí)間為Tlast,本次調(diào)度時(shí)間為Tnow,頁(yè)面發(fā)布時(shí)間Tpage,可以得出結(jié)論如果Tlast不存在,說明頁(yè)面的父頁(yè)面是首次調(diào)度,不能確認(rèn)該頁(yè)面出現(xiàn)時(shí)間。如果Tnow-Tlast<1h,則可以把文章發(fā)布時(shí)間約等于兩次調(diào)度的中間值。提取發(fā)布時(shí)間算法流程如圖3所示。(3)歷史數(shù)據(jù)建模。網(wǎng)頁(yè)包含發(fā)布時(shí)間后,即可把同一個(gè)種子頁(yè)面擴(kuò)散出去的頁(yè)面聚類在一起,根據(jù)每個(gè)聚類的組,通過隨機(jī)森林回歸進(jìn)行建模,得到種子頁(yè)面時(shí)效性模型。其中未能抽取出發(fā)布時(shí)間的頁(yè)面和數(shù)量過小,不進(jìn)行模型構(gòu)建。

【參考文獻(xiàn)】:
期刊論文
[1]基于Python的專業(yè)網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 姜杉彪,黃凱林,盧昱江,張俊杰,曾志高,劉強(qiáng).  企業(yè)科技與發(fā)展. 2016(08)
[2]基于Hadoop的分布式主題網(wǎng)絡(luò)爬蟲研究[J]. 李應(yīng).  軟件導(dǎo)刊. 2016(03)
[3]大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國(guó)杰.  軟件學(xué)報(bào). 2014(09)
[4]國(guó)外搜索引擎評(píng)價(jià)研究綜述[J]. 馬志杰.  圖書館學(xué)研究. 2013(02)
[5]基于泊松過程的爬蟲調(diào)度策略分析[J]. 徐尚瑜.  現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2009(12)
[6]高性能網(wǎng)絡(luò)爬蟲:研究綜述[J]. 周德懋,李舟軍.  計(jì)算機(jī)科學(xué). 2009(08)
[7]網(wǎng)頁(yè)變化與增量搜集技術(shù)[J]. 孟濤,王繼民,閆宏飛.  軟件學(xué)報(bào). 2006(05)
[8]聚焦爬蟲技術(shù)研究綜述[J]. 周立柱,林玲.  計(jì)算機(jī)應(yīng)用. 2005(09)
[9]搜索引擎技術(shù)及研究[J]. 張興華.  現(xiàn)代情報(bào). 2004(04)



本文編號(hào):3261097

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3261097.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶612a4***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
欧美日韩国产精品第五页| 国产欧美日韩在线精品一二区| 男人和女人黄 色大片| 麻豆91成人国产在线观看| 日韩精品综合福利在线观看| 成人免费观看视频免费| 国产精品二区三区免费播放心| 久久综合狠狠综合久久综合| 亚洲欧美国产精品一区二区| 亚洲精品中文字幕无限乱码| av在线免费观看在线免费观看| 欧美区一区二在线播放| 国产精品第一香蕉视频| 一区二区福利在线视频| 中文字幕精品一区二区年下载| 亚洲欧美日韩国产综合在线| 千仞雪下面好爽好紧好湿全文| 亚洲综合天堂一二三区| 国产一区二区久久综合| 国产欧美日韩精品一区二区| 老司机激情五月天在线不卡| 日韩熟妇人妻一区二区三区| 伊人久久青草地婷婷综合| 99视频精品免费视频| 不卡中文字幕在线免费看| 国产午夜福利在线观看精品| 中文字幕日韩无套内射| 91蜜臀精品一区二区三区| 欧洲一区二区三区蜜桃| 不卡免费成人日韩精品| 日本少妇中文字幕不卡视频| 成人精品欧美一级乱黄| 超薄丝袜足一区二区三区| 久久99夜色精品噜噜亚洲av| 亚洲av日韩一区二区三区四区| 一区二区三区四区亚洲专区| 青青操视频在线观看国产| 国产精品成人免费精品自在线观看| 亚洲专区一区中文字幕| 久久热麻豆国产精品视频| 亚洲妇女黄色三级视频|