天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向電子商務(wù)網(wǎng)站的增量爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-06-05 00:03

  本文關(guān)鍵詞:面向電子商務(wù)網(wǎng)站的增量爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)和電子商務(wù)的快速發(fā)展,電子商務(wù)網(wǎng)站越來(lái)越多,為了盡快的找到和比較商品,越來(lái)越多的人通過(guò)比較購(gòu)物網(wǎng)站來(lái)精準(zhǔn)的搜索和比較商品。在比較購(gòu)物網(wǎng)站中,可以輕松的獲取商品的詳細(xì)信息,如價(jià)格、性能參數(shù)、圖片等信息,還能方便的比較同一商品在不同電子商務(wù)網(wǎng)站的價(jià)格、評(píng)價(jià)等信息,從而選擇合適的電子商務(wù)網(wǎng)站進(jìn)行購(gòu)物。然而,電子商務(wù)網(wǎng)站時(shí)刻都在發(fā)生變化,如商品的新增、刪除以及商品價(jià)格的調(diào)整等。傳統(tǒng)的比較購(gòu)物網(wǎng)站往往存在商品信息滯后,數(shù)據(jù)與電子商務(wù)網(wǎng)站存在較大差異,影響用戶體驗(yàn),不能真正實(shí)現(xiàn)比較購(gòu)物。 為了解決上述問(wèn)題,在比較購(gòu)物網(wǎng)站中需要引入增量爬蟲(chóng)來(lái)實(shí)現(xiàn)數(shù)據(jù)的增量抓取。增量爬蟲(chóng)的特征是維護(hù)網(wǎng)頁(yè)的變化軌跡并預(yù)測(cè)變化時(shí)間,提供待檢查的URL列表。增量爬蟲(chóng)對(duì)電子商務(wù)網(wǎng)站的增量抓取效果,直接影響比較購(gòu)物網(wǎng)站數(shù)據(jù)的準(zhǔn)確性,可以說(shuō)增量抓取技術(shù)的應(yīng)用程度,是整個(gè)比較購(gòu)物網(wǎng)站是否成功的關(guān)鍵。一個(gè)好的增量抓取爬蟲(chóng),可以減少購(gòu)物搜索引擎中人工干預(yù)的程度,提高搜索引擎自身的時(shí)新性、查準(zhǔn)率和查全率,以及有效改善網(wǎng)絡(luò)帶寬的使用效率。 根據(jù)相關(guān)統(tǒng)計(jì)數(shù)據(jù)顯示,國(guó)內(nèi)電子商務(wù)網(wǎng)站的層級(jí)主要分為二級(jí)和三級(jí),基于這一規(guī)律,本文提出了基于URL分類(lèi)的爬行策略,將URL分為Index類(lèi)、Channel類(lèi)、List類(lèi)、Content類(lèi)、其它類(lèi)。其中Index類(lèi)、Channel類(lèi)和List類(lèi)為索引類(lèi)URL,索引類(lèi)URL指向的頁(yè)面不包含具體商品信息,以導(dǎo)航形式指向其它索引頁(yè)或Content內(nèi)容頁(yè),Content類(lèi)指向的頁(yè)面為商品詳細(xì)頁(yè),包含了商品的名稱(chēng)、圖片、價(jià)格、介紹等信息,圖片及其它類(lèi)指向圖片、CSS樣式、附件等文件。同時(shí)設(shè)計(jì)了面向電子商務(wù)網(wǎng)站的抓取模型,對(duì)增量抓取的關(guān)鍵算法進(jìn)行了描述,并在開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)Heritrix的基礎(chǔ)上實(shí)現(xiàn)增量抓取。通過(guò)對(duì)電子商務(wù)網(wǎng)站的抓取實(shí)驗(yàn),表明該增量爬行策略的設(shè)計(jì)能夠及時(shí)有效的發(fā)現(xiàn)電子商務(wù)網(wǎng)站數(shù)據(jù)的更新,實(shí)現(xiàn)增量抓取。
【關(guān)鍵詞】:電子商務(wù) 搜索引擎 增量爬蟲(chóng) Heritrix
【學(xué)位授予單位】:湖南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2010
【分類(lèi)號(hào)】:TP393.092
【目錄】:
  • 摘要5-6
  • Abstract6-9
  • 插圖索引9-10
  • 附表索引10-11
  • 第1章 緒論11-17
  • 1.1 課題研究背景及意義11-12
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-15
  • 1.2.1 國(guó)外研究現(xiàn)狀12-14
  • 1.2.2 國(guó)內(nèi)研究現(xiàn)狀14-15
  • 1.3 本文的研究?jī)?nèi)容15-16
  • 1.4 論文結(jié)構(gòu)16-17
  • 第2章 搜索引擎及網(wǎng)絡(luò)爬蟲(chóng)相關(guān)技術(shù)17-29
  • 2.1 搜索引擎的發(fā)展17-18
  • 2.2 購(gòu)物搜索引擎18-19
  • 2.3 網(wǎng)絡(luò)爬蟲(chóng)19-21
  • 2.3.1 網(wǎng)絡(luò)爬蟲(chóng)的工作原理19-20
  • 2.3.2 網(wǎng)絡(luò)爬蟲(chóng)的搜索策略20-21
  • 2.4 增量抓取技術(shù)21-24
  • 2.5 開(kāi)源網(wǎng)絡(luò)爬蟲(chóng) Heritrix24-27
  • 2.5.1 Heritrix 爬蟲(chóng)的架構(gòu)24-25
  • 2.5.2 抓取任務(wù)控制組件CrawlController25-26
  • 2.5.3 URL 提取組件Frontier26
  • 2.5.4 處理鏈接隊(duì)列Processors26-27
  • 2.5.5 Heritrix 的多線程機(jī)制27
  • 2.6 本章小結(jié)27-29
  • 第3章 網(wǎng)頁(yè)增量抓取策略及爬蟲(chóng)系統(tǒng)設(shè)計(jì)29-42
  • 3.1 電子商務(wù)網(wǎng)站的總體特征29-30
  • 3.2 電子商務(wù)網(wǎng)站的頁(yè)面變化規(guī)律30-31
  • 3.2.1 網(wǎng)頁(yè)變化的特征30
  • 3.2.2 網(wǎng)頁(yè)變化的時(shí)新性30
  • 3.2.3 網(wǎng)頁(yè)變化分析方法30-31
  • 3.3 基于 URL 分類(lèi)的網(wǎng)頁(yè)增量抓取策略31-34
  • 3.3.1 URL 的分類(lèi)31-32
  • 3.3.2 基于 URL 分類(lèi)的網(wǎng)頁(yè)增量抓取策略32-34
  • 3.4 增量爬蟲(chóng)的系統(tǒng)結(jié)構(gòu)34-35
  • 3.5 系統(tǒng)各模塊設(shè)計(jì)35-38
  • 3.5.1 用戶接口模塊35-36
  • 3.5.2 鏈接生成模塊36-37
  • 3.5.3 任務(wù)控制模塊37-38
  • 3.5.4 中央處理器模塊38
  • 3.5.5 數(shù)據(jù)模塊38
  • 3.6 增量抓取的關(guān)鍵技術(shù)38-41
  • 3.6.1 多線程下載38-39
  • 3.6.2 網(wǎng)頁(yè)分析39
  • 3.6.3 頁(yè)面檢測(cè)及更新39-41
  • 3.7 本章小結(jié)41-42
  • 第4章 基于Heritrix 的增量爬蟲(chóng)系統(tǒng)實(shí)現(xiàn)42-55
  • 4.1 開(kāi)發(fā)環(huán)境42
  • 4.2 基于 Heritrix 進(jìn)行擴(kuò)展42-44
  • 4.2.1 Heritrix 的配置和運(yùn)行42-43
  • 4.2.2 Eclipse 中 Heritrix 的配置43-44
  • 4.3 增量抓取功能的實(shí)現(xiàn)44-46
  • 4.3.1 頁(yè)面的變化檢測(cè)44-45
  • 4.3.2 頁(yè)面更新的實(shí)現(xiàn)45-46
  • 4.4 針對(duì)電子商務(wù)網(wǎng)站頁(yè)面分析技術(shù)實(shí)現(xiàn)46-49
  • 4.4.1 從列表頁(yè)獲取產(chǎn)品詳細(xì)頁(yè)的實(shí)現(xiàn)46-47
  • 4.4.2 產(chǎn)品信息抽取的實(shí)現(xiàn)47-49
  • 4.5 URL 的過(guò)濾和分類(lèi)49-51
  • 4.5.1 URL 過(guò)濾規(guī)則的實(shí)現(xiàn)49-50
  • 4.5.2 URL 的分類(lèi)實(shí)現(xiàn)50-51
  • 4.6 實(shí)驗(yàn)及結(jié)果分析51-54
  • 4.7 本章小結(jié)54-55
  • 結(jié)論與展望55-57
  • 參考文獻(xiàn)57-61
  • 致謝61-62
  • 附錄A 作者攻讀碩士學(xué)位期間的主要研究成果62

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 雷鳴,王建勇,趙江華,單松巍,陳葆玨;第三代搜索引擎與天網(wǎng)二期[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年05期

2 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J];電子學(xué)報(bào);2002年S1期

3 沈文勤,李慶超,邵志清;搜索引擎的漸增式爬行和備份式更新模式[J];華東理工大學(xué)學(xué)報(bào);2004年03期

4 文坤梅,盧正鼎,葉衛(wèi)國(guó),金莉;搜索引擎中頁(yè)面更新策略的分析與改進(jìn)[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年12期

5 李盛韜,成綾,余智華;分布式Web信息采集系統(tǒng)的研究與設(shè)計(jì)[J];計(jì)算機(jī)工程與應(yīng)用;2003年16期

6 李盛韜;余智華;程學(xué)旗;白碩;;Web信息采集研究進(jìn)展[J];計(jì)算機(jī)科學(xué);2003年02期

7 歐陽(yáng)柳波,李學(xué)勇,李國(guó)徽,王鑫;專(zhuān)業(yè)搜索引擎搜索策略綜述[J];計(jì)算機(jī)工程;2004年13期

8 孟祥乾;葉允明;鄧斌;;基于流水線負(fù)載平衡模型的并行爬蟲(chóng)研究[J];計(jì)算機(jī)工程;2009年02期

9 李效東,顧毓清;基于DOM的Web信息提取[J];計(jì)算機(jī)學(xué)報(bào);2002年05期

10 徐文杰;陳慶奎;;增量更新并行W eb爬蟲(chóng)系統(tǒng)[J];計(jì)算機(jī)應(yīng)用;2009年04期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 薛宇星;基于Herixtrix和Lucene的Web站內(nèi)搜索系統(tǒng)[D];西安電子科技大學(xué);2008年


  本文關(guān)鍵詞:面向電子商務(wù)網(wǎng)站的增量爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。

,

本文編號(hào):422431

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/422431.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶560b1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com