面向電子商務(wù)網(wǎng)站的增量爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:面向電子商務(wù)網(wǎng)站的增量爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)和電子商務(wù)的快速發(fā)展,電子商務(wù)網(wǎng)站越來(lái)越多,為了盡快的找到和比較商品,越來(lái)越多的人通過(guò)比較購(gòu)物網(wǎng)站來(lái)精準(zhǔn)的搜索和比較商品。在比較購(gòu)物網(wǎng)站中,可以輕松的獲取商品的詳細(xì)信息,如價(jià)格、性能參數(shù)、圖片等信息,還能方便的比較同一商品在不同電子商務(wù)網(wǎng)站的價(jià)格、評(píng)價(jià)等信息,從而選擇合適的電子商務(wù)網(wǎng)站進(jìn)行購(gòu)物。然而,電子商務(wù)網(wǎng)站時(shí)刻都在發(fā)生變化,如商品的新增、刪除以及商品價(jià)格的調(diào)整等。傳統(tǒng)的比較購(gòu)物網(wǎng)站往往存在商品信息滯后,數(shù)據(jù)與電子商務(wù)網(wǎng)站存在較大差異,影響用戶體驗(yàn),不能真正實(shí)現(xiàn)比較購(gòu)物。 為了解決上述問(wèn)題,在比較購(gòu)物網(wǎng)站中需要引入增量爬蟲(chóng)來(lái)實(shí)現(xiàn)數(shù)據(jù)的增量抓取。增量爬蟲(chóng)的特征是維護(hù)網(wǎng)頁(yè)的變化軌跡并預(yù)測(cè)變化時(shí)間,提供待檢查的URL列表。增量爬蟲(chóng)對(duì)電子商務(wù)網(wǎng)站的增量抓取效果,直接影響比較購(gòu)物網(wǎng)站數(shù)據(jù)的準(zhǔn)確性,可以說(shuō)增量抓取技術(shù)的應(yīng)用程度,是整個(gè)比較購(gòu)物網(wǎng)站是否成功的關(guān)鍵。一個(gè)好的增量抓取爬蟲(chóng),可以減少購(gòu)物搜索引擎中人工干預(yù)的程度,提高搜索引擎自身的時(shí)新性、查準(zhǔn)率和查全率,以及有效改善網(wǎng)絡(luò)帶寬的使用效率。 根據(jù)相關(guān)統(tǒng)計(jì)數(shù)據(jù)顯示,國(guó)內(nèi)電子商務(wù)網(wǎng)站的層級(jí)主要分為二級(jí)和三級(jí),基于這一規(guī)律,本文提出了基于URL分類(lèi)的爬行策略,將URL分為Index類(lèi)、Channel類(lèi)、List類(lèi)、Content類(lèi)、其它類(lèi)。其中Index類(lèi)、Channel類(lèi)和List類(lèi)為索引類(lèi)URL,索引類(lèi)URL指向的頁(yè)面不包含具體商品信息,以導(dǎo)航形式指向其它索引頁(yè)或Content內(nèi)容頁(yè),Content類(lèi)指向的頁(yè)面為商品詳細(xì)頁(yè),包含了商品的名稱(chēng)、圖片、價(jià)格、介紹等信息,圖片及其它類(lèi)指向圖片、CSS樣式、附件等文件。同時(shí)設(shè)計(jì)了面向電子商務(wù)網(wǎng)站的抓取模型,對(duì)增量抓取的關(guān)鍵算法進(jìn)行了描述,并在開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)Heritrix的基礎(chǔ)上實(shí)現(xiàn)增量抓取。通過(guò)對(duì)電子商務(wù)網(wǎng)站的抓取實(shí)驗(yàn),表明該增量爬行策略的設(shè)計(jì)能夠及時(shí)有效的發(fā)現(xiàn)電子商務(wù)網(wǎng)站數(shù)據(jù)的更新,實(shí)現(xiàn)增量抓取。
【關(guān)鍵詞】:電子商務(wù) 搜索引擎 增量爬蟲(chóng) Heritrix
【學(xué)位授予單位】:湖南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2010
【分類(lèi)號(hào)】:TP393.092
【目錄】:
- 摘要5-6
- Abstract6-9
- 插圖索引9-10
- 附表索引10-11
- 第1章 緒論11-17
- 1.1 課題研究背景及意義11-12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-15
- 1.2.1 國(guó)外研究現(xiàn)狀12-14
- 1.2.2 國(guó)內(nèi)研究現(xiàn)狀14-15
- 1.3 本文的研究?jī)?nèi)容15-16
- 1.4 論文結(jié)構(gòu)16-17
- 第2章 搜索引擎及網(wǎng)絡(luò)爬蟲(chóng)相關(guān)技術(shù)17-29
- 2.1 搜索引擎的發(fā)展17-18
- 2.2 購(gòu)物搜索引擎18-19
- 2.3 網(wǎng)絡(luò)爬蟲(chóng)19-21
- 2.3.1 網(wǎng)絡(luò)爬蟲(chóng)的工作原理19-20
- 2.3.2 網(wǎng)絡(luò)爬蟲(chóng)的搜索策略20-21
- 2.4 增量抓取技術(shù)21-24
- 2.5 開(kāi)源網(wǎng)絡(luò)爬蟲(chóng) Heritrix24-27
- 2.5.1 Heritrix 爬蟲(chóng)的架構(gòu)24-25
- 2.5.2 抓取任務(wù)控制組件CrawlController25-26
- 2.5.3 URL 提取組件Frontier26
- 2.5.4 處理鏈接隊(duì)列Processors26-27
- 2.5.5 Heritrix 的多線程機(jī)制27
- 2.6 本章小結(jié)27-29
- 第3章 網(wǎng)頁(yè)增量抓取策略及爬蟲(chóng)系統(tǒng)設(shè)計(jì)29-42
- 3.1 電子商務(wù)網(wǎng)站的總體特征29-30
- 3.2 電子商務(wù)網(wǎng)站的頁(yè)面變化規(guī)律30-31
- 3.2.1 網(wǎng)頁(yè)變化的特征30
- 3.2.2 網(wǎng)頁(yè)變化的時(shí)新性30
- 3.2.3 網(wǎng)頁(yè)變化分析方法30-31
- 3.3 基于 URL 分類(lèi)的網(wǎng)頁(yè)增量抓取策略31-34
- 3.3.1 URL 的分類(lèi)31-32
- 3.3.2 基于 URL 分類(lèi)的網(wǎng)頁(yè)增量抓取策略32-34
- 3.4 增量爬蟲(chóng)的系統(tǒng)結(jié)構(gòu)34-35
- 3.5 系統(tǒng)各模塊設(shè)計(jì)35-38
- 3.5.1 用戶接口模塊35-36
- 3.5.2 鏈接生成模塊36-37
- 3.5.3 任務(wù)控制模塊37-38
- 3.5.4 中央處理器模塊38
- 3.5.5 數(shù)據(jù)模塊38
- 3.6 增量抓取的關(guān)鍵技術(shù)38-41
- 3.6.1 多線程下載38-39
- 3.6.2 網(wǎng)頁(yè)分析39
- 3.6.3 頁(yè)面檢測(cè)及更新39-41
- 3.7 本章小結(jié)41-42
- 第4章 基于Heritrix 的增量爬蟲(chóng)系統(tǒng)實(shí)現(xiàn)42-55
- 4.1 開(kāi)發(fā)環(huán)境42
- 4.2 基于 Heritrix 進(jìn)行擴(kuò)展42-44
- 4.2.1 Heritrix 的配置和運(yùn)行42-43
- 4.2.2 Eclipse 中 Heritrix 的配置43-44
- 4.3 增量抓取功能的實(shí)現(xiàn)44-46
- 4.3.1 頁(yè)面的變化檢測(cè)44-45
- 4.3.2 頁(yè)面更新的實(shí)現(xiàn)45-46
- 4.4 針對(duì)電子商務(wù)網(wǎng)站頁(yè)面分析技術(shù)實(shí)現(xiàn)46-49
- 4.4.1 從列表頁(yè)獲取產(chǎn)品詳細(xì)頁(yè)的實(shí)現(xiàn)46-47
- 4.4.2 產(chǎn)品信息抽取的實(shí)現(xiàn)47-49
- 4.5 URL 的過(guò)濾和分類(lèi)49-51
- 4.5.1 URL 過(guò)濾規(guī)則的實(shí)現(xiàn)49-50
- 4.5.2 URL 的分類(lèi)實(shí)現(xiàn)50-51
- 4.6 實(shí)驗(yàn)及結(jié)果分析51-54
- 4.7 本章小結(jié)54-55
- 結(jié)論與展望55-57
- 參考文獻(xiàn)57-61
- 致謝61-62
- 附錄A 作者攻讀碩士學(xué)位期間的主要研究成果62
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 雷鳴,王建勇,趙江華,單松巍,陳葆玨;第三代搜索引擎與天網(wǎng)二期[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年05期
2 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J];電子學(xué)報(bào);2002年S1期
3 沈文勤,李慶超,邵志清;搜索引擎的漸增式爬行和備份式更新模式[J];華東理工大學(xué)學(xué)報(bào);2004年03期
4 文坤梅,盧正鼎,葉衛(wèi)國(guó),金莉;搜索引擎中頁(yè)面更新策略的分析與改進(jìn)[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年12期
5 李盛韜,成綾,余智華;分布式Web信息采集系統(tǒng)的研究與設(shè)計(jì)[J];計(jì)算機(jī)工程與應(yīng)用;2003年16期
6 李盛韜;余智華;程學(xué)旗;白碩;;Web信息采集研究進(jìn)展[J];計(jì)算機(jī)科學(xué);2003年02期
7 歐陽(yáng)柳波,李學(xué)勇,李國(guó)徽,王鑫;專(zhuān)業(yè)搜索引擎搜索策略綜述[J];計(jì)算機(jī)工程;2004年13期
8 孟祥乾;葉允明;鄧斌;;基于流水線負(fù)載平衡模型的并行爬蟲(chóng)研究[J];計(jì)算機(jī)工程;2009年02期
9 李效東,顧毓清;基于DOM的Web信息提取[J];計(jì)算機(jī)學(xué)報(bào);2002年05期
10 徐文杰;陳慶奎;;增量更新并行W eb爬蟲(chóng)系統(tǒng)[J];計(jì)算機(jī)應(yīng)用;2009年04期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 薛宇星;基于Herixtrix和Lucene的Web站內(nèi)搜索系統(tǒng)[D];西安電子科技大學(xué);2008年
本文關(guān)鍵詞:面向電子商務(wù)網(wǎng)站的增量爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號(hào):422431
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/422431.html