天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于分布式的商品信息網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2019-11-20 17:59
【摘要】:自1989年World Wide Web誕生以來,電子商務(wù)伴隨著互聯(lián)網(wǎng)的普及而獲得高速發(fā)展,它不僅有力地推動經(jīng)濟全球化,還極大地改變了人們的生活方式。在電子商務(wù)網(wǎng)站發(fā)展過程中,不僅商品種類豐富化,網(wǎng)購形式也呈現(xiàn)出多樣化,如B2C、C2C以及團購、尾品。在移動終端多樣化的背景下,面對眾多選擇,,如何幫助、引導(dǎo)用戶購物,是一個值得深入研究的課題。設(shè)計實現(xiàn)一個分布式商品信息爬蟲系統(tǒng)可以爬取各購物網(wǎng)站的商品信息,進而為以圖搜商品的導(dǎo)購網(wǎng)站或比價網(wǎng)站提供商品數(shù)據(jù),從而達到幫助用戶購物的目的。 首先介紹了網(wǎng)絡(luò)爬蟲涉及的相關(guān)技術(shù),然后在此基礎(chǔ)上結(jié)合購物網(wǎng)站以及商品網(wǎng)頁的特點,重點研究了爬行策略、網(wǎng)頁解析和爬蟲系統(tǒng)穩(wěn)定性這三個方面。在爬行策略上,對比分析了現(xiàn)有爬行策略的優(yōu)缺點,提出一種基于廣度優(yōu)先的改進爬行策略,通過對URL分類并賦予權(quán)值,將原有的URL隊列替換為優(yōu)先級隊列,使得爬蟲爬取目標更有針對性,以此提高爬行效率。對于網(wǎng)頁解析,針對網(wǎng)頁使用JavaScript技術(shù)導(dǎo)致部分商品信息無法提取,提出兩種解決方案。一種是通過爬取URL對應(yīng)的移動端網(wǎng)頁獲取商品信息,另一種是通過模擬瀏覽器訪問網(wǎng)頁,獲取網(wǎng)頁上包括JavaScript加載的數(shù)據(jù)后再做進一步解析,從而獲取到完整的商品信息。針對爬蟲運行在復(fù)雜的網(wǎng)絡(luò)環(huán)境中這一情況,系統(tǒng)從線程檢測重啟、中心節(jié)點信息備份以及爬蟲增量爬行這三個方面提高穩(wěn)定性和容災(zāi)性。 通過對分布式商品信息網(wǎng)絡(luò)爬蟲系統(tǒng)運行測試,驗證了系統(tǒng)的分布式架構(gòu)的可行性和高效性。測試結(jié)果顯示,對各購物網(wǎng)站目標商品的爬取正確率均在99%以上,改進的爬行策略對爬行效率的提升也得到驗證。
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1;TP393.092

【相似文獻】

相關(guān)期刊論文 前10條

1 戚欣;;基于本體的主題網(wǎng)絡(luò)爬蟲設(shè)計[J];武漢理工大學(xué)學(xué)報;2009年03期

2 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲[J];硅谷;2009年04期

3 王江紅;朱麗君;李彩虹;;一種新型網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];微計算機信息;2010年03期

4 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期

5 楊靖韜;陳會果;;對網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];科技創(chuàng)業(yè)月刊;2010年10期

6 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報;2011年03期

7 李志義;;網(wǎng)絡(luò)爬蟲的優(yōu)化策略探略[J];現(xiàn)代情報;2011年10期

8 焦賽美;;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];瓊州學(xué)院學(xué)報;2011年05期

9 宋海洋;劉曉然;錢?;;一種新的主題網(wǎng)絡(luò)爬蟲爬行策略[J];計算機應(yīng)用與軟件;2011年11期

10 王娟;吳金鵬;;網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];軟件導(dǎo)刊;2012年04期

相關(guān)會議論文 前4條

1 夏詔杰;郭力;李曉霞;;化學(xué)主題網(wǎng)絡(luò)爬蟲的研究[A];第十屆全國計算(機)化學(xué)學(xué)術(shù)會議論文摘要集[C];2009年

2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年

3 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

4 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2010年

相關(guān)碩士學(xué)位論文 前10條

1 陶俊文;基于Heritrix框架的專業(yè)鎮(zhèn)信息網(wǎng)絡(luò)爬蟲系統(tǒng)[D];華南理工大學(xué);2015年

2 馬漢超;基于主題網(wǎng)絡(luò)爬蟲的汽車行業(yè)多元信息web系統(tǒng)設(shè)計與實現(xiàn)[D];西南交通大學(xué);2015年

3 李威;基于交通流量圖的交通信息提取技術(shù)研究[D];長安大學(xué);2015年

4 朱嶸良;分布式并行環(huán)境下的網(wǎng)絡(luò)爬蟲研究[D];中央民族大學(xué);2015年

5 周思華;股票系統(tǒng)之熱門話題發(fā)現(xiàn)子系統(tǒng)的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年

6 丁杰;基于網(wǎng)絡(luò)爬蟲的虛假網(wǎng)頁主動智能檢測[D];華北電力大學(xué);2015年

7 唐華棟;網(wǎng)頁防抓取系統(tǒng)的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年

8 白劍飛;基于層次主題模型的網(wǎng)絡(luò)新聞匯聚[D];浙江大學(xué);2015年

9 袁野;企業(yè)內(nèi)網(wǎng)搜索引擎關(guān)鍵技術(shù)研究與實現(xiàn)[D];電子科技大學(xué);2014年

10 滕以芳;基于本體的多媒體素材網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D];吉林大學(xué);2015年



本文編號:2563651

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2563651.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cb74a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com