天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于蟻群算法的分布式爬蟲技術(shù)研究及應用

發(fā)布時間:2020-07-03 10:58
【摘要】:伴隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展以及人們生活水平的不斷提升,在線電子商務(wù)進入蓬勃發(fā)展的階段,從而促使多種在線購物平臺的出現(xiàn)。近年來隨著以京東商城和天貓商城為代表的B2C購物模式的迅速發(fā)展,與日俱增的業(yè)務(wù)量和信息量給企業(yè)的發(fā)展和用戶的選擇帶來了巨大的困擾。如何利用搜索引擎技術(shù)獲取這些海量的數(shù)據(jù)?如何從海量消費數(shù)據(jù)中挖掘客戶的真實需求?這些問題成為目前電商領(lǐng)域研究的熱點和難點。因此,運用爬蟲技術(shù)以及數(shù)據(jù)驅(qū)動模式精準挖掘客戶的消費偏好,是B2C購物網(wǎng)站達成精準營銷目的的重要保障。但隨著互聯(lián)網(wǎng)中信息量日益增多以及網(wǎng)絡(luò)反爬蟲技術(shù)革新,傳統(tǒng)爬蟲技術(shù)逐漸難以滿足海量數(shù)據(jù)采集的需求,其局限性日益突出:一是傳統(tǒng)爬蟲無法完成海量商品數(shù)據(jù)采集的任務(wù);二是傳統(tǒng)爬蟲缺乏“啟發(fā)性”,很難繞過人機交互以及指紋驗證等爬蟲阻攔;三是傳統(tǒng)爬蟲采集速度慢,運行時間過長。這些問題嚴重影響了數(shù)據(jù)挖掘的研究,這時便產(chǎn)生了基于蟻群算法的分布式爬蟲技術(shù),它被作為解決傳統(tǒng)爬蟲缺乏“啟發(fā)性”的一種潛在方案而投入研究使用。本文圍繞電商平臺網(wǎng)站,對數(shù)據(jù)采集和網(wǎng)絡(luò)反爬蟲進行了研究和探索。首先,介紹搜索引擎的基礎(chǔ)理論、網(wǎng)絡(luò)爬蟲基本原理、蟻群算法理論、分布式爬蟲技術(shù)、反爬蟲技術(shù)和驗證碼識別技術(shù),引出分布式爬蟲模型;隨后,對分布式爬蟲模型中的Scrapy-Redis模型進行了研究;接著,對蟻群算法模型以及驗證碼識別模型進行了著重研究,提出了基于蟻群算法的分布式爬蟲,并對蟻群算法指導分布式爬蟲的相關(guān)理論進行了深入分析,從爬蟲運行日志信息中挖掘出電商平臺反爬蟲的回調(diào)地址與特征,并將這些重要信息加以利用從而能“啟發(fā)性”的指導傳統(tǒng)爬蟲;最后,利用Python實現(xiàn)基于蟻群算法的分布式爬蟲采集系統(tǒng),完成對電商數(shù)據(jù)的挖掘。通過對基于蟻群算法的分布式爬蟲和傳統(tǒng)爬蟲兩者不同點的研究,發(fā)現(xiàn)目前傳統(tǒng)爬蟲對電商網(wǎng)站中信息資源的整體分布是未知的,不能很好地預測爬行方向和解決爬蟲陷阱。通過研究數(shù)據(jù)得出結(jié)論證明,基于蟻群算法的分布式爬蟲技術(shù)能夠更好地指導傳統(tǒng)爬蟲。
【學位授予單位】:江蘇科技大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:F713.36;F274;TP18;TP311.13

【相似文獻】

相關(guān)期刊論文 前10條

1 何準;潘華;;加強經(jīng)管學科中算法分析與設(shè)計教學的建議[J];知識經(jīng)濟;2019年34期

2 楊彥紅;;算法分析與設(shè)計(雙語)課程實踐教學模式探索[J];中國管理信息化;2017年19期

3 李紹靜;許海洋;呂建波;;應用型人才培養(yǎng)中《算法分析與設(shè)計》課程教學方法研究[J];科技資訊;2017年04期

4 劉子旋;;中國古代算法的探究與模型建立[J];中華少年;2017年04期

5 曹千秋;;求離散點最小包圍圓在算法初步教學中的案例分析[J];中華少年;2017年11期

6 郭亞玲;;算法初步的幾個著力點[J];高中生學習(試題研究);2017年09期

7 楊波;肖自碧;;信息與計算科學專業(yè)“算法分析與設(shè)計”研究性教學探索[J];中國電力教育;2013年01期

8 鄭大偉;董大南;;自回歸譜估計的Marple算法及其在天文資料分析中的應用[J];天文學報;1987年04期

9 鄭卓嘉,吳佑壽,李叔梁;計算機三維逼真圖形顯示的一種改進算法[J];計算機學報;1988年01期

10 廖先n\;趙先銘;張赤紅;;分布式計算機系統(tǒng)容錯互斥算法[J];計算機研究與發(fā)展;1988年07期

相關(guān)會議論文 前10條

1 唐乾玉;陳翰馥;;用擾動分析的優(yōu)化算法的收斂性——PARMSR算法分析[A];1993年控制理論及其應用年會論文集[C];1993年

2 劉遠新;鄧飛其;羅艷輝;舒添慧;;ERP柔性平臺下物流運輸配送系統(tǒng)算法分析[A];第二十六屆中國控制會議論文集[C];2007年

3 王巍;楊武;張樂君;鄭軍;;支持網(wǎng)絡(luò)話題管理的文本挖掘算法分析[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(下冊)[C];2007年

4 王曉剛;王耀興;;RIM算法分析及優(yōu)化方案[A];2016山西省通信學會學術(shù)年會論文集[C];2016年

5 馬興;羅恒;魯建壯;;ECC校驗的算法分析與設(shè)計實現(xiàn)[A];第十八屆計算機工程與工藝年會暨第四屆微處理器技術(shù)論壇論文集[C];2014年

6 李海亮;趙轉(zhuǎn)萍;;用于圓檢測的Hough變換和改進算法分析[A];江蘇省計量測試學會2005年論文集[C];2005年

7 董濱;趙慶衛(wèi);顏永紅;;發(fā)音質(zhì)量自動評估的現(xiàn)有算法分析[A];第八屆全國人機語音通訊學術(shù)會議論文集[C];2005年

8 宋欣;王娟;張斌;葉世偉;;流形學習算法分析及在人臉數(shù)據(jù)庫上的應用[A];2008年全國開放式分布與并行計算機學術(shù)會議論文集(上冊)[C];2008年

9 劉博;;搜索競價排名算法分析[A];中國通信學會第五屆學術(shù)年會論文集[C];2008年

10 葛云生;;干涉型光纖傳感器的正交解調(diào)算法分析[A];第三屆全國虛擬儀器大會論文集[C];2008年

相關(guān)重要報紙文章 前3條

1 本報記者 李新玲;《算法帝國》預測機器可能統(tǒng)治世界[N];中國青年報;2014年

2 科文;VIXD算法分析Web異常[N];中國計算機報;2008年

3 本報記者 宋豪新 常碧羅;新算法讓孩子更好學[N];人民日報;2019年

相關(guān)博士學位論文 前10條

1 蘇敏;無條件穩(wěn)定的LOD-FDTD算法研究[D];國防科學技術(shù)大學;2016年

2 呂翠翠;基于壓縮感知的無線傳感器網(wǎng)絡(luò)數(shù)據(jù)采集算法研究[D];哈爾濱工業(yè)大學;2017年

3 康嵐蘭;粒子群優(yōu)化算法若干改進策略及其機理分析[D];武漢大學;2017年

4 盧思超;食品冷鏈運輸相關(guān)優(yōu)化模型及算法研究[D];北京交通大學;2018年

5 候盈男;基于多組學數(shù)據(jù)的腫瘤信息挖掘算法研究[D];山東大學;2019年

6 付鈺;面向物聯(lián)網(wǎng)的RFID標簽識別算法研究[D];吉林大學;2018年

7 謝剛;免疫思維進化算法及其工程應用[D];太原理工大學;2006年

8 于濱;城市公交系統(tǒng)模型與算法研究[D];大連理工大學;2006年

9 陳耿;面向中觀審計的規(guī)則發(fā)現(xiàn)算法研究[D];東南大學;2005年

10 李寧;粒子群優(yōu)化算法的理論分析與應用研究[D];華中科技大學;2006年

相關(guān)碩士學位論文 前10條

1 王梓權(quán);基于局部擴張的復雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法研究[D];重慶郵電大學;2019年

2 劉委青;帶無人機協(xié)助運輸?shù)陌哆f優(yōu)化算法的研究及其實現(xiàn)[D];哈爾濱工業(yè)大學;2019年

3 許玲;改進的K-means算法研究與實現(xiàn)[D];安徽大學;2019年

4 黃寶瑩;群組角色協(xié)同樹形約束指派算法及其優(yōu)化[D];廣東工業(yè)大學;2019年

5 張蕾;基于指數(shù)退避的Gossip算法研究[D];南京郵電大學;2019年

6 蘭小明;一種高效的復雜網(wǎng)絡(luò)重疊社團挖掘算法[D];西安電子科技大學;2019年

7 胡世昌;Apriori算法的研究與改進[D];青島大學;2019年

8 朱曉輝;基于分布式壓縮感知及線性簡化的軌跡壓縮算法研究[D];上海交通大學;2017年

9 程璇;改進的FCM算法及其應用研究[D];山東科技大學;2018年

10 張冬冬;基于蟻群算法的分布式爬蟲技術(shù)研究及應用[D];江蘇科技大學;2019年



本文編號:2739570

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2739570.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0406f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com