基于網(wǎng)絡(luò)爬蟲的搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-10-24 03:00
隨著信息量的增多,為用戶提供便捷的搜索服務(wù)也更加具有挑戰(zhàn)性。大規(guī)模存儲(chǔ)信息并精確搜索的代價(jià)是巨大的,人們需要在信息搜索的快捷性與成本中找到平衡。系統(tǒng)實(shí)現(xiàn)一個(gè)基于網(wǎng)絡(luò)爬蟲的搜索引擎。軟件結(jié)構(gòu)分為爬蟲部分,數(shù)據(jù)庫部分,前端顯示部分。同時(shí),描述了擴(kuò)展成分布式爬蟲的方法。硬件方面需要多臺(tái)主機(jī),軟件方面包括Scrapy爬蟲、數(shù)據(jù)庫、Django框架。最終設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)具有良好的健壯性和擴(kuò)展性的網(wǎng)絡(luò)爬蟲系統(tǒng)。
【文章來源】:電腦知識(shí)與技術(shù). 2020,16(30)
【文章頁數(shù)】:5 頁
【部分圖文】:
系統(tǒng)結(jié)構(gòu)設(shè)計(jì)圖
信息抓取流程圖
(3)模擬登錄的設(shè)計(jì):部分網(wǎng)站需要進(jìn)行登錄才能訪問網(wǎng)站信息,同時(shí)登錄過程中可能會(huì)需要輸入驗(yàn)證碼。對(duì)于針對(duì)這一部分網(wǎng)站,首先在CMD中啟動(dòng)遠(yuǎn)程調(diào)試打開瀏覽器防止識(shí)別出Web Driver。加載瀏覽器驅(qū)動(dòng)啟動(dòng)瀏覽器。最大化界面并定位輸入框與按鈕,在登錄界面使用選擇器定位登陸元素和查找用戶名密碼輸入框,使用Selenium自動(dòng)輸入預(yù)設(shè)信息并登錄[5]。最后,如果在網(wǎng)頁上找到對(duì)應(yīng)信息則判斷登陸成功。具體登錄流程如下:(4)Cookie池的設(shè)計(jì):Cookie用于表示用戶身份,服務(wù)器根據(jù)Cookie來識(shí)別用戶身份。使用Cookie可以減少爬蟲頻繁需要登錄的問題[6]。本系統(tǒng)對(duì)各個(gè)網(wǎng)站建立對(duì)應(yīng)的Coookie池,登陸成功后使用pickle.dump方法將Cookie保存在本地。同時(shí)通過使用Cookie登錄網(wǎng)站來檢測Cookie是否有效。
【參考文獻(xiàn)】:
期刊論文
[1]現(xiàn)代瀏覽器中Cookie同源策略測試框架的設(shè)計(jì)與實(shí)現(xiàn)[J]. 梁浩喆,馬進(jìn),陳秀真,楊瀟. 通信技術(shù). 2019(12)
[2]基于Selenium+Python的高校統(tǒng)一身份認(rèn)證自動(dòng)化驗(yàn)收測試技術(shù)研究[J]. 馮興利,洪丹丹,羅軍鋒,鎖志海. 現(xiàn)代電子技術(shù). 2019(22)
[3]基于Scrapy框架的分布式爬蟲設(shè)計(jì)與實(shí)現(xiàn)[J]. 王芳,張睿,宮海瑞. 信息技術(shù). 2019(03)
[4]基于Python的反反爬蟲技術(shù)分析與應(yīng)用[J]. 余豪士,匡芳君. 智能計(jì)算機(jī)與應(yīng)用. 2018(04)
碩士論文
[1]基于Bloom Filter算法的URL去重算法研究及其應(yīng)用[D]. 孟慧君.河南大學(xué) 2019
[2]基于B/S智慧教務(wù)綜合管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 王貴智.湖南大學(xué) 2019
[3]基于Scrapy的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 樊宇豪.電子科技大學(xué) 2018
本文編號(hào):3454443
【文章來源】:電腦知識(shí)與技術(shù). 2020,16(30)
【文章頁數(shù)】:5 頁
【部分圖文】:
系統(tǒng)結(jié)構(gòu)設(shè)計(jì)圖
信息抓取流程圖
(3)模擬登錄的設(shè)計(jì):部分網(wǎng)站需要進(jìn)行登錄才能訪問網(wǎng)站信息,同時(shí)登錄過程中可能會(huì)需要輸入驗(yàn)證碼。對(duì)于針對(duì)這一部分網(wǎng)站,首先在CMD中啟動(dòng)遠(yuǎn)程調(diào)試打開瀏覽器防止識(shí)別出Web Driver。加載瀏覽器驅(qū)動(dòng)啟動(dòng)瀏覽器。最大化界面并定位輸入框與按鈕,在登錄界面使用選擇器定位登陸元素和查找用戶名密碼輸入框,使用Selenium自動(dòng)輸入預(yù)設(shè)信息并登錄[5]。最后,如果在網(wǎng)頁上找到對(duì)應(yīng)信息則判斷登陸成功。具體登錄流程如下:(4)Cookie池的設(shè)計(jì):Cookie用于表示用戶身份,服務(wù)器根據(jù)Cookie來識(shí)別用戶身份。使用Cookie可以減少爬蟲頻繁需要登錄的問題[6]。本系統(tǒng)對(duì)各個(gè)網(wǎng)站建立對(duì)應(yīng)的Coookie池,登陸成功后使用pickle.dump方法將Cookie保存在本地。同時(shí)通過使用Cookie登錄網(wǎng)站來檢測Cookie是否有效。
【參考文獻(xiàn)】:
期刊論文
[1]現(xiàn)代瀏覽器中Cookie同源策略測試框架的設(shè)計(jì)與實(shí)現(xiàn)[J]. 梁浩喆,馬進(jìn),陳秀真,楊瀟. 通信技術(shù). 2019(12)
[2]基于Selenium+Python的高校統(tǒng)一身份認(rèn)證自動(dòng)化驗(yàn)收測試技術(shù)研究[J]. 馮興利,洪丹丹,羅軍鋒,鎖志海. 現(xiàn)代電子技術(shù). 2019(22)
[3]基于Scrapy框架的分布式爬蟲設(shè)計(jì)與實(shí)現(xiàn)[J]. 王芳,張睿,宮海瑞. 信息技術(shù). 2019(03)
[4]基于Python的反反爬蟲技術(shù)分析與應(yīng)用[J]. 余豪士,匡芳君. 智能計(jì)算機(jī)與應(yīng)用. 2018(04)
碩士論文
[1]基于Bloom Filter算法的URL去重算法研究及其應(yīng)用[D]. 孟慧君.河南大學(xué) 2019
[2]基于B/S智慧教務(wù)綜合管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 王貴智.湖南大學(xué) 2019
[3]基于Scrapy的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 樊宇豪.電子科技大學(xué) 2018
本文編號(hào):3454443
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3454443.html
最近更新
教材專著