空間數(shù)據(jù)網(wǎng)絡(luò)爬取方法研究
發(fā)布時(shí)間:2021-03-21 05:59
隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)平臺(tái)空間數(shù)據(jù)呈爆炸式增長(zhǎng),從矢量到柵格數(shù)據(jù),再到時(shí)空數(shù)據(jù),網(wǎng)絡(luò)空間數(shù)據(jù)背后隱藏著實(shí)用信息,是空間大數(shù)據(jù)時(shí)代數(shù)據(jù)重要來(lái)源,因此空間數(shù)據(jù)的網(wǎng)絡(luò)獲取是關(guān)鍵環(huán)節(jié)之一?臻g數(shù)據(jù)一般存儲(chǔ)于網(wǎng)絡(luò)服務(wù)器端的數(shù)據(jù)庫(kù)中,前端采用網(wǎng)頁(yè)技術(shù)展現(xiàn)其空間形態(tài),論文通過(guò)解析網(wǎng)頁(yè)結(jié)構(gòu),高效、可靠的從后臺(tái)數(shù)據(jù)庫(kù)中爬取空間數(shù)據(jù)。論文主要實(shí)現(xiàn)矢量和柵格兩大類(lèi)數(shù)據(jù)爬取,矢量數(shù)據(jù)選取POI數(shù)據(jù)和交通態(tài)勢(shì)數(shù)據(jù),柵格數(shù)據(jù)選取影像數(shù)據(jù)。主要運(yùn)用四種方法實(shí)現(xiàn),通過(guò)模擬搜索法實(shí)現(xiàn)城市范圍POI數(shù)據(jù)爬取,通過(guò)圓形剖分實(shí)現(xiàn)圓形區(qū)域POI數(shù)據(jù)爬取,方格剖分實(shí)現(xiàn)矩形區(qū)域POI數(shù)據(jù)和交通態(tài)勢(shì)數(shù)據(jù)爬取,模擬登錄實(shí)現(xiàn)影像數(shù)據(jù)爬取。為確保空間數(shù)據(jù)爬取順利,論文運(yùn)用代理IP、偽裝瀏覽器、防盜圖片鏈接以及降低訪問(wèn)頻率方式實(shí)現(xiàn)空間數(shù)據(jù)的反爬措施。論文通過(guò)多進(jìn)程與多線程提高空間數(shù)據(jù)爬取的效率,通過(guò)編程手段和數(shù)據(jù)庫(kù)操作在數(shù)據(jù)爬取以及入庫(kù)過(guò)程中完成數(shù)據(jù)清洗和數(shù)據(jù)去重。通過(guò)實(shí)驗(yàn)論證分析,運(yùn)用四種方法可以實(shí)現(xiàn)城市范圍、矩形區(qū)域、圓形區(qū)域POI數(shù)據(jù)爬取,矩形區(qū)域交通態(tài)勢(shì)數(shù)據(jù)爬取以及指定類(lèi)型影像數(shù)據(jù)爬取。并運(yùn)用多進(jìn)程使得空間數(shù)據(jù)爬取效率提高三倍。通...
【文章來(lái)源】:重慶交通大學(xué)重慶市
【文章頁(yè)數(shù)】:106 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
隱藏參數(shù)以及驗(yàn)證碼抓包結(jié)果
第三章空間數(shù)據(jù)網(wǎng)路爬取方法與策略23(a)小比例尺POI點(diǎn)數(shù)(b)大比例尺POI點(diǎn)數(shù)圖3-6不同比例尺下POI點(diǎn)數(shù)通過(guò)調(diào)用API的方式獲取POI數(shù)據(jù),每次最大只能獲取400條數(shù)據(jù),如果擴(kuò)大爬取范圍,如圖3-7所示,邊長(zhǎng)為0.1°的矩形區(qū)域,一次仍然只能夠爬取400條數(shù)據(jù)。為獲得該區(qū)域完整數(shù)據(jù),需要將該區(qū)域剖分成多個(gè)無(wú)縫銜接的小正方形。圖3-7矩形檢索區(qū)域?yàn)榇_保每一類(lèi)數(shù)據(jù)的完整性,在剖分過(guò)程中每一個(gè)方格的邊長(zhǎng)不能大于0.02°,因?yàn)樵谶呴L(zhǎng)為0.02°的正方形內(nèi),每一類(lèi)數(shù)據(jù)不會(huì)超過(guò)400條,因此方格剖分法就是將矩形區(qū)域剖分為0.02°×0.02°的方格網(wǎng),如圖3-8所示,最后提取每一個(gè)方格的左下角坐標(biāo)和右上角坐標(biāo),形成一個(gè)個(gè)由坐標(biāo)對(duì)組成的小矩形區(qū)域。圖3-8方格網(wǎng)
第三章空間數(shù)據(jù)網(wǎng)路爬取方法與策略23(a)小比例尺POI點(diǎn)數(shù)(b)大比例尺POI點(diǎn)數(shù)圖3-6不同比例尺下POI點(diǎn)數(shù)通過(guò)調(diào)用API的方式獲取POI數(shù)據(jù),每次最大只能獲取400條數(shù)據(jù),如果擴(kuò)大爬取范圍,如圖3-7所示,邊長(zhǎng)為0.1°的矩形區(qū)域,一次仍然只能夠爬取400條數(shù)據(jù)。為獲得該區(qū)域完整數(shù)據(jù),需要將該區(qū)域剖分成多個(gè)無(wú)縫銜接的小正方形。圖3-7矩形檢索區(qū)域?yàn)榇_保每一類(lèi)數(shù)據(jù)的完整性,在剖分過(guò)程中每一個(gè)方格的邊長(zhǎng)不能大于0.02°,因?yàn)樵谶呴L(zhǎng)為0.02°的正方形內(nèi),每一類(lèi)數(shù)據(jù)不會(huì)超過(guò)400條,因此方格剖分法就是將矩形區(qū)域剖分為0.02°×0.02°的方格網(wǎng),如圖3-8所示,最后提取每一個(gè)方格的左下角坐標(biāo)和右上角坐標(biāo),形成一個(gè)個(gè)由坐標(biāo)對(duì)組成的小矩形區(qū)域。圖3-8方格網(wǎng)
【參考文獻(xiàn)】:
期刊論文
[1]基于python的聚焦網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 楊國(guó)志,江業(yè)峰. 科學(xué)技術(shù)創(chuàng)新. 2018(27)
[2]大數(shù)據(jù)視角下的路口交通數(shù)據(jù)采集研究[J]. 胡正. 企業(yè)技術(shù)開(kāi)發(fā). 2018(07)
[3]Python爬蟲(chóng)獲取網(wǎng)絡(luò)圖片[J]. 夏天琦. 電子世界. 2018(10)
[4]基于網(wǎng)絡(luò)爬蟲(chóng)技術(shù)對(duì)電子商務(wù)多肉物種資源數(shù)據(jù)的研究[J]. 薛華杰,張寧,傅怡寧,徐飛,王書(shū)平,徐思越,印麗萍. 生物安全學(xué)報(bào). 2017(04)
[5]基于模擬登錄數(shù)據(jù)抓取與解析技術(shù)的WEB應(yīng)用系統(tǒng)集成方式研究[J]. 韋智勇. 北京印刷學(xué)院學(xué)報(bào). 2017(04)
[6]基于GIS主題爬蟲(chóng)的在線房產(chǎn)估價(jià)系統(tǒng)與優(yōu)化[J]. 董浩然,謝歡,陳鵬,洪中華,童小華. 地理信息世界. 2016(02)
[7]基于網(wǎng)絡(luò)爬蟲(chóng)的地理空間信息采集方法[J]. 鞏保勝,魏春苗. 甘肅科技. 2016(07)
[8]Python模擬登錄網(wǎng)站并抓取網(wǎng)頁(yè)的方法[J]. 劉艷平,俞海英,戎沁. 微型電腦應(yīng)用. 2015(02)
[9]一種基于模擬登錄的微博數(shù)據(jù)采集方案[J]. 孫青云,王俊峰,趙宗渠,高夢(mèng)超. 計(jì)算機(jī)技術(shù)與發(fā)展. 2014(03)
[10]POI數(shù)據(jù)采集的社會(huì)化模式[J]. 林丹. 福建建筑. 2010(09)
碩士論文
[1]基于網(wǎng)絡(luò)爬蟲(chóng)與短文本相似度的網(wǎng)售化妝品監(jiān)管系統(tǒng)的研究與設(shè)計(jì)[D]. 梁濤.南昌航空大學(xué) 2018
[2]基于Android和網(wǎng)絡(luò)爬蟲(chóng)的課外閱讀系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 于志浩.山東大學(xué) 2018
[3]基于網(wǎng)絡(luò)爬蟲(chóng)的北京市房?jī)r(jià)研究[D]. 鄭苗.長(zhǎng)江大學(xué) 2018
[4]基于Python的基因表達(dá)數(shù)據(jù)網(wǎng)絡(luò)爬蟲(chóng)研究與設(shè)計(jì)[D]. 馮清.山西醫(yī)科大學(xué) 2017
[5]互聯(lián)網(wǎng)地理信息爬蟲(chóng)技術(shù)研究與應(yīng)用[D]. 鄭承良.山東農(nóng)業(yè)大學(xué) 2017
[6]基于網(wǎng)絡(luò)爬蟲(chóng)的數(shù)字隱寫(xiě)圖像采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 王年豐.華中師范大學(xué) 2017
[7]基于RFID數(shù)據(jù)的城市路網(wǎng)交通運(yùn)行態(tài)勢(shì)識(shí)別技術(shù)及應(yīng)用[D]. 郭鵬.重慶交通大學(xué) 2017
[8]基于網(wǎng)絡(luò)爬蟲(chóng)和GIS技術(shù)的公共自行車(chē)系統(tǒng)空間分析[D]. 莊楚天.蘇州大學(xué) 2017
[9]面向網(wǎng)絡(luò)文本地理信息的POI獲取技術(shù)研究[D]. 趙飛.哈爾濱工程大學(xué) 2017
本文編號(hào):3092457
【文章來(lái)源】:重慶交通大學(xué)重慶市
【文章頁(yè)數(shù)】:106 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
隱藏參數(shù)以及驗(yàn)證碼抓包結(jié)果
第三章空間數(shù)據(jù)網(wǎng)路爬取方法與策略23(a)小比例尺POI點(diǎn)數(shù)(b)大比例尺POI點(diǎn)數(shù)圖3-6不同比例尺下POI點(diǎn)數(shù)通過(guò)調(diào)用API的方式獲取POI數(shù)據(jù),每次最大只能獲取400條數(shù)據(jù),如果擴(kuò)大爬取范圍,如圖3-7所示,邊長(zhǎng)為0.1°的矩形區(qū)域,一次仍然只能夠爬取400條數(shù)據(jù)。為獲得該區(qū)域完整數(shù)據(jù),需要將該區(qū)域剖分成多個(gè)無(wú)縫銜接的小正方形。圖3-7矩形檢索區(qū)域?yàn)榇_保每一類(lèi)數(shù)據(jù)的完整性,在剖分過(guò)程中每一個(gè)方格的邊長(zhǎng)不能大于0.02°,因?yàn)樵谶呴L(zhǎng)為0.02°的正方形內(nèi),每一類(lèi)數(shù)據(jù)不會(huì)超過(guò)400條,因此方格剖分法就是將矩形區(qū)域剖分為0.02°×0.02°的方格網(wǎng),如圖3-8所示,最后提取每一個(gè)方格的左下角坐標(biāo)和右上角坐標(biāo),形成一個(gè)個(gè)由坐標(biāo)對(duì)組成的小矩形區(qū)域。圖3-8方格網(wǎng)
第三章空間數(shù)據(jù)網(wǎng)路爬取方法與策略23(a)小比例尺POI點(diǎn)數(shù)(b)大比例尺POI點(diǎn)數(shù)圖3-6不同比例尺下POI點(diǎn)數(shù)通過(guò)調(diào)用API的方式獲取POI數(shù)據(jù),每次最大只能獲取400條數(shù)據(jù),如果擴(kuò)大爬取范圍,如圖3-7所示,邊長(zhǎng)為0.1°的矩形區(qū)域,一次仍然只能夠爬取400條數(shù)據(jù)。為獲得該區(qū)域完整數(shù)據(jù),需要將該區(qū)域剖分成多個(gè)無(wú)縫銜接的小正方形。圖3-7矩形檢索區(qū)域?yàn)榇_保每一類(lèi)數(shù)據(jù)的完整性,在剖分過(guò)程中每一個(gè)方格的邊長(zhǎng)不能大于0.02°,因?yàn)樵谶呴L(zhǎng)為0.02°的正方形內(nèi),每一類(lèi)數(shù)據(jù)不會(huì)超過(guò)400條,因此方格剖分法就是將矩形區(qū)域剖分為0.02°×0.02°的方格網(wǎng),如圖3-8所示,最后提取每一個(gè)方格的左下角坐標(biāo)和右上角坐標(biāo),形成一個(gè)個(gè)由坐標(biāo)對(duì)組成的小矩形區(qū)域。圖3-8方格網(wǎng)
【參考文獻(xiàn)】:
期刊論文
[1]基于python的聚焦網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 楊國(guó)志,江業(yè)峰. 科學(xué)技術(shù)創(chuàng)新. 2018(27)
[2]大數(shù)據(jù)視角下的路口交通數(shù)據(jù)采集研究[J]. 胡正. 企業(yè)技術(shù)開(kāi)發(fā). 2018(07)
[3]Python爬蟲(chóng)獲取網(wǎng)絡(luò)圖片[J]. 夏天琦. 電子世界. 2018(10)
[4]基于網(wǎng)絡(luò)爬蟲(chóng)技術(shù)對(duì)電子商務(wù)多肉物種資源數(shù)據(jù)的研究[J]. 薛華杰,張寧,傅怡寧,徐飛,王書(shū)平,徐思越,印麗萍. 生物安全學(xué)報(bào). 2017(04)
[5]基于模擬登錄數(shù)據(jù)抓取與解析技術(shù)的WEB應(yīng)用系統(tǒng)集成方式研究[J]. 韋智勇. 北京印刷學(xué)院學(xué)報(bào). 2017(04)
[6]基于GIS主題爬蟲(chóng)的在線房產(chǎn)估價(jià)系統(tǒng)與優(yōu)化[J]. 董浩然,謝歡,陳鵬,洪中華,童小華. 地理信息世界. 2016(02)
[7]基于網(wǎng)絡(luò)爬蟲(chóng)的地理空間信息采集方法[J]. 鞏保勝,魏春苗. 甘肅科技. 2016(07)
[8]Python模擬登錄網(wǎng)站并抓取網(wǎng)頁(yè)的方法[J]. 劉艷平,俞海英,戎沁. 微型電腦應(yīng)用. 2015(02)
[9]一種基于模擬登錄的微博數(shù)據(jù)采集方案[J]. 孫青云,王俊峰,趙宗渠,高夢(mèng)超. 計(jì)算機(jī)技術(shù)與發(fā)展. 2014(03)
[10]POI數(shù)據(jù)采集的社會(huì)化模式[J]. 林丹. 福建建筑. 2010(09)
碩士論文
[1]基于網(wǎng)絡(luò)爬蟲(chóng)與短文本相似度的網(wǎng)售化妝品監(jiān)管系統(tǒng)的研究與設(shè)計(jì)[D]. 梁濤.南昌航空大學(xué) 2018
[2]基于Android和網(wǎng)絡(luò)爬蟲(chóng)的課外閱讀系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 于志浩.山東大學(xué) 2018
[3]基于網(wǎng)絡(luò)爬蟲(chóng)的北京市房?jī)r(jià)研究[D]. 鄭苗.長(zhǎng)江大學(xué) 2018
[4]基于Python的基因表達(dá)數(shù)據(jù)網(wǎng)絡(luò)爬蟲(chóng)研究與設(shè)計(jì)[D]. 馮清.山西醫(yī)科大學(xué) 2017
[5]互聯(lián)網(wǎng)地理信息爬蟲(chóng)技術(shù)研究與應(yīng)用[D]. 鄭承良.山東農(nóng)業(yè)大學(xué) 2017
[6]基于網(wǎng)絡(luò)爬蟲(chóng)的數(shù)字隱寫(xiě)圖像采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 王年豐.華中師范大學(xué) 2017
[7]基于RFID數(shù)據(jù)的城市路網(wǎng)交通運(yùn)行態(tài)勢(shì)識(shí)別技術(shù)及應(yīng)用[D]. 郭鵬.重慶交通大學(xué) 2017
[8]基于網(wǎng)絡(luò)爬蟲(chóng)和GIS技術(shù)的公共自行車(chē)系統(tǒng)空間分析[D]. 莊楚天.蘇州大學(xué) 2017
[9]面向網(wǎng)絡(luò)文本地理信息的POI獲取技術(shù)研究[D]. 趙飛.哈爾濱工程大學(xué) 2017
本文編號(hào):3092457
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3092457.html
最近更新
教材專(zhuān)著