基于分布式網(wǎng)絡(luò)爬蟲的Web空間數(shù)據(jù)獲取與管理方法研究
本文關(guān)鍵詞:基于分布式網(wǎng)絡(luò)爬蟲的Web空間數(shù)據(jù)獲取與管理方法研究
更多相關(guān)文章: Web空間數(shù)據(jù) 分布式網(wǎng)絡(luò)爬蟲 模板映射 MongoDB 原型系統(tǒng)
【摘要】:GIS是一門以數(shù)據(jù)為基礎(chǔ)的學(xué)科,空間分析、空間統(tǒng)計和空間數(shù)據(jù)挖掘等研究都離不開空間數(shù)據(jù)的支撐,而互聯(lián)網(wǎng)中存在著海量的空間數(shù)據(jù),這些數(shù)據(jù)與人們的日常生活活動密切相關(guān)并且包含的信息量十分豐富、現(xiàn)勢性極強(qiáng)。如果能夠?qū)ヂ?lián)網(wǎng)中廣泛存在的空間數(shù)據(jù)進(jìn)行高效地獲取、解析與管理,一方面不僅可以補(bǔ)充基礎(chǔ)地理信息的不足,提供豐富的細(xì)節(jié)和準(zhǔn)實時更新,另一方面還能夠為GIS空間分析和空間數(shù)據(jù)挖掘提供更為豐富和實時的數(shù)據(jù)源。Web空間數(shù)據(jù)獲取與管理首先需要對多源異構(gòu)Web空間數(shù)據(jù)進(jìn)行獲取,然后需要對獲取到的數(shù)據(jù)進(jìn)行細(xì)粒度的解析,從中提取出感興趣的位置和屬性信息。進(jìn)一步的,還需要解決多源異構(gòu)Web空間數(shù)據(jù)的存儲與管理問題。因此,本文針對單機(jī)網(wǎng)絡(luò)爬蟲獲取Web空間數(shù)據(jù)在抓取覆蓋率和抓取效率上受到限制,難以保證抓取數(shù)據(jù)的及時性和全面性問題,研究了基于分布式網(wǎng)絡(luò)爬蟲的Web空間數(shù)據(jù)獲取方法。針對不同來源Web空間數(shù)據(jù)結(jié)構(gòu)內(nèi)容不同,周期性更新、解析困難的問題,研究了基于模板映射的Web空間數(shù)據(jù)解析方法。針對關(guān)系型數(shù)據(jù)庫管理系統(tǒng)處理多源異構(gòu)Web空間數(shù)據(jù)困難的問題,研究了基于非關(guān)系型數(shù)據(jù)庫MongoDB的Web空間數(shù)據(jù)管理方法。最后基于上述方法,研發(fā)了Web空間數(shù)據(jù)獲取原型系統(tǒng),實現(xiàn)了Web空間數(shù)據(jù)的高效獲取、解析與管理,通過對原型系統(tǒng)進(jìn)行測試證實了本文所述方法的有效性并對系統(tǒng)進(jìn)行了實例應(yīng)用。通過以上的研究工作,得出如下結(jié)論:(1)基于分布式網(wǎng)絡(luò)爬蟲的Web空間數(shù)據(jù)獲取方法能夠提高Web空間數(shù)據(jù)獲取效率。本文設(shè)計和實現(xiàn)的Web空間數(shù)據(jù)獲取原型系統(tǒng)能夠穩(wěn)定運(yùn)行,系統(tǒng)具有良好的擴(kuò)展性,系統(tǒng)各個節(jié)點(diǎn)之間能夠?qū)崿F(xiàn)負(fù)載均衡。(2)基于模板映射的Web空間數(shù)據(jù)解析方法能夠?qū)崿F(xiàn)多源異構(gòu)Web空間數(shù)據(jù)的自動化、高準(zhǔn)確度解析。在解析準(zhǔn)確率方面,基于模板映射的解析方法與傳統(tǒng)的正則表達(dá)式解析法相當(dāng)。在解析召回率方面,基于模板映射的解析方法優(yōu)于傳統(tǒng)正則表達(dá)式解析法。(3)基于MongoDB的Web空間數(shù)據(jù)存儲與管理方法能夠?qū)崿F(xiàn)多源異構(gòu)Web空間數(shù)據(jù)的對象化存儲,降低了Web空間數(shù)據(jù)存儲與管理的復(fù)雜度,增強(qiáng)了Web空間數(shù)據(jù)存儲的靈活度和自動化程度。
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:P208
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 王立富;葉韜;;城市空間數(shù)據(jù)獲取途徑[J];科技與企業(yè);2012年20期
2 肖學(xué)年,崔靈周,王春,李占斌;模擬流域地貌發(fā)育過程的空間數(shù)據(jù)獲取與分析[J];地理科學(xué);2004年04期
3 馬潔;;GIS空間數(shù)據(jù)獲取技術(shù)在自來水管線建設(shè)中的應(yīng)用[J];硅谷;2010年23期
4 陳佳洪;;GIS空間數(shù)據(jù)獲取技術(shù)在自來水管線建設(shè)中的應(yīng)用[J];科技創(chuàng)新與應(yīng)用;2014年07期
5 王敏;;淺談自來水管線建設(shè)中GIS空間數(shù)據(jù)獲取技術(shù)的應(yīng)用[J];科技風(fēng);2011年14期
6 孫杭;孫芳;;淺談可視化3維GIS[J];測繪與空間地理信息;2009年04期
7 秦志遠(yuǎn);利用遙感影像輔助GIS空間數(shù)據(jù)獲取與更新的研究及實踐[J];測繪學(xué)報;1999年02期
8 范艷芳,王霓虹,周洪澤;基于專題圖的GIS空間數(shù)據(jù)獲取方法的研究[J];林業(yè)勘查設(shè)計;2004年04期
9 ;[J];;年期
中國重要報紙全文數(shù)據(jù)庫 前1條
1 楊浩瑩 靳哲明;國家西部3S空間信息產(chǎn)業(yè)化基地在西安奠基[N];中國測繪報;2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 曾李陽;基于分布式網(wǎng)絡(luò)爬蟲的Web空間數(shù)據(jù)獲取與管理方法研究[D];西南交通大學(xué);2016年
2 余海濱;VR-GIS系統(tǒng)集成關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2008年
,本文編號:1196812
本文鏈接:http://sikaile.net/kejilunwen/dizhicehuilunwen/1196812.html