天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 測繪論文 >

基于分布式網(wǎng)絡(luò)爬蟲的Web空間數(shù)據(jù)獲取與管理方法研究

發(fā)布時間:2017-11-17 17:20

  本文關(guān)鍵詞:基于分布式網(wǎng)絡(luò)爬蟲的Web空間數(shù)據(jù)獲取與管理方法研究


  更多相關(guān)文章: Web空間數(shù)據(jù) 分布式網(wǎng)絡(luò)爬蟲 模板映射 MongoDB 原型系統(tǒng)


【摘要】:GIS是一門以數(shù)據(jù)為基礎(chǔ)的學(xué)科,空間分析、空間統(tǒng)計和空間數(shù)據(jù)挖掘等研究都離不開空間數(shù)據(jù)的支撐,而互聯(lián)網(wǎng)中存在著海量的空間數(shù)據(jù),這些數(shù)據(jù)與人們的日常生活活動密切相關(guān)并且包含的信息量十分豐富、現(xiàn)勢性極強(qiáng)。如果能夠?qū)ヂ?lián)網(wǎng)中廣泛存在的空間數(shù)據(jù)進(jìn)行高效地獲取、解析與管理,一方面不僅可以補(bǔ)充基礎(chǔ)地理信息的不足,提供豐富的細(xì)節(jié)和準(zhǔn)實時更新,另一方面還能夠為GIS空間分析和空間數(shù)據(jù)挖掘提供更為豐富和實時的數(shù)據(jù)源。Web空間數(shù)據(jù)獲取與管理首先需要對多源異構(gòu)Web空間數(shù)據(jù)進(jìn)行獲取,然后需要對獲取到的數(shù)據(jù)進(jìn)行細(xì)粒度的解析,從中提取出感興趣的位置和屬性信息。進(jìn)一步的,還需要解決多源異構(gòu)Web空間數(shù)據(jù)的存儲與管理問題。因此,本文針對單機(jī)網(wǎng)絡(luò)爬蟲獲取Web空間數(shù)據(jù)在抓取覆蓋率和抓取效率上受到限制,難以保證抓取數(shù)據(jù)的及時性和全面性問題,研究了基于分布式網(wǎng)絡(luò)爬蟲的Web空間數(shù)據(jù)獲取方法。針對不同來源Web空間數(shù)據(jù)結(jié)構(gòu)內(nèi)容不同,周期性更新、解析困難的問題,研究了基于模板映射的Web空間數(shù)據(jù)解析方法。針對關(guān)系型數(shù)據(jù)庫管理系統(tǒng)處理多源異構(gòu)Web空間數(shù)據(jù)困難的問題,研究了基于非關(guān)系型數(shù)據(jù)庫MongoDB的Web空間數(shù)據(jù)管理方法。最后基于上述方法,研發(fā)了Web空間數(shù)據(jù)獲取原型系統(tǒng),實現(xiàn)了Web空間數(shù)據(jù)的高效獲取、解析與管理,通過對原型系統(tǒng)進(jìn)行測試證實了本文所述方法的有效性并對系統(tǒng)進(jìn)行了實例應(yīng)用。通過以上的研究工作,得出如下結(jié)論:(1)基于分布式網(wǎng)絡(luò)爬蟲的Web空間數(shù)據(jù)獲取方法能夠提高Web空間數(shù)據(jù)獲取效率。本文設(shè)計和實現(xiàn)的Web空間數(shù)據(jù)獲取原型系統(tǒng)能夠穩(wěn)定運(yùn)行,系統(tǒng)具有良好的擴(kuò)展性,系統(tǒng)各個節(jié)點(diǎn)之間能夠?qū)崿F(xiàn)負(fù)載均衡。(2)基于模板映射的Web空間數(shù)據(jù)解析方法能夠?qū)崿F(xiàn)多源異構(gòu)Web空間數(shù)據(jù)的自動化、高準(zhǔn)確度解析。在解析準(zhǔn)確率方面,基于模板映射的解析方法與傳統(tǒng)的正則表達(dá)式解析法相當(dāng)。在解析召回率方面,基于模板映射的解析方法優(yōu)于傳統(tǒng)正則表達(dá)式解析法。(3)基于MongoDB的Web空間數(shù)據(jù)存儲與管理方法能夠?qū)崿F(xiàn)多源異構(gòu)Web空間數(shù)據(jù)的對象化存儲,降低了Web空間數(shù)據(jù)存儲與管理的復(fù)雜度,增強(qiáng)了Web空間數(shù)據(jù)存儲的靈活度和自動化程度。
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:P208

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前9條

1 王立富;葉韜;;城市空間數(shù)據(jù)獲取途徑[J];科技與企業(yè);2012年20期

2 肖學(xué)年,崔靈周,王春,李占斌;模擬流域地貌發(fā)育過程的空間數(shù)據(jù)獲取與分析[J];地理科學(xué);2004年04期

3 馬潔;;GIS空間數(shù)據(jù)獲取技術(shù)在自來水管線建設(shè)中的應(yīng)用[J];硅谷;2010年23期

4 陳佳洪;;GIS空間數(shù)據(jù)獲取技術(shù)在自來水管線建設(shè)中的應(yīng)用[J];科技創(chuàng)新與應(yīng)用;2014年07期

5 王敏;;淺談自來水管線建設(shè)中GIS空間數(shù)據(jù)獲取技術(shù)的應(yīng)用[J];科技風(fēng);2011年14期

6 孫杭;孫芳;;淺談可視化3維GIS[J];測繪與空間地理信息;2009年04期

7 秦志遠(yuǎn);利用遙感影像輔助GIS空間數(shù)據(jù)獲取與更新的研究及實踐[J];測繪學(xué)報;1999年02期

8 范艷芳,王霓虹,周洪澤;基于專題圖的GIS空間數(shù)據(jù)獲取方法的研究[J];林業(yè)勘查設(shè)計;2004年04期

9 ;[J];;年期

中國重要報紙全文數(shù)據(jù)庫 前1條

1 楊浩瑩 靳哲明;國家西部3S空間信息產(chǎn)業(yè)化基地在西安奠基[N];中國測繪報;2009年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 曾李陽;基于分布式網(wǎng)絡(luò)爬蟲的Web空間數(shù)據(jù)獲取與管理方法研究[D];西南交通大學(xué);2016年

2 余海濱;VR-GIS系統(tǒng)集成關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2008年

,

本文編號:1196812

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/dizhicehuilunwen/1196812.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d12a9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com