Web時空數(shù)據(jù)挖掘及其地圖信息服務(wù)
本文選題:Web時空數(shù)據(jù)挖掘 + 網(wǎng)絡(luò)爬蟲 ; 參考:《華東師范大學(xué)》2013年碩士論文
【摘要】:隨著計算機和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,尤其移動互聯(lián)網(wǎng)的崛起,Web已成為知識獲取和信息傳輸不可或缺的渠道。Web2.0技術(shù)的出現(xiàn),使互聯(lián)網(wǎng)的使用產(chǎn)生了革命性轉(zhuǎn)變,即每個用戶從單純的訪問者轉(zhuǎn)變成了潛在的信息發(fā)布者。因此,Web資源蘊含著大量社會行為和自然事件方方面面的信息,從中挖掘帶有時空信息的數(shù)據(jù),可作為社會研究的重要素材。同時Web技術(shù)的發(fā)展也推動著地理信息技術(shù)的前進,WebGIS是地理信息技術(shù)和Web技術(shù)發(fā)展到一定階段的結(jié)合產(chǎn)物。它以服務(wù)大眾為宗旨,能夠作為時空數(shù)據(jù)和相關(guān)知識展示的平臺。 本文擬從網(wǎng)絡(luò)資源中抓取感興趣的半結(jié)構(gòu)化網(wǎng)頁文本,經(jīng)過時空信息抽取和整理等處理步驟,形成結(jié)構(gòu)化的時空數(shù)據(jù),以數(shù)據(jù)庫形式進行存儲。之后將多種時空數(shù)據(jù)源進行整合,利用時空數(shù)據(jù)挖掘技術(shù),發(fā)現(xiàn)這些數(shù)據(jù)中隱含的知識和規(guī)則。在知識表達方面,應(yīng)用WebGIS地圖可視化的方式展示統(tǒng)計分析得到的時空數(shù)據(jù)和數(shù)據(jù)挖掘得到的知識。根據(jù)以上思路,本文分為六個章節(jié): 第二章探討研究的背景和意義,同時對國內(nèi)外的相關(guān)研究進展做了綜述,同時論述本文的研究內(nèi)容和目標(biāo),最后確定論文架構(gòu)。 第二章概述數(shù)據(jù)挖掘及其分支Web數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘、時空數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘和Web時空數(shù)據(jù)挖掘的概念和基礎(chǔ)理論。最后介紹地理信息系統(tǒng)及其分支WebGIS的相關(guān)概念。 第一章介紹本研究的主要技術(shù)和算法,其中包括HTTP、URL地址、網(wǎng)絡(luò)爬蟲、網(wǎng)頁解析、分詞技術(shù)和Apriori算法。最后討論本研究用到的一些工具。 第四章選取中國天氣網(wǎng)和新浪微博網(wǎng)站作為例子,介紹網(wǎng)頁數(shù)據(jù)下載,時空信息的抽取、整理、入庫及變換,時空關(guān)聯(lián)規(guī)則表的建立,以及如何利用Apriori算法計算氣象數(shù)據(jù)和交通事故之間的關(guān)聯(lián)規(guī)則。最后講述系統(tǒng)實現(xiàn)的功能和向用戶提供的服務(wù)。 第五章總結(jié)回顧全文,概括研究成果和創(chuàng)新點,同時指出本文的不足和下一步需做的工作。
[Abstract]:With the rapid development of computer and network technology, especially the rise of mobile Internet, Web has become an indispensable channel for knowledge acquisition and information transmission. Web 2.0 technology has revolutionized the use of the Internet. That is, each user changes from a simple visitor to a potential publisher of information. Therefore, Web resources contain a large number of social behavior and natural events of all aspects of information, mining from the data with space-time information, can be used as an important material for social research. At the same time, the development of Web technology also promotes the advance of geographic information technology. WebGIS is the combination of geographic information technology and Web technology. It aims to serve the public and can serve as a platform for the display of spatiotemporal data and related knowledge. This paper intends to grab the interested semi-structured web page text from the network resources, and through processing steps such as extracting and sorting out space-time information, forms structured spatio-temporal data and stores it in the form of database. After that, a variety of spatio-temporal data sources are integrated, and the knowledge and rules hidden in these data are found by using spatio-temporal data mining technology. In the aspect of knowledge representation, WebGIS map visualization is used to display the spatiotemporal data and the knowledge obtained from data mining. According to the above ideas, this paper is divided into six chapters: The second chapter discusses the background and significance of the research, at the same time summarizes the related research progress at home and abroad, at the same time discusses the research contents and objectives of this paper, and finally determines the structure of the paper. The second chapter summarizes the concepts and basic theories of data mining and its branch Web data mining, spatial data mining, space-time data mining and Web space-time data mining. Finally, the concepts of GIS and its branch WebGIS are introduced. The first chapter introduces the main technologies and algorithms of this study, including HTTP URL address, web crawler, web page parsing, word segmentation and Apriori algorithm. Finally, some tools used in this study are discussed. The fourth chapter selects China Weather Network and Sina Weibo website as examples, introduces web page data download, space-time information extraction, sorting, storage and transformation, the establishment of time-space association rules table. And how to use Apriori algorithm to calculate the association rules between meteorological data and traffic accidents. At last, the function of the system and the service to the user are described. Chapter five summarizes and reviews the full text, summarizes the research results and innovations, and points out the shortcomings of this paper and the work to be done in the next step.
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:P208;TP311.13
【參考文獻】
相關(guān)期刊論文 前10條
1 胡軍偉;秦奕青;張偉;;正則表達式在Web信息抽取中的應(yīng)用[J];北京信息科技大學(xué)學(xué)報(自然科學(xué)版);2011年06期
2 陳曉寧;馬亞飛;謝孟利;;基于NewMap API的Web地圖服務(wù)系統(tǒng)應(yīng)用[J];測繪標(biāo)準(zhǔn)化;2011年03期
3 吳運超;牛錚;黃茂軍;林文鵬;;利用Web挖掘技術(shù)改善公眾網(wǎng)絡(luò)地圖查詢服務(wù)[J];測繪科學(xué);2007年03期
4 趙彬彬;李光強;鄧敏;;時空數(shù)據(jù)挖掘綜述[J];測繪科學(xué);2010年02期
5 吳運超;王汶;牛錚;宋國君;;Ajax在WebGIS中的應(yīng)用[J];地理與地理信息科學(xué);2007年02期
6 徐勝華;劉紀平;胡明遠;;空間數(shù)據(jù)挖掘與發(fā)展趨勢探討[J];地理與地理信息科學(xué);2008年03期
7 張雪伍;蘇奮振;石憶邵;張丹丹;;空間關(guān)聯(lián)規(guī)則挖掘研究進展[J];地理科學(xué)進展;2007年06期
8 曹忠;趙文靜;;一種優(yōu)化的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2008年35期
9 蘇奮振,杜云艷,楊曉梅,劉寶銀;地學(xué)關(guān)聯(lián)規(guī)則與時空推理的漁業(yè)分析應(yīng)用[J];地球信息科學(xué);2004年04期
10 孫嘉;裴韜;龔璽;周成虎;;Web時空數(shù)據(jù)挖掘研究進展[J];地球科學(xué)進展;2011年04期
相關(guān)博士學(xué)位論文 前2條
1 舒永鋼;WebGIS旅游信息搜索功用研究及應(yīng)用[D];浙江工商大學(xué);2012年
2 周海燕;空間數(shù)據(jù)挖掘的研究[D];中國人民解放軍信息工程大學(xué);2003年
,本文編號:1899651
本文鏈接:http://sikaile.net/kejilunwen/dizhicehuilunwen/1899651.html