基于海量文本信息挖掘的地理信息變化發(fā)現(xiàn)
本文選題:地理信息變化 切入點:文本挖掘 出處:《電子科技大學》2013年碩士論文 論文類型:學位論文
【摘要】:互聯(lián)網(wǎng)科技的日新月異和不斷普及,使互聯(lián)網(wǎng)的信息與日俱增。搜索引擎的出現(xiàn),為精確、快速地尋找需要的信息提供了非常大的幫助。大約1/5的搜索引擎輸入的查詢與地理信息相關。如何從搜索引擎中得到有用的網(wǎng)絡地理信息,是地理信息系統(tǒng)(GIS)研究的一個重要方向。網(wǎng)絡中絕大多數(shù)的地理信息被包含在了非結(jié)構(gòu)化的海量文本數(shù)據(jù)中,當使用者對搜索引擎提出自己的需求時,由于搜索反饋信息量的過多和低精確度,很難從紛繁復雜的網(wǎng)絡信息中迅速得到自己的目標信息。因此,如何對包含有地理信息的網(wǎng)頁主題內(nèi)容進行提取,如何從海量的地理信息中提取變化的地理信息,是本課題要研究的主要內(nèi)容。 論文提出一些基于互聯(lián)網(wǎng)的地理信息變化解決方案,包括基于文本挖掘的地理信息變化發(fā)現(xiàn)總體思路和基于主題信息提取與過濾的發(fā)現(xiàn)方法,并提出一個可以快速更新迭代地理信息數(shù)據(jù)的系統(tǒng)的架構(gòu)。詳細設計并實現(xiàn)了基于主題提取的文本地理信息變化發(fā)現(xiàn)系統(tǒng)。主要研究工作如下: (1)系統(tǒng)的客觀工作需要,系統(tǒng)中包含了數(shù)據(jù)分析和數(shù)據(jù)展示兩個層面:在數(shù)據(jù)分析方面,將網(wǎng)頁檢索和變化信息提取獲得的大量文字描述與平臺地名庫、行政界線等信息進行對比分析,獲取變化信息所在的概略位置,作為空間信息變化地物的位置參數(shù)存儲起來,結(jié)合平臺的路徑分析工具,可以引導變化更新測繪人員方便到達其所在位置;在數(shù)據(jù)展示方面,可以利用空間信息變化地物的各種參數(shù),設計一套符號系統(tǒng),以專題信息形式在平臺上展示,使平臺維護管理人員可以直觀分析各類變化信息的分布,科學制定更新變化信息的策略和手段。 (2)系統(tǒng)主要功能模塊包括:數(shù)據(jù)庫管理模塊、信息檢索模塊、主題信息提取模塊、主題信息變化發(fā)現(xiàn)模塊和結(jié)果展示模塊。其中,主題信息提取模塊克服了傳統(tǒng)的文本信息提取的不足,系統(tǒng)在句型匹配的基礎上,加入語義理解,在檢索精確性會得到了較大的提升。 (3)系統(tǒng)實現(xiàn)與成果展示,試驗顯示,效率明顯跳高,,搜索有了顯著的減少。數(shù)量從原來的10000條減少到了3000條。對結(jié)果進行分析比較,正確率平均提升了55%,最高時達到了90%,表明了系統(tǒng)設計的有效性和可行性。
[Abstract]:The Internet technology change rapidly and the growing popularity of the Internet, the information search engine. Grow with each passing day, accurately and quickly find the information you need to provide a great help. About 1/5 of the search engine input query with geographic information. How to get useful guide network geographic information from the search engine, is the geographic information system (GIS) is an important research direction in the network. The vast majority of geographic information is included in the vast amounts of unstructured text data, when the user needs to put forward their own search engine, the search amount of feedback excessive and low accuracy, it is difficult from the complicated network information quickly get your target information. Therefore, web pages how to contain geographic information extracted from the massive changes in how to extract geographic information of geographic information, is this lesson The main contents of the study.
This paper puts forward some solutions to change the geographic information based on the Internet, including the change of geographic information based on text mining found the general idea and discovery method based on information extraction and filtering theme, and propose a fast iterative update of geographic information system architecture. The detailed design and implementation of a system that changes text topic extraction of geographic information based on the main research work is as follows:
(1) the objective of working system, the system contains two aspects of data analysis and display of data in data analysis, obtained a lot of description and extraction of web platform name database retrieval and change information, administrative boundaries and other information were analyzed to obtain the change information where the approximate position, as the storage location the parameters of spatial information of objects, with the platform of path analysis tools, can guide the change and update its location convenient to the surveying and mapping personnel; show the data of various parameters can use spatial information to change the design of a system of symbols, to display thematic information form on the platform, the platform maintenance and management personnel can be directly analysis of the distribution of all kinds of change information, scientific development strategy and means of change information.
(2) the main function modules include: database management module and information retrieval module, module extraction of topic information, subject information changes module and results display module. The theme information extraction module overcomes the shortcomings of the traditional text information extraction system, based on pattern matching, adding semantic understanding, in the retrieval accuracy would have been considerably improved.
(3) system implementation and results show, experiments show that the efficiency is obviously high jump, search is reduced remarkably. The number from the original 10000 reduced to 3000. The results were analyzed and compared, the average accuracy rate up to 55%, the highest reached 90%, show the effectiveness and feasibility of the system design.
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.1
【參考文獻】
相關期刊論文 前8條
1 隋春光;李霖;;本體的概念、構(gòu)建及其在地理信息科學中的應用[J];測繪通報;2010年04期
2 劉植惠;;本體(Ontology)與語義網(wǎng)(Semantic Web)[J];重慶圖情研究;2006年03期
3 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期
4 曹彥榮;何建邦;;地理信息語義關系元數(shù)據(jù)研究及應用[J];計算機科學;2004年01期
5 陳炯,張永奎;一種基于詞聚類的中文文本主題抽取方法[J];計算機應用;2005年04期
6 嚴華云;肖良軍;;EM算法在文本挖掘中的應用[J];湖州職業(yè)技術學院學報;2008年03期
7 張其文;李明;;文本主題的自動提取方法研究與實現(xiàn)[J];計算機工程與設計;2006年15期
8 劉振巖,王萬森,陳立平;WEB信息檢索與WEB數(shù)據(jù)挖掘[J];微機發(fā)展;2003年07期
相關博士學位論文 前1條
1 杜萍;基于本體的中國行政區(qū)劃地名識別與抽取研究[D];蘭州大學;2011年
相關碩士學位論文 前10條
1 盧革超;基于本體的主題搜索引擎技術研究[D];吉林大學;2011年
2 王俊;基于Web搜索的輿情分析系統(tǒng)的設計與實現(xiàn)[D];北京郵電大學;2011年
3 石卉;基于網(wǎng)絡內(nèi)容分析法的輿情信息研究及應用[D];華中師范大學;2011年
4 何世柱;文本分類和聚類若干模型的研究[D];江西師范大學;2011年
5 劉峰;通用中英文專業(yè)搜索引擎技術的研究及應用[D];大連理工大學;2004年
6 曹紅;林業(yè)主題搜索引擎研究[D];北京林業(yè)大學;2005年
7 劉春艷;語義Web環(huán)境下基于SKOS的敘詞表到本體的轉(zhuǎn)換研究[D];吉林大學;2006年
8 許泉立;Web環(huán)境下基于Ontology的空間信息查詢檢索機制研究[D];云南師范大學;2006年
9 姚琪;垂直搜索引擎系統(tǒng)的研究與設計[D];上海交通大學;2008年
10 李勇;面向卡通動畫素材的多媒體語義檢索[D];湖南師范大學;2008年
本文編號:1611890
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1611890.html