基于文本地理信息提取的平臺服務與應用研究
本文關鍵詞:基于文本地理信息提取的平臺服務與應用研究,由筆耕文化傳播整理發(fā)布。
【摘要】:毫無疑問,我們現(xiàn)在已經跨入信息時代,數(shù)據(jù)時代人們需要查閱和檢索的信息量也在與日俱增,那么怎樣浩如煙海的數(shù)據(jù)世界里找到其所需的信息就變成了一個越來越重要需要研究的課題當今,要處理與日俱增的信息,僅僅通過人工和簡單數(shù)據(jù)庫的方式費時費力且不太現(xiàn)實我們需要一種更加智能可靠的方式,更智能的幫助人們查找處理信息數(shù)據(jù),來解決其信息量豐富而知識貧乏的矛盾誠然,目前已經出現(xiàn)了很多智能的工具如自動摘要自動文件檢索等語言處理技術,在這些技術內的一個核心關鍵是主題詞,對于主題詞的提取有助于簡化此類工作,而如何找到主題詞是需要分詞技術的這也就是當前搜索引擎,智能翻譯工具的技術核心 分詞技術,顧名思義,就是借助計算機自動給文本劃分主題詞,使其能夠正確表達所要表達的意思同時,值得注意的是,中文不同于西文,沒有空格這個分隔符,同時在中文中充滿了大量的同義詞,相近詞,所以如何給中文分詞是個非常復雜的問題同時也是一個涉及到語言學邏輯學計算機科學自然語言處理認知科學心理學等諸多領域的技術 數(shù)據(jù)挖掘技術,是從不同角度分析數(shù)據(jù),并總結成有用信息的過程,是一個具有巨大潛力的新興技術,能夠幫助企業(yè)收集到他們想要的有關客戶或者潛在客戶的重要信息絕大部分的網(wǎng)絡應用都是基于數(shù)據(jù)庫來實現(xiàn),用戶數(shù)據(jù)日益累和科技的更新,最終讓我們進入大數(shù)據(jù)時代,如果通過揭露數(shù)據(jù)與數(shù)據(jù)之間看似毫無關系的秘密隱藏聯(lián)系,通過對過去數(shù)據(jù)的專注預測未來可能發(fā)生的事情,挖掘其中的價值就是數(shù)據(jù)挖掘被賦予的重要使命 空間數(shù)據(jù)挖掘技術,又稱空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn),是為了解決空間數(shù)據(jù)海量特性而擴展的一個新的數(shù)據(jù)挖掘研究分支,是指從空間數(shù)據(jù)庫中提取隱含的用戶感興趣的空間或非空間的模式和普遍特征的過程空間數(shù)據(jù)挖掘的對象主要是空間數(shù)據(jù)庫,而空間數(shù)據(jù)庫中不僅存儲了空間事物或對象的幾何位置形狀數(shù)據(jù)屬性數(shù)據(jù)之外,而且還包含了空間事物或對象之間的空間拓撲關聯(lián)關系; 地理可視化技術,使用具體的視覺表達(表現(xiàn)媒質是紙計算機或者其他介質)來使空間環(huán)境和問題可視化,從而最大限度地利用與人類視覺能力相關的信息處理能力,通過結合科學可視化,制圖學和GIS發(fā)展起來的研究方向,目的在于通過 系列可視化技術使得用戶更好地理解空間數(shù)據(jù),有利于進一步探索分析空間數(shù)據(jù)。到目前為止,計算機的識別能力仍然不如人類的視覺觀察能力,人類可以迅速而準確地從圖形圖像中發(fā)現(xiàn)特定的數(shù)據(jù)分布模式。特別是在地理環(huán)境下,人們習慣處于一個可視化的環(huán)境中分析處理與空間相關的問題。由于結合了人敏銳的觀察能力以及可能的用戶專業(yè)知識,交互可視化的SDM可以使得數(shù)據(jù)挖掘過程成為一個互動、可視化、易于理解的重復過程,而不是完全自動的暗箱操作。這一點對于空間數(shù)據(jù)的探索分析尤為重要。一般而言,人機交互是最為重要的可視化技術之一,即時的交互使得空間數(shù)據(jù)分析和知識發(fā)現(xiàn)變得更為人性化和專業(yè)化。因此,地理可視化對于幫助我們分析當前數(shù)據(jù)和問題,思考解決問題的方法策略,表達和解譯空間分析結果都有十分特殊的意義 那么綜上所述,所謂文本地理信息提取,就是分詞技術和空間地理信息有機結合的衍生,也是空間數(shù)據(jù)挖掘技術在地理信息領域中的一種具體應用的體現(xiàn)。本文首先對分詞技術,數(shù)據(jù)挖掘和空間數(shù)據(jù)挖掘技術,地理可視化等技術的概念特點介紹闡述。然后基于這些技術,衍生出文本地理信息提取技術并進行了詳細技術路線和實現(xiàn)過程分析。 本研究所做的主要工作如下:(1)研究分詞技術,借助開源算法,集成開發(fā)環(huán)境,輕量級中文分詞API,地理信息系統(tǒng)建立簡單數(shù)據(jù)處理模型,針對地理信息應用方面做深入優(yōu)化,提取文本地理信息。 (2)研究數(shù)據(jù)挖掘技術,尤其是空間數(shù)據(jù)挖掘技術,針對空間數(shù)據(jù)庫,研究空間事物或對象之間的空間拓撲關聯(lián)關系。探索事物之間的內在聯(lián)系,建立簡單空間數(shù)據(jù)模型。 (3)研究地理信息可視化技術,通過前面研究的數(shù)據(jù)成果對其進行可視化處理,構建簡單交互模型。 (4)最后對文本地理信息構建成內容服務以及深入應用的可行性進行探究。 在研究過程中,所取得的創(chuàng)新點如下: (1)提出了一種文本地理信息提取的方法;诜衷~技術,特別是就漢語言特點的中文分詞技術,提出針對文本地理信息特定優(yōu)化的分詞技術,從而提取文本地理信息,使文本地理分詞精度和處理速度達到較優(yōu)。 (2)提出了一種基于距離的電子地圖標記聚類算法。當前主流算法是基于網(wǎng)格的標記聚類,其算法優(yōu)點是速度快,實現(xiàn)簡單,但是精度不夠高,誤差分布廣。 (3)構建了一個針對空間地理信息的簡單數(shù)據(jù)挖掘模型。數(shù)據(jù)挖掘作為一門新興技術在當今的研究中更多的是一些理論性質的研究,特別是在地理信息領域鮮有建樹,,本文從實踐的角度探尋和闡述其重要意義
【關鍵詞】:中文分詞 空間數(shù)據(jù)挖掘 地理信息可視化 地理信息提取 基于距離的電子地圖標記聚類
【學位授予單位】:成都理工大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1
【目錄】:
- 摘要4-7
- Abstract7-12
- 第1章 緒論12-23
- 1.1 研究意義及背景12-14
- 1.1.1 研究意義12
- 1.1.2 自然語言處理12
- 1.1.3 分詞技術12
- 1.1.4 數(shù)據(jù)挖掘技術12-14
- 1.1.5 地理信息可視化14
- 1.1.6 文本地理信息提取及顯示14
- 1.2 國內外研究現(xiàn)狀14-20
- 1.2.1 自然語言處理技術難點14-15
- 1.2.2 中文分詞研究方法和技術瓶頸15-18
- 1.2.3 數(shù)據(jù)挖掘和地理信息可視化研究現(xiàn)狀18-20
- 1.3 課題來源20
- 1.4 研究內容20-21
- 1.5 技術路線21
- 1.6 研究過程中所取得的創(chuàng)新和研究成果有:21-22
- 1.7 論文組織結構22-23
- 第2章 文本地理信息關鍵字提取23-42
- 2.1 文本地理信息初步提取24-35
- 2.1.1 原子切分24-25
- 2.1.2 1-最短路徑粗切分25-30
- 2.1.3 N-最短路徑粗切分30-31
- 2.1.4 初步分詞31-35
- 2.2 復合識別策略35-42
- 2.2.1 數(shù)字和日期合并等策略35-36
- 2.2.2 人名和地名識別策略36-38
- 2.2.3 詞性標注和最終結果38-39
- 2.2.4 數(shù)據(jù)詞典結構與構成模型39-42
- 第3章 電子地圖標記簇研究42-53
- 3.1 電子地圖標記簇的聚類43-45
- 3.2 地圖視窗管理模式45-47
- 3.3 電子地圖標記簇聚類算法研究47-50
- 3.3.1 基于網(wǎng)格的聚類算法47-49
- 3.3.2 基于距離的聚類算法49-50
- 3.4 電子地圖標記簇的應用50-53
- 第4章 基于地理信息的文本挖掘模型構建53-64
- 4.1 文本挖掘概念介紹53-54
- 4.2 基于地理信息的文本挖掘過程54-56
- 4.3 文本挖掘關鍵技術56-57
- 4.4 基于地理信息的文本挖掘技術應用研究57-64
- 第5章 基于文本地理信息提取的平臺服務設想64-68
- 5.1 面向服務架構(SOA-service-oriented architecture)64-65
- 5.2 Web service65-66
- 5.3 基于文本地理信息的 SOA 架構66-68
- 結論68-70
- 致謝70-71
- 參考文獻71-73
- 攻讀學位期間取得的學術成果73
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王樹良,史文中,李德毅,王新洲;用云解釋空間數(shù)據(jù)挖掘的有關問題[J];計算機工程與應用;2003年24期
2 徐勝華;劉紀平;胡明遠;;空間數(shù)據(jù)挖掘與發(fā)展趨勢探討[J];地理與地理信息科學;2008年03期
3 胡圣武;李鯤鵬;;空間數(shù)據(jù)挖掘的方法進展及其問題分析[J];地球科學與環(huán)境學報;2008年03期
4 王新華;米飛;馮英春;趙瑋;;空間數(shù)據(jù)挖掘技術的研究現(xiàn)狀與發(fā)展趨勢[J];計算機應用研究;2009年07期
5 潘燕芳;王慶光;;空間數(shù)據(jù)挖掘技術研究[J];福建電腦;2010年02期
6 郭學軍;;基于空間數(shù)據(jù)挖掘器的空間數(shù)據(jù)挖掘系統(tǒng)設計[J];煤炭技術;2011年05期
7 廖美紅;;基于空間數(shù)據(jù)挖掘的煤礦安全監(jiān)測系統(tǒng)[J];制造業(yè)自動化;2012年24期
8 李丹,高麗;空間數(shù)據(jù)挖掘技術[J];湖北汽車工業(yè)學院學報;1999年03期
9 馬健;;一種新的空間數(shù)據(jù)挖掘系統(tǒng)的分析與研究[J];安康學院學報;2014年02期
10 劉宇,曲波,朱仲英,施頌椒;空間數(shù)據(jù)挖掘理論與方法的研究[J];微型電腦應用;2000年08期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 孫成忠;趙潤懷;陳士林;哈丹朝魯;劉召芹;;基于聚類的空間數(shù)據(jù)挖掘技術在中藥資源分析中的應用[A];全國第8屆天然藥物資源學術研討會論文集[C];2008年
2 郭達志;何彬彬;;空間數(shù)據(jù)挖掘及其不確定性研究[A];煤炭資源高效綠色開采與數(shù)字礦山學術討論會論文集[C];2005年
3 王輝;;城市空間數(shù)據(jù)挖掘方法的研究[A];山東省測繪學術年會論文集[C];2006年
4 賈澤露;劉耀林;;可視化空間數(shù)據(jù)挖掘研究綜述[A];《測繪通報》測繪科學前沿技術論壇摘要集[C];2008年
5 王銳;馬德濤;劉曉輝;;基于網(wǎng)格的空間數(shù)據(jù)挖掘研究[A];中國地理信息系統(tǒng)協(xié)會第四次會員代表大會暨第十一屆年會論文集[C];2007年
6 肖予欽;張巨;陳犖;景寧;;空間數(shù)據(jù)挖掘的索引和數(shù)據(jù)訪問方法研究[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2003年
7 彭冶紅;王軍;熊輝;;地球空間數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[A];科技、工程與經濟社會協(xié)調發(fā)展——河南省第四屆青年學術年會論文集(上冊)[C];2004年
8 何撼東;王心源;;地下空間數(shù)據(jù)挖掘與虛擬現(xiàn)實[A];《測繪通報》測繪科學前沿技術論壇摘要集[C];2008年
9 徐啟昌;裴健;柴瑋;陶有東;楊冬青;唐世渭;;基于空間數(shù)據(jù)挖掘的客戶分析系統(tǒng)原型CASDM[A];第十六屆全國數(shù)據(jù)庫學術會議論文集[C];1999年
10 王銳;馬德濤;;GIS-T中的空間數(shù)據(jù)挖掘研究[A];中國地理信息系統(tǒng)協(xié)會第四次會員代表大會暨第十一屆年會論文集[C];2007年
中國重要報紙全文數(shù)據(jù)庫 前3條
1 中國科學院計算技術研究所 劉毅勇 何雄 李金山 廖浩均 孟亮 鄧柱中;空間數(shù)據(jù)挖掘:變數(shù)據(jù)為知識[N];計算機世界;2005年
2 王銳 白玲 龍波 馬德濤;何為空間數(shù)據(jù)挖掘[N];中國測繪報;2007年
3 張晶晶;地理國情監(jiān)測須“靠譜”[N];中國礦業(yè)報;2013年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 周海燕;空間數(shù)據(jù)挖掘的研究[D];中國人民解放軍信息工程大學;2003年
2 張志兵;空間數(shù)據(jù)挖掘關鍵技術研究[D];華中科技大學;2004年
3 胡彩平;基于空間自相關的空間數(shù)據(jù)挖掘若干關鍵技術的研究[D];南京航空航天大學;2007年
4 陳桂芬;面向精準農業(yè)的空間數(shù)據(jù)挖掘技術研究與應用[D];吉林大學;2009年
5 賈俊杰;空間數(shù)據(jù)挖掘中若干關鍵技術研究[D];長安大學;2009年
6 王占全;基于地理信息系統(tǒng)空間數(shù)據(jù)挖掘若干關鍵技術的研究[D];浙江大學;2005年
7 李新運;城市空間數(shù)據(jù)挖掘方法與應用研究[D];山東科技大學;2004年
8 樊明輝;空間數(shù)據(jù)挖掘及其可視化系統(tǒng)若干關鍵技術研究[D];中國科學院研究生院(遙感應用研究所);2006年
9 席景科;時空孤立點檢測算法研究[D];中國礦業(yè)大學;2010年
10 傅明;基于Web的空間數(shù)據(jù)挖掘研究[D];中南大學;2004年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 崔瑩;多源地質空間數(shù)據(jù)挖掘方法及應用[D];電子科技大學;2011年
2 劉然;定性空間推理與空間數(shù)據(jù)挖掘技術[D];重慶大學;2003年
3 楊坤;基于空間數(shù)據(jù)挖掘的超市選址決策研究[D];青島大學;2008年
4 楊清麗;基于空間數(shù)據(jù)挖掘的戰(zhàn)場地理環(huán)境分析系統(tǒng)研究[D];重慶大學;2008年
5 李志建;空間數(shù)據(jù)挖掘原型系統(tǒng)開發(fā)及其應用研究[D];中國地質大學(北京);2009年
6 楊蘇寧;空間數(shù)據(jù)挖掘在城市地理信息系統(tǒng)中的應用[D];江蘇科技大學;2010年
7 李國鋒;空間數(shù)據(jù)挖掘技術研究[D];西安電子科技大學;2005年
8 王凌;空間數(shù)據(jù)庫的空間數(shù)據(jù)挖掘技術研究[D];西安電子科技大學;2005年
9 吳強;空間數(shù)據(jù)挖掘中的分類方法及其應用研究[D];山東大學;2005年
10 廖曉玉;空間數(shù)據(jù)挖掘在地表水水質評價與預測中的應用研究[D];東北師范大學;2006年
本文關鍵詞:基于文本地理信息提取的平臺服務與應用研究,由筆耕文化傳播整理發(fā)布。
本文編號:412461
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/412461.html