地圖標注內(nèi)容的文本異常識別
本文關(guān)鍵詞:地圖標注內(nèi)容的文本異常識別,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著地圖標注服務(wù)的深入應(yīng)用,開放性標注行為引起的標注安全性與適宜性問題逐步被放大。而如今,基于地圖標注的敏感信息發(fā)現(xiàn)與適宜性評價依舊未能引起學(xué)術(shù)界的注意。本文從標注文本的內(nèi)容屬性與空間特征出發(fā),旨在標注內(nèi)容中識別出異常信息,在空間上對標注投放的適宜性進行評價,從而實現(xiàn)綠色標注行為,最終保障地圖的安全性。本文主要從中文分詞、敏感詞庫、多模式匹配三方面進行了研究,主要工作如下: (1)雙哈希詞典分詞機制研究。中文分詞的效率直接影響到地圖標注適宜性的評價,本文首先分析最大正向匹配與最大逆向匹配為主導(dǎo)的分詞技術(shù),詳細介紹了多種分詞詞典機制。根據(jù)漢語詞庫詞長與英文的差異性,采用雙字Hashing詞典機制對中文進行分詞。通過實驗,本文驗證了該分詞方法簡單快速,能夠良好的適用于中文分詞。 (2)敏感詞庫構(gòu)建。敏感詞詞庫被廣泛應(yīng)用于各個論壇和網(wǎng)絡(luò)信息發(fā)布的攔截,目的是規(guī)范與綠化網(wǎng)絡(luò)應(yīng)用環(huán)境。據(jù)此,本文首先分析敏感詞的特征,并且在論壇敏感詞的基礎(chǔ)上,考慮標注的空間屬性,對地圖標注的敏感詞進行了分類,最終構(gòu)建了基于地理標注的敏感詞庫,為敏感信息的識別奠定了基礎(chǔ)。 (3)多模式匹配算法。模式匹配算法是敏感詞發(fā)現(xiàn)的一個關(guān)鍵環(huán)節(jié),針對地圖標注敏感詞特點,本文對常用的單模式與多模式匹配算法分別進行了對比與分析,提出采用AC-BM算法進行標注敏感詞的檢測。鑒于標注中異常詞中英文混合的存在,本文統(tǒng)一將其轉(zhuǎn)換到Unicode碼平臺上進行樹構(gòu)建與匹配計算,改進與優(yōu)化了傳統(tǒng)的AC-BM算法,最終實現(xiàn)了快速的敏感詞識別。 本文主要工作集中在標注異常安全的描述與識別,在中文分詞、敏感詞詞庫、多模式匹配算法方面均有所發(fā)現(xiàn),并實現(xiàn)了相應(yīng)的功能。
【關(guān)鍵詞】:地理標注 中文分詞 敏感詞詞庫 模式匹配
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:P208
【目錄】:
- 摘要5-6
- Abstract6-7
- 目錄7-9
- 第一章 緒論9-14
- 1.1 研究意義9-10
- 1.2 研究現(xiàn)狀10-13
- 1.2.1 地圖標注的研究10-11
- 1.2.2 敏感文本識別技術(shù)研究11-13
- 1.3 本文安排13-14
- 第二章 中文分詞14-26
- 2.1 中文分詞算法14-17
- 2.1.1 基于字符串匹配的分詞算法14-17
- 2.1.2 基于統(tǒng)計的分詞方法17
- 2.2 傳統(tǒng)中文分詞詞典17-21
- 2.2.1 基于整詞二分的詞典機制17-18
- 2.2.2 基于Trie索引樹的詞典機制18-20
- 2.2.3 基于逐字二分的詞典機制20-21
- 2.3 雙HASHING結(jié)構(gòu)詞典分詞21-22
- 2.4 雙字HASHING結(jié)構(gòu)詞典分詞過程與實驗22-25
- 2.4.1 實驗與分析24-25
- 2.5 本章小結(jié)25-26
- 第三章 敏感詞庫構(gòu)建與常用匹配算法26-37
- 3.1 敏感詞詞庫26-29
- 3.1.1 敏感詞特征26-28
- 3.1.2 地圖標注敏感詞庫構(gòu)建28-29
- 3.2 模式匹配算法研究29-36
- 3.2.1 單模式匹配算法30-34
- 3.2.2 多模式匹配算法34-36
- 3.3 本章小結(jié)36-37
- 第四章 基于漢字英文混合的AC-BM算法描述37-50
- 4.1 模式樹的構(gòu)建37-39
- 4.2 模式樹中移位函數(shù)初始化及計算39-46
- 4.3 算法匹配過程46-48
- 4.4 算法匹配效率分析48-49
- 4.5 本章小結(jié)49-50
- 第五章 標注敏感信息算例與實驗分析50-58
- 5.1 標注異常信息提取流程50-51
- 5.2 實驗結(jié)果與分析51-54
- 5.2.1 總體標注異常識別效果52-53
- 5.2.2 單標注異常發(fā)現(xiàn)與表達53-54
- 5.2.3 分類識別結(jié)果54
- 5.2.4 標注敏感度分布54
- 5.3 算法精度與效率54-57
- 5.3.1 算法精度55
- 5.3.2 算法效率55-57
- 5.4 本章小結(jié)57-58
- 第六章 結(jié)論與展望58-60
- 6.1 主要工作58
- 6.2 展望58-60
- 致謝60-62
- 參考文獻62-65
- 附錄A 碩士期間科研情況65-66
- 一 碩士期間發(fā)表的論文65
- 二 碩士期刊參加的科研項目65-66
- 附錄B 部分程序代碼66-81
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 吳長彬;閭國年;劉昱君;;基于規(guī)則庫和網(wǎng)格算法的土地利用現(xiàn)狀圖自動數(shù)字注記[J];測繪學(xué)報;2008年02期
2 張雪英;朱少楠;張春菊;;中文文本的地理命名實體標注[J];測繪學(xué)報;2012年01期
3 張雪英;張春菊;朱少楠;;中文文本的地理空間關(guān)系標注[J];測繪學(xué)報;2012年03期
4 樊紅,張祖勛,杜道生;地圖線狀要素自動注記的算法設(shè)計與實現(xiàn)[J];測繪學(xué)報;1999年01期
5 喬占明;閆浩文;;地圖標注和地圖注記的探討[J];測繪與空間地理信息;2011年01期
6 何麗華;徐之俊;;地圖注記設(shè)計若干問題的探討[J];地理空間信息;2011年06期
7 王永成,沈州,許一震;改進的多模式匹配算法[J];計算機研究與發(fā)展;2002年01期
8 張永奎;高峰;;一種不良文本識別特征選擇方法[J];計算機工程與應(yīng)用;2010年02期
9 李國和;劉光勝;秦波波;吳衛(wèi)江;李洪奇;;綜合最大匹配和歧義檢測的中文分詞粗分方法[J];計算機工程與應(yīng)用;2012年14期
10 董海燕;張其善;;基于最小匹配誤差方向預(yù)測的快速半像素運動估計[J];計算機科學(xué);2005年09期
本文關(guān)鍵詞:地圖標注內(nèi)容的文本異常識別,,由筆耕文化傳播整理發(fā)布。
本文編號:305250
本文鏈接:http://sikaile.net/kejilunwen/dizhicehuilunwen/305250.html