天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 測繪論文 >

地圖標注內(nèi)容的文本異常識別

發(fā)布時間:2017-04-14 05:08

  本文關(guān)鍵詞:地圖標注內(nèi)容的文本異常識別,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著地圖標注服務(wù)的深入應(yīng)用,開放性標注行為引起的標注安全性與適宜性問題逐步被放大。而如今,基于地圖標注的敏感信息發(fā)現(xiàn)與適宜性評價依舊未能引起學(xué)術(shù)界的注意。本文從標注文本的內(nèi)容屬性與空間特征出發(fā),旨在標注內(nèi)容中識別出異常信息,在空間上對標注投放的適宜性進行評價,從而實現(xiàn)綠色標注行為,最終保障地圖的安全性。本文主要從中文分詞、敏感詞庫、多模式匹配三方面進行了研究,主要工作如下: (1)雙哈希詞典分詞機制研究。中文分詞的效率直接影響到地圖標注適宜性的評價,本文首先分析最大正向匹配與最大逆向匹配為主導(dǎo)的分詞技術(shù),詳細介紹了多種分詞詞典機制。根據(jù)漢語詞庫詞長與英文的差異性,采用雙字Hashing詞典機制對中文進行分詞。通過實驗,本文驗證了該分詞方法簡單快速,能夠良好的適用于中文分詞。 (2)敏感詞庫構(gòu)建。敏感詞詞庫被廣泛應(yīng)用于各個論壇和網(wǎng)絡(luò)信息發(fā)布的攔截,目的是規(guī)范與綠化網(wǎng)絡(luò)應(yīng)用環(huán)境。據(jù)此,本文首先分析敏感詞的特征,并且在論壇敏感詞的基礎(chǔ)上,考慮標注的空間屬性,對地圖標注的敏感詞進行了分類,最終構(gòu)建了基于地理標注的敏感詞庫,為敏感信息的識別奠定了基礎(chǔ)。 (3)多模式匹配算法。模式匹配算法是敏感詞發(fā)現(xiàn)的一個關(guān)鍵環(huán)節(jié),針對地圖標注敏感詞特點,本文對常用的單模式與多模式匹配算法分別進行了對比與分析,提出采用AC-BM算法進行標注敏感詞的檢測。鑒于標注中異常詞中英文混合的存在,本文統(tǒng)一將其轉(zhuǎn)換到Unicode碼平臺上進行樹構(gòu)建與匹配計算,改進與優(yōu)化了傳統(tǒng)的AC-BM算法,最終實現(xiàn)了快速的敏感詞識別。 本文主要工作集中在標注異常安全的描述與識別,在中文分詞、敏感詞詞庫、多模式匹配算法方面均有所發(fā)現(xiàn),并實現(xiàn)了相應(yīng)的功能。
【關(guān)鍵詞】:地理標注 中文分詞 敏感詞詞庫 模式匹配
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:P208
【目錄】:
  • 摘要5-6
  • Abstract6-7
  • 目錄7-9
  • 第一章 緒論9-14
  • 1.1 研究意義9-10
  • 1.2 研究現(xiàn)狀10-13
  • 1.2.1 地圖標注的研究10-11
  • 1.2.2 敏感文本識別技術(shù)研究11-13
  • 1.3 本文安排13-14
  • 第二章 中文分詞14-26
  • 2.1 中文分詞算法14-17
  • 2.1.1 基于字符串匹配的分詞算法14-17
  • 2.1.2 基于統(tǒng)計的分詞方法17
  • 2.2 傳統(tǒng)中文分詞詞典17-21
  • 2.2.1 基于整詞二分的詞典機制17-18
  • 2.2.2 基于Trie索引樹的詞典機制18-20
  • 2.2.3 基于逐字二分的詞典機制20-21
  • 2.3 雙HASHING結(jié)構(gòu)詞典分詞21-22
  • 2.4 雙字HASHING結(jié)構(gòu)詞典分詞過程與實驗22-25
  • 2.4.1 實驗與分析24-25
  • 2.5 本章小結(jié)25-26
  • 第三章 敏感詞庫構(gòu)建與常用匹配算法26-37
  • 3.1 敏感詞詞庫26-29
  • 3.1.1 敏感詞特征26-28
  • 3.1.2 地圖標注敏感詞庫構(gòu)建28-29
  • 3.2 模式匹配算法研究29-36
  • 3.2.1 單模式匹配算法30-34
  • 3.2.2 多模式匹配算法34-36
  • 3.3 本章小結(jié)36-37
  • 第四章 基于漢字英文混合的AC-BM算法描述37-50
  • 4.1 模式樹的構(gòu)建37-39
  • 4.2 模式樹中移位函數(shù)初始化及計算39-46
  • 4.3 算法匹配過程46-48
  • 4.4 算法匹配效率分析48-49
  • 4.5 本章小結(jié)49-50
  • 第五章 標注敏感信息算例與實驗分析50-58
  • 5.1 標注異常信息提取流程50-51
  • 5.2 實驗結(jié)果與分析51-54
  • 5.2.1 總體標注異常識別效果52-53
  • 5.2.2 單標注異常發(fā)現(xiàn)與表達53-54
  • 5.2.3 分類識別結(jié)果54
  • 5.2.4 標注敏感度分布54
  • 5.3 算法精度與效率54-57
  • 5.3.1 算法精度55
  • 5.3.2 算法效率55-57
  • 5.4 本章小結(jié)57-58
  • 第六章 結(jié)論與展望58-60
  • 6.1 主要工作58
  • 6.2 展望58-60
  • 致謝60-62
  • 參考文獻62-65
  • 附錄A 碩士期間科研情況65-66
  • 一 碩士期間發(fā)表的論文65
  • 二 碩士期刊參加的科研項目65-66
  • 附錄B 部分程序代碼66-81

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 吳長彬;閭國年;劉昱君;;基于規(guī)則庫和網(wǎng)格算法的土地利用現(xiàn)狀圖自動數(shù)字注記[J];測繪學(xué)報;2008年02期

2 張雪英;朱少楠;張春菊;;中文文本的地理命名實體標注[J];測繪學(xué)報;2012年01期

3 張雪英;張春菊;朱少楠;;中文文本的地理空間關(guān)系標注[J];測繪學(xué)報;2012年03期

4 樊紅,張祖勛,杜道生;地圖線狀要素自動注記的算法設(shè)計與實現(xiàn)[J];測繪學(xué)報;1999年01期

5 喬占明;閆浩文;;地圖標注和地圖注記的探討[J];測繪與空間地理信息;2011年01期

6 何麗華;徐之俊;;地圖注記設(shè)計若干問題的探討[J];地理空間信息;2011年06期

7 王永成,沈州,許一震;改進的多模式匹配算法[J];計算機研究與發(fā)展;2002年01期

8 張永奎;高峰;;一種不良文本識別特征選擇方法[J];計算機工程與應(yīng)用;2010年02期

9 李國和;劉光勝;秦波波;吳衛(wèi)江;李洪奇;;綜合最大匹配和歧義檢測的中文分詞粗分方法[J];計算機工程與應(yīng)用;2012年14期

10 董海燕;張其善;;基于最小匹配誤差方向預(yù)測的快速半像素運動估計[J];計算機科學(xué);2005年09期


  本文關(guān)鍵詞:地圖標注內(nèi)容的文本異常識別,,由筆耕文化傳播整理發(fā)布。



本文編號:305250

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/dizhicehuilunwen/305250.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3f14a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com