地圖標(biāo)注內(nèi)容的文本異常識(shí)別
本文關(guān)鍵詞:地圖標(biāo)注內(nèi)容的文本異常識(shí)別,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著地圖標(biāo)注服務(wù)的深入應(yīng)用,開(kāi)放性標(biāo)注行為引起的標(biāo)注安全性與適宜性問(wèn)題逐步被放大。而如今,基于地圖標(biāo)注的敏感信息發(fā)現(xiàn)與適宜性評(píng)價(jià)依舊未能引起學(xué)術(shù)界的注意。本文從標(biāo)注文本的內(nèi)容屬性與空間特征出發(fā),旨在標(biāo)注內(nèi)容中識(shí)別出異常信息,在空間上對(duì)標(biāo)注投放的適宜性進(jìn)行評(píng)價(jià),從而實(shí)現(xiàn)綠色標(biāo)注行為,最終保障地圖的安全性。本文主要從中文分詞、敏感詞庫(kù)、多模式匹配三方面進(jìn)行了研究,主要工作如下: (1)雙哈希詞典分詞機(jī)制研究。中文分詞的效率直接影響到地圖標(biāo)注適宜性的評(píng)價(jià),本文首先分析最大正向匹配與最大逆向匹配為主導(dǎo)的分詞技術(shù),詳細(xì)介紹了多種分詞詞典機(jī)制。根據(jù)漢語(yǔ)詞庫(kù)詞長(zhǎng)與英文的差異性,采用雙字Hashing詞典機(jī)制對(duì)中文進(jìn)行分詞。通過(guò)實(shí)驗(yàn),本文驗(yàn)證了該分詞方法簡(jiǎn)單快速,能夠良好的適用于中文分詞。 (2)敏感詞庫(kù)構(gòu)建。敏感詞詞庫(kù)被廣泛應(yīng)用于各個(gè)論壇和網(wǎng)絡(luò)信息發(fā)布的攔截,目的是規(guī)范與綠化網(wǎng)絡(luò)應(yīng)用環(huán)境。據(jù)此,本文首先分析敏感詞的特征,并且在論壇敏感詞的基礎(chǔ)上,考慮標(biāo)注的空間屬性,對(duì)地圖標(biāo)注的敏感詞進(jìn)行了分類,最終構(gòu)建了基于地理標(biāo)注的敏感詞庫(kù),為敏感信息的識(shí)別奠定了基礎(chǔ)。 (3)多模式匹配算法。模式匹配算法是敏感詞發(fā)現(xiàn)的一個(gè)關(guān)鍵環(huán)節(jié),針對(duì)地圖標(biāo)注敏感詞特點(diǎn),本文對(duì)常用的單模式與多模式匹配算法分別進(jìn)行了對(duì)比與分析,提出采用AC-BM算法進(jìn)行標(biāo)注敏感詞的檢測(cè)。鑒于標(biāo)注中異常詞中英文混合的存在,本文統(tǒng)一將其轉(zhuǎn)換到Unicode碼平臺(tái)上進(jìn)行樹(shù)構(gòu)建與匹配計(jì)算,改進(jìn)與優(yōu)化了傳統(tǒng)的AC-BM算法,最終實(shí)現(xiàn)了快速的敏感詞識(shí)別。 本文主要工作集中在標(biāo)注異常安全的描述與識(shí)別,在中文分詞、敏感詞詞庫(kù)、多模式匹配算法方面均有所發(fā)現(xiàn),并實(shí)現(xiàn)了相應(yīng)的功能。
【關(guān)鍵詞】:地理標(biāo)注 中文分詞 敏感詞詞庫(kù) 模式匹配
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:P208
【目錄】:
- 摘要5-6
- Abstract6-7
- 目錄7-9
- 第一章 緒論9-14
- 1.1 研究意義9-10
- 1.2 研究現(xiàn)狀10-13
- 1.2.1 地圖標(biāo)注的研究10-11
- 1.2.2 敏感文本識(shí)別技術(shù)研究11-13
- 1.3 本文安排13-14
- 第二章 中文分詞14-26
- 2.1 中文分詞算法14-17
- 2.1.1 基于字符串匹配的分詞算法14-17
- 2.1.2 基于統(tǒng)計(jì)的分詞方法17
- 2.2 傳統(tǒng)中文分詞詞典17-21
- 2.2.1 基于整詞二分的詞典機(jī)制17-18
- 2.2.2 基于Trie索引樹(shù)的詞典機(jī)制18-20
- 2.2.3 基于逐字二分的詞典機(jī)制20-21
- 2.3 雙HASHING結(jié)構(gòu)詞典分詞21-22
- 2.4 雙字HASHING結(jié)構(gòu)詞典分詞過(guò)程與實(shí)驗(yàn)22-25
- 2.4.1 實(shí)驗(yàn)與分析24-25
- 2.5 本章小結(jié)25-26
- 第三章 敏感詞庫(kù)構(gòu)建與常用匹配算法26-37
- 3.1 敏感詞詞庫(kù)26-29
- 3.1.1 敏感詞特征26-28
- 3.1.2 地圖標(biāo)注敏感詞庫(kù)構(gòu)建28-29
- 3.2 模式匹配算法研究29-36
- 3.2.1 單模式匹配算法30-34
- 3.2.2 多模式匹配算法34-36
- 3.3 本章小結(jié)36-37
- 第四章 基于漢字英文混合的AC-BM算法描述37-50
- 4.1 模式樹(shù)的構(gòu)建37-39
- 4.2 模式樹(shù)中移位函數(shù)初始化及計(jì)算39-46
- 4.3 算法匹配過(guò)程46-48
- 4.4 算法匹配效率分析48-49
- 4.5 本章小結(jié)49-50
- 第五章 標(biāo)注敏感信息算例與實(shí)驗(yàn)分析50-58
- 5.1 標(biāo)注異常信息提取流程50-51
- 5.2 實(shí)驗(yàn)結(jié)果與分析51-54
- 5.2.1 總體標(biāo)注異常識(shí)別效果52-53
- 5.2.2 單標(biāo)注異常發(fā)現(xiàn)與表達(dá)53-54
- 5.2.3 分類識(shí)別結(jié)果54
- 5.2.4 標(biāo)注敏感度分布54
- 5.3 算法精度與效率54-57
- 5.3.1 算法精度55
- 5.3.2 算法效率55-57
- 5.4 本章小結(jié)57-58
- 第六章 結(jié)論與展望58-60
- 6.1 主要工作58
- 6.2 展望58-60
- 致謝60-62
- 參考文獻(xiàn)62-65
- 附錄A 碩士期間科研情況65-66
- 一 碩士期間發(fā)表的論文65
- 二 碩士期刊參加的科研項(xiàng)目65-66
- 附錄B 部分程序代碼66-81
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 吳長(zhǎng)彬;閭國(guó)年;劉昱君;;基于規(guī)則庫(kù)和網(wǎng)格算法的土地利用現(xiàn)狀圖自動(dòng)數(shù)字注記[J];測(cè)繪學(xué)報(bào);2008年02期
2 張雪英;朱少楠;張春菊;;中文文本的地理命名實(shí)體標(biāo)注[J];測(cè)繪學(xué)報(bào);2012年01期
3 張雪英;張春菊;朱少楠;;中文文本的地理空間關(guān)系標(biāo)注[J];測(cè)繪學(xué)報(bào);2012年03期
4 樊紅,張祖勛,杜道生;地圖線狀要素自動(dòng)注記的算法設(shè)計(jì)與實(shí)現(xiàn)[J];測(cè)繪學(xué)報(bào);1999年01期
5 喬占明;閆浩文;;地圖標(biāo)注和地圖注記的探討[J];測(cè)繪與空間地理信息;2011年01期
6 何麗華;徐之俊;;地圖注記設(shè)計(jì)若干問(wèn)題的探討[J];地理空間信息;2011年06期
7 王永成,沈州,許一震;改進(jìn)的多模式匹配算法[J];計(jì)算機(jī)研究與發(fā)展;2002年01期
8 張永奎;高峰;;一種不良文本識(shí)別特征選擇方法[J];計(jì)算機(jī)工程與應(yīng)用;2010年02期
9 李國(guó)和;劉光勝;秦波波;吳衛(wèi)江;李洪奇;;綜合最大匹配和歧義檢測(cè)的中文分詞粗分方法[J];計(jì)算機(jī)工程與應(yīng)用;2012年14期
10 董海燕;張其善;;基于最小匹配誤差方向預(yù)測(cè)的快速半像素運(yùn)動(dòng)估計(jì)[J];計(jì)算機(jī)科學(xué);2005年09期
本文關(guān)鍵詞:地圖標(biāo)注內(nèi)容的文本異常識(shí)別,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):305250
本文鏈接:http://sikaile.net/kejilunwen/dizhicehuilunwen/305250.html