基于AC自動機和地址概率模型的地址標準化算法研究
發(fā)布時間:2022-10-03 19:18
地址是一個連接廣大的人、物、事的關(guān)鍵橋梁,在商業(yè)競爭、輿情管理、智慧城市建設(shè)過程中發(fā)揮了不可或缺的作用。地址標準化能夠?qū)⒎墙Y(jié)構(gòu)化和非空間化的地址轉(zhuǎn)化為標準結(jié)構(gòu)的中文地址結(jié)構(gòu),使計算機能夠理解并處理字符串的地址信息。傳統(tǒng)的中文地址標準化主要從字典、統(tǒng)計、語義三個方面進行。本文依據(jù)大量的實例地址率先提出了一個12級的可配置地址層次模型,在該地址模型的基礎(chǔ)上提出了一種結(jié)合字典和概率統(tǒng)計的地址標準化算法。本文算法建立在一個五級輕量地址基礎(chǔ)庫上。首先利用AC自動機算法快速的標注出中文地址中的行政地址、地址關(guān)鍵詞和輔助詞,得出一個中文地址元素集合并建立地址向量模型(AVSM)。建立模型后,將AVSM中地址元素包含的前五級行政區(qū)劃地址要素進行條件組合,得出可能的行政區(qū)劃候選值集合。然后利用余弦相似度和地址樹來確定最佳的前五級行政區(qū)劃地址元素。隨后,依據(jù)關(guān)鍵詞和概率地址模型確定后續(xù)非行政區(qū)劃地址元素。最后,通過有限狀態(tài)自動機將得到的單條標準化后的地址進行地址等級規(guī)則校驗,對所有通過校驗后的地址利用補全字典進行缺失地址等級元素的補全。本文算法有效的融合了基于字典匹配切分速度快的特點和概率統(tǒng)計能有效的解決...
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 課題背景及研究意義
1.2 國內(nèi)外的研究現(xiàn)狀
1.2.1 國外的研究現(xiàn)狀
1.2.2 國內(nèi)的研究現(xiàn)狀
1.2.3 存在的問題分析
1.3 本論文的研究內(nèi)容
1.4 論文的組織結(jié)構(gòu)
2 相關(guān)理論基礎(chǔ)和說明
2.1 中文地址描述規(guī)則
2.1.1 地址要素
2.1.2 描述地址的細致程度
2.1.3 常見的錯誤地址類型
2.2 中文地址匹配切分
2.2.1 傳統(tǒng)的單模式匹配
2.2.2 多模式匹配算法
2.3 概率語言模型分詞
2.3.1 全切分詞圖
2.3.2 計算最佳的切分路徑
2.3.3 詞性標注
2.4 本章小結(jié)
3 基于AC自動機和地址概率模型的地址標準化算法
3.1 總體框架
3.2 地址數(shù)據(jù)預(yù)處理
3.3 加載詞典和標注類型
3.3.1 全國地址基礎(chǔ)庫
3.3.2 關(guān)鍵詞庫
3.3.3 輔助詞庫和其它可選庫
3.4 AC自動機實現(xiàn)地址標注匹配
3.4.1 Trie樹的構(gòu)建
3.4.2 基于雙數(shù)組的Trie樹
3.4.3 構(gòu)建自動機
3.4.4 多模式匹配
3.5 AVSM和余弦相似度確定行政等級
3.6 概率地址模型確定后續(xù)等級
3.7 規(guī)則序列與標準地址約束
3.8 多條地址的互相補全
3.8.1 構(gòu)建補全字典
3.8.2 地址補全
3.9 本章小結(jié)
4 標準化算法實驗與分析
4.1 地址歸一化率
4.2 地址切分速度
4.3 地址歸一化效果
4.4 實驗總結(jié)
5 總結(jié)和展望
5.1 本文總結(jié)
5.2 工作展望
參考文獻
致謝
附錄1 攻讀碩士學位期間參與的項目和發(fā)表的論文
附錄2 主要位置參考詞表
【參考文獻】:
期刊論文
[1]基于空間語義的地理編碼在智慧城市信息系統(tǒng)中的應(yīng)用[J]. 康昆,李明峰,周醉,蔡煒珩. 現(xiàn)代測繪. 2018(03)
[2]基于ACQS多模式匹配算法的優(yōu)化研究[J]. 董志鑫,方濱興. 智能計算機與應(yīng)用. 2017(05)
[3]上海市標準地址庫建設(shè)與應(yīng)用研究[J]. 陳明潔. 測繪與空間地理信息. 2017(03)
[4]地名地址標準化工作座談會在重慶召開[J]. 中國質(zhì)量與標準導(dǎo)報. 2017(01)
[5]非結(jié)構(gòu)化中文自然語言地址描述的自動識別[J]. 趙衛(wèi)鋒,張勤. 計算機工程與應(yīng)用. 2016(23)
[6]面向自然語言處理的深度學習研究[J]. 奚雪峰,周國棟. 自動化學報. 2016(10)
[7]基于Trie樹和有限狀態(tài)自動機的中文地址解析模型[J]. 汪洋,劉師培,王崢. 計算機與現(xiàn)代化. 2016(07)
[8]空間關(guān)系地址模型及其表達模式分析[J]. 周海,杜澤欣,范瑞杰,馬雷雷,梁汝鵬. 測繪工程. 2016(05)
[9]一種基于有限狀態(tài)機的中文地址標準化方法[J]. 羅明,黃海量. 計算機應(yīng)用研究. 2016(12)
[10]字符串匹配算法Sunday的改進[J]. 朱寧洪. 西安科技大學學報. 2016(01)
博士論文
[1]時間序列模式匹配技術(shù)研究[D]. 張勇.華中科技大學 2012
碩士論文
[1]面向互聯(lián)網(wǎng)的中文地址語義解析方法研究[D]. 謝婷婷.武漢工程大學 2017
[2]面向互聯(lián)網(wǎng)中文地址的地理要素解析方法的研究[D]. 段艷會.武漢工程大學 2016
[3]基于語義分析的地址匹配研究[D]. 臧英斐.重慶交通大學 2015
[4]基于條件隨機場和空間推理的地理編碼方法[D]. 周海.解放軍信息工程大學 2015
[5]基于OCR快遞單據(jù)識別的研究與實現(xiàn)[D]. 胡提坤.內(nèi)蒙古大學 2014
[6]城市地名地址匹配方法研究與實驗[D]. 洪瑩.遼寧工程技術(shù)大學 2008
本文編號:3684668
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 課題背景及研究意義
1.2 國內(nèi)外的研究現(xiàn)狀
1.2.1 國外的研究現(xiàn)狀
1.2.2 國內(nèi)的研究現(xiàn)狀
1.2.3 存在的問題分析
1.3 本論文的研究內(nèi)容
1.4 論文的組織結(jié)構(gòu)
2 相關(guān)理論基礎(chǔ)和說明
2.1 中文地址描述規(guī)則
2.1.1 地址要素
2.1.2 描述地址的細致程度
2.1.3 常見的錯誤地址類型
2.2 中文地址匹配切分
2.2.1 傳統(tǒng)的單模式匹配
2.2.2 多模式匹配算法
2.3 概率語言模型分詞
2.3.1 全切分詞圖
2.3.2 計算最佳的切分路徑
2.3.3 詞性標注
2.4 本章小結(jié)
3 基于AC自動機和地址概率模型的地址標準化算法
3.1 總體框架
3.2 地址數(shù)據(jù)預(yù)處理
3.3 加載詞典和標注類型
3.3.1 全國地址基礎(chǔ)庫
3.3.2 關(guān)鍵詞庫
3.3.3 輔助詞庫和其它可選庫
3.4 AC自動機實現(xiàn)地址標注匹配
3.4.1 Trie樹的構(gòu)建
3.4.2 基于雙數(shù)組的Trie樹
3.4.3 構(gòu)建自動機
3.4.4 多模式匹配
3.5 AVSM和余弦相似度確定行政等級
3.6 概率地址模型確定后續(xù)等級
3.7 規(guī)則序列與標準地址約束
3.8 多條地址的互相補全
3.8.1 構(gòu)建補全字典
3.8.2 地址補全
3.9 本章小結(jié)
4 標準化算法實驗與分析
4.1 地址歸一化率
4.2 地址切分速度
4.3 地址歸一化效果
4.4 實驗總結(jié)
5 總結(jié)和展望
5.1 本文總結(jié)
5.2 工作展望
參考文獻
致謝
附錄1 攻讀碩士學位期間參與的項目和發(fā)表的論文
附錄2 主要位置參考詞表
【參考文獻】:
期刊論文
[1]基于空間語義的地理編碼在智慧城市信息系統(tǒng)中的應(yīng)用[J]. 康昆,李明峰,周醉,蔡煒珩. 現(xiàn)代測繪. 2018(03)
[2]基于ACQS多模式匹配算法的優(yōu)化研究[J]. 董志鑫,方濱興. 智能計算機與應(yīng)用. 2017(05)
[3]上海市標準地址庫建設(shè)與應(yīng)用研究[J]. 陳明潔. 測繪與空間地理信息. 2017(03)
[4]地名地址標準化工作座談會在重慶召開[J]. 中國質(zhì)量與標準導(dǎo)報. 2017(01)
[5]非結(jié)構(gòu)化中文自然語言地址描述的自動識別[J]. 趙衛(wèi)鋒,張勤. 計算機工程與應(yīng)用. 2016(23)
[6]面向自然語言處理的深度學習研究[J]. 奚雪峰,周國棟. 自動化學報. 2016(10)
[7]基于Trie樹和有限狀態(tài)自動機的中文地址解析模型[J]. 汪洋,劉師培,王崢. 計算機與現(xiàn)代化. 2016(07)
[8]空間關(guān)系地址模型及其表達模式分析[J]. 周海,杜澤欣,范瑞杰,馬雷雷,梁汝鵬. 測繪工程. 2016(05)
[9]一種基于有限狀態(tài)機的中文地址標準化方法[J]. 羅明,黃海量. 計算機應(yīng)用研究. 2016(12)
[10]字符串匹配算法Sunday的改進[J]. 朱寧洪. 西安科技大學學報. 2016(01)
博士論文
[1]時間序列模式匹配技術(shù)研究[D]. 張勇.華中科技大學 2012
碩士論文
[1]面向互聯(lián)網(wǎng)的中文地址語義解析方法研究[D]. 謝婷婷.武漢工程大學 2017
[2]面向互聯(lián)網(wǎng)中文地址的地理要素解析方法的研究[D]. 段艷會.武漢工程大學 2016
[3]基于語義分析的地址匹配研究[D]. 臧英斐.重慶交通大學 2015
[4]基于條件隨機場和空間推理的地理編碼方法[D]. 周海.解放軍信息工程大學 2015
[5]基于OCR快遞單據(jù)識別的研究與實現(xiàn)[D]. 胡提坤.內(nèi)蒙古大學 2014
[6]城市地名地址匹配方法研究與實驗[D]. 洪瑩.遼寧工程技術(shù)大學 2008
本文編號:3684668
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3684668.html
最近更新
教材專著