基于CRF的城市火災微博文本地名地址識別與精化處理方法
發(fā)布時間:2022-10-22 18:35
城市火災位置的及時感知不僅有利于公眾的智慧出行,而且還有利于政府部門對火災事故的高效應急處置。因而快速感知城市火災的位置成了一個關(guān)鍵問題。針對現(xiàn)有的城市火災監(jiān)測手段存在耗費大量人力物力、效率不高等問題,本文利用微博數(shù)據(jù)傳播快、數(shù)據(jù)量大、成本低、隱含城市火災位置等優(yōu)勢,以及機器學習與數(shù)據(jù)融合方法,提出了一種基于CRF的城市火災微博文本地名地址識別與精化處理方法,實現(xiàn)了城市火災位置的快速感知。論文的主要工作及成果體現(xiàn)在:(1)研究了新浪微博城市火災數(shù)據(jù)的獲取、處理方法,對地名地址統(tǒng)計特征進行了設計與選取。利用網(wǎng)絡爬蟲技術(shù)獲取了2017年1月-2019年11月的南昌市城市火災微博數(shù)據(jù),并進行文本規(guī)范化及分詞處理。根據(jù)城市火災微博文本的特點,選取了字、詞性、邊界、地名詞典與后綴詞相結(jié)合的地名地址統(tǒng)計特征。(2)研究了基于CRF模型實現(xiàn)城市火災微博文本的地名地址識別。以地名地址統(tǒng)計特征為基礎,選取BIEO標注體系與基于字的標注方法,通過對城市火災微博文本進行特征標注,利用CRF模型對其隱含的地名地址進行識別。(3)研究了地名地址識別結(jié)果的精化處理方法。針對基于CRF模型識別出的部分地名地址存在層...
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀及分析
1.2.1 文本信息抽取
1.2.2 地名地址識別
1.3 研究內(nèi)容
1.4 技術(shù)路線
1.5 論文組織結(jié)構(gòu)
1.6 本章小結(jié)
2 基礎理論與方法
2.1 術(shù)語與基本概念
2.1.1 中文微博
2.1.2 微博爬蟲
2.1.3 地名地址
2.1.4 條件隨機場
2.2 地名地址識別評價方法
2.3 本章小結(jié)
3 基于CRF的微博中地名地址識別方法
3.1 地名地址識別總體流程
3.2 CRF++工具介紹
3.3 微博數(shù)據(jù)獲取與預處理
3.3.1 城市火災微博數(shù)據(jù)獲取
3.3.2 微博文本規(guī)范化處理
3.3.3 微博文本分詞處理
3.4 標注體系
3.4.1 序列標注方法
3.4.2 標注體系
3.5 特征選取
3.6 特征標注
3.7 特征模板
3.7.1 特征模板類型
3.7.2 特征模板設計
3.8 模型訓練與測試
3.9 本章小結(jié)
4 地名地址識別結(jié)果的精化處理方法
4.1 基于層級地名詞庫的地名地址補全方法
4.1.1 地名地址補全總體設計思路
4.1.2 層級地名詞庫
4.1.3 地名地址補全算法
4.2 多地名地址中的火災位置鑒別方法
4.2.1 火災位置鑒別總體設計思路
4.2.2 火災位置鑒別算法
4.3 本章小結(jié)
5 實驗與分析
5.1 基于CRF的微博中地名地址識別
5.1.1 實驗數(shù)據(jù)
5.1.2 模型訓練
5.1.3 模型測試
5.1.4 結(jié)果分析
5.1.5 問題分析
5.2 地名地址識別結(jié)果的精化處理
5.2.1 基于層級地名詞庫的地名地址補全
5.2.2 多地名地址中的火災位置鑒別
5.3 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻
致謝
在讀期間公開發(fā)表論文(著)及科研情況
本文編號:3696648
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀及分析
1.2.1 文本信息抽取
1.2.2 地名地址識別
1.3 研究內(nèi)容
1.4 技術(shù)路線
1.5 論文組織結(jié)構(gòu)
1.6 本章小結(jié)
2 基礎理論與方法
2.1 術(shù)語與基本概念
2.1.1 中文微博
2.1.2 微博爬蟲
2.1.3 地名地址
2.1.4 條件隨機場
2.2 地名地址識別評價方法
2.3 本章小結(jié)
3 基于CRF的微博中地名地址識別方法
3.1 地名地址識別總體流程
3.2 CRF++工具介紹
3.3 微博數(shù)據(jù)獲取與預處理
3.3.1 城市火災微博數(shù)據(jù)獲取
3.3.2 微博文本規(guī)范化處理
3.3.3 微博文本分詞處理
3.4 標注體系
3.4.1 序列標注方法
3.4.2 標注體系
3.5 特征選取
3.6 特征標注
3.7 特征模板
3.7.1 特征模板類型
3.7.2 特征模板設計
3.8 模型訓練與測試
3.9 本章小結(jié)
4 地名地址識別結(jié)果的精化處理方法
4.1 基于層級地名詞庫的地名地址補全方法
4.1.1 地名地址補全總體設計思路
4.1.2 層級地名詞庫
4.1.3 地名地址補全算法
4.2 多地名地址中的火災位置鑒別方法
4.2.1 火災位置鑒別總體設計思路
4.2.2 火災位置鑒別算法
4.3 本章小結(jié)
5 實驗與分析
5.1 基于CRF的微博中地名地址識別
5.1.1 實驗數(shù)據(jù)
5.1.2 模型訓練
5.1.3 模型測試
5.1.4 結(jié)果分析
5.1.5 問題分析
5.2 地名地址識別結(jié)果的精化處理
5.2.1 基于層級地名詞庫的地名地址補全
5.2.2 多地名地址中的火災位置鑒別
5.3 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻
致謝
在讀期間公開發(fā)表論文(著)及科研情況
本文編號:3696648
本文鏈接:http://sikaile.net/jianzhugongchenglunwen/3696648.html
最近更新
教材專著