基于CRF的城市火災(zāi)微博文本地名地址識(shí)別與精化處理方法
發(fā)布時(shí)間:2022-10-22 18:35
城市火災(zāi)位置的及時(shí)感知不僅有利于公眾的智慧出行,而且還有利于政府部門對(duì)火災(zāi)事故的高效應(yīng)急處置。因而快速感知城市火災(zāi)的位置成了一個(gè)關(guān)鍵問(wèn)題。針對(duì)現(xiàn)有的城市火災(zāi)監(jiān)測(cè)手段存在耗費(fèi)大量人力物力、效率不高等問(wèn)題,本文利用微博數(shù)據(jù)傳播快、數(shù)據(jù)量大、成本低、隱含城市火災(zāi)位置等優(yōu)勢(shì),以及機(jī)器學(xué)習(xí)與數(shù)據(jù)融合方法,提出了一種基于CRF的城市火災(zāi)微博文本地名地址識(shí)別與精化處理方法,實(shí)現(xiàn)了城市火災(zāi)位置的快速感知。論文的主要工作及成果體現(xiàn)在:(1)研究了新浪微博城市火災(zāi)數(shù)據(jù)的獲取、處理方法,對(duì)地名地址統(tǒng)計(jì)特征進(jìn)行了設(shè)計(jì)與選取。利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取了2017年1月-2019年11月的南昌市城市火災(zāi)微博數(shù)據(jù),并進(jìn)行文本規(guī)范化及分詞處理。根據(jù)城市火災(zāi)微博文本的特點(diǎn),選取了字、詞性、邊界、地名詞典與后綴詞相結(jié)合的地名地址統(tǒng)計(jì)特征。(2)研究了基于CRF模型實(shí)現(xiàn)城市火災(zāi)微博文本的地名地址識(shí)別。以地名地址統(tǒng)計(jì)特征為基礎(chǔ),選取BIEO標(biāo)注體系與基于字的標(biāo)注方法,通過(guò)對(duì)城市火災(zāi)微博文本進(jìn)行特征標(biāo)注,利用CRF模型對(duì)其隱含的地名地址進(jìn)行識(shí)別。(3)研究了地名地址識(shí)別結(jié)果的精化處理方法。針對(duì)基于CRF模型識(shí)別出的部分地名地址存在層...
【文章頁(yè)數(shù)】:76 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀及分析
1.2.1 文本信息抽取
1.2.2 地名地址識(shí)別
1.3 研究?jī)?nèi)容
1.4 技術(shù)路線
1.5 論文組織結(jié)構(gòu)
1.6 本章小結(jié)
2 基礎(chǔ)理論與方法
2.1 術(shù)語(yǔ)與基本概念
2.1.1 中文微博
2.1.2 微博爬蟲(chóng)
2.1.3 地名地址
2.1.4 條件隨機(jī)場(chǎng)
2.2 地名地址識(shí)別評(píng)價(jià)方法
2.3 本章小結(jié)
3 基于CRF的微博中地名地址識(shí)別方法
3.1 地名地址識(shí)別總體流程
3.2 CRF++工具介紹
3.3 微博數(shù)據(jù)獲取與預(yù)處理
3.3.1 城市火災(zāi)微博數(shù)據(jù)獲取
3.3.2 微博文本規(guī)范化處理
3.3.3 微博文本分詞處理
3.4 標(biāo)注體系
3.4.1 序列標(biāo)注方法
3.4.2 標(biāo)注體系
3.5 特征選取
3.6 特征標(biāo)注
3.7 特征模板
3.7.1 特征模板類型
3.7.2 特征模板設(shè)計(jì)
3.8 模型訓(xùn)練與測(cè)試
3.9 本章小結(jié)
4 地名地址識(shí)別結(jié)果的精化處理方法
4.1 基于層級(jí)地名詞庫(kù)的地名地址補(bǔ)全方法
4.1.1 地名地址補(bǔ)全總體設(shè)計(jì)思路
4.1.2 層級(jí)地名詞庫(kù)
4.1.3 地名地址補(bǔ)全算法
4.2 多地名地址中的火災(zāi)位置鑒別方法
4.2.1 火災(zāi)位置鑒別總體設(shè)計(jì)思路
4.2.2 火災(zāi)位置鑒別算法
4.3 本章小結(jié)
5 實(shí)驗(yàn)與分析
5.1 基于CRF的微博中地名地址識(shí)別
5.1.1 實(shí)驗(yàn)數(shù)據(jù)
5.1.2 模型訓(xùn)練
5.1.3 模型測(cè)試
5.1.4 結(jié)果分析
5.1.5 問(wèn)題分析
5.2 地名地址識(shí)別結(jié)果的精化處理
5.2.1 基于層級(jí)地名詞庫(kù)的地名地址補(bǔ)全
5.2.2 多地名地址中的火災(zāi)位置鑒別
5.3 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
在讀期間公開(kāi)發(fā)表論文(著)及科研情況
本文編號(hào):3696648
【文章頁(yè)數(shù)】:76 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀及分析
1.2.1 文本信息抽取
1.2.2 地名地址識(shí)別
1.3 研究?jī)?nèi)容
1.4 技術(shù)路線
1.5 論文組織結(jié)構(gòu)
1.6 本章小結(jié)
2 基礎(chǔ)理論與方法
2.1 術(shù)語(yǔ)與基本概念
2.1.1 中文微博
2.1.2 微博爬蟲(chóng)
2.1.3 地名地址
2.1.4 條件隨機(jī)場(chǎng)
2.2 地名地址識(shí)別評(píng)價(jià)方法
2.3 本章小結(jié)
3 基于CRF的微博中地名地址識(shí)別方法
3.1 地名地址識(shí)別總體流程
3.2 CRF++工具介紹
3.3 微博數(shù)據(jù)獲取與預(yù)處理
3.3.1 城市火災(zāi)微博數(shù)據(jù)獲取
3.3.2 微博文本規(guī)范化處理
3.3.3 微博文本分詞處理
3.4 標(biāo)注體系
3.4.1 序列標(biāo)注方法
3.4.2 標(biāo)注體系
3.5 特征選取
3.6 特征標(biāo)注
3.7 特征模板
3.7.1 特征模板類型
3.7.2 特征模板設(shè)計(jì)
3.8 模型訓(xùn)練與測(cè)試
3.9 本章小結(jié)
4 地名地址識(shí)別結(jié)果的精化處理方法
4.1 基于層級(jí)地名詞庫(kù)的地名地址補(bǔ)全方法
4.1.1 地名地址補(bǔ)全總體設(shè)計(jì)思路
4.1.2 層級(jí)地名詞庫(kù)
4.1.3 地名地址補(bǔ)全算法
4.2 多地名地址中的火災(zāi)位置鑒別方法
4.2.1 火災(zāi)位置鑒別總體設(shè)計(jì)思路
4.2.2 火災(zāi)位置鑒別算法
4.3 本章小結(jié)
5 實(shí)驗(yàn)與分析
5.1 基于CRF的微博中地名地址識(shí)別
5.1.1 實(shí)驗(yàn)數(shù)據(jù)
5.1.2 模型訓(xùn)練
5.1.3 模型測(cè)試
5.1.4 結(jié)果分析
5.1.5 問(wèn)題分析
5.2 地名地址識(shí)別結(jié)果的精化處理
5.2.1 基于層級(jí)地名詞庫(kù)的地名地址補(bǔ)全
5.2.2 多地名地址中的火災(zāi)位置鑒別
5.3 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
在讀期間公開(kāi)發(fā)表論文(著)及科研情況
本文編號(hào):3696648
本文鏈接:http://sikaile.net/jianzhugongchenglunwen/3696648.html
最近更新
教材專著