規(guī)則匹配和深度學(xué)習(xí)結(jié)合的文本空間信息識別及定位
發(fā)布時(shí)間:2021-07-27 07:36
充分識別并空間化文本中蘊(yùn)含的空間位置信息,對文本數(shù)據(jù)挖掘研究具有重要意義。由于文本中的空間信息存在描述不規(guī)范、形式多樣和混雜方言等特點(diǎn),識別難度大,提出一種規(guī)則匹配和深度學(xué)習(xí)相結(jié)合的空間信息識別及定位方法。首先根據(jù)標(biāo)準(zhǔn)地名地址制作匹配語義庫,利用規(guī)則匹配法精準(zhǔn)提取空間信息并實(shí)現(xiàn)空間定位;然后將其作為深度學(xué)習(xí)的樣本數(shù)據(jù),訓(xùn)練BERT-BiLSTM-CRF模型,實(shí)現(xiàn)空間信息的自動提取;再利用前后綴特征詞匹配規(guī)則作為補(bǔ)充處理,進(jìn)一步充分提取文本中的空間信息;最后利用地理編碼技術(shù)實(shí)現(xiàn)空間定位。實(shí)驗(yàn)表明,本方法能有效提高空間信息識別的準(zhǔn)確率、召回率,具有可操作性。
【文章來源】:地理信息世界. 2020,27(05)
【文章頁數(shù)】:8 頁
【部分圖文】:
互聯(lián)網(wǎng)文本中空間信息提取及定位技術(shù)流程
為構(gòu)建強(qiáng)有力的規(guī)則,收集了4個(gè)知識庫,以標(biāo)準(zhǔn)地名地址庫為基礎(chǔ),擴(kuò)充接入互聯(lián)網(wǎng)地名地址庫、地名地址變形庫,地名地址前后綴特征庫,形成地名地址語義庫,如圖2所示。1)標(biāo)準(zhǔn)地名地址庫
文本中描述的中文地名地址,常出現(xiàn)在前綴詞與后綴詞之間,因此將前綴詞作為起始語,后綴詞作為結(jié)束語,可粗提取文本中的地名地址,如圖3所示。2.2 基于規(guī)則匹配的地名信息提取
【參考文獻(xiàn)】:
期刊論文
[1]基于注意力機(jī)制的命名實(shí)體識別模型研究——以軍事文本為例[J]. 單義棟,王衡軍,黃河,閆倩. 計(jì)算機(jī)科學(xué). 2019(S1)
[2]基于遷移學(xué)習(xí)和BiLSTM-CRF的中文命名實(shí)體識別[J]. 武惠,呂立,于碧輝. 小型微型計(jì)算機(jī)系統(tǒng). 2019(06)
[3]面向微博的災(zāi)害類事件地址提取與空間定位方法——以地震事件為例[J]. 李想,劉紀(jì)平,羅安,王勇. 測繪與空間地理信息. 2018(04)
[4]一種基于復(fù)合特征的中文地名識別方法[J]. 魏勇,李鴻飛,胡丹露,李響,馬雷雷. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版). 2018(01)
[5]基于BLSTM的命名實(shí)體識別方法[J]. 馮艷紅,于紅,孫庚,孫娟娟. 計(jì)算機(jī)科學(xué). 2018(02)
[6]智慧重慶地理編碼服務(wù)平臺建設(shè)與應(yīng)用[J]. 李林,梁星,劉駿,梁均軍. 地理信息世界. 2017(01)
[7]基于條件隨機(jī)場的中文地名識別方法[J]. 鄔倫,劉磊,李浩然,高勇. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版). 2017(02)
[8]基于深度學(xué)習(xí)的中文機(jī)構(gòu)名識別研究——一種漢字級別的循環(huán)神經(jīng)網(wǎng)絡(luò)方法[J]. 朱丹浩,楊蕾,王東波. 現(xiàn)代圖書情報(bào)技術(shù). 2016(12)
[9]前后綴與特征詞相結(jié)合的地名地址提取[J]. 王克永,劉紀(jì)平,羅安,王勇. 測繪通報(bào). 2016(02)
[10]網(wǎng)絡(luò)文本蘊(yùn)涵地理信息抽取:研究進(jìn)展與展望[J]. 余麗,陸鋒,張恒才. 地球信息科學(xué)學(xué)報(bào). 2015(02)
本文編號:3305372
【文章來源】:地理信息世界. 2020,27(05)
【文章頁數(shù)】:8 頁
【部分圖文】:
互聯(lián)網(wǎng)文本中空間信息提取及定位技術(shù)流程
為構(gòu)建強(qiáng)有力的規(guī)則,收集了4個(gè)知識庫,以標(biāo)準(zhǔn)地名地址庫為基礎(chǔ),擴(kuò)充接入互聯(lián)網(wǎng)地名地址庫、地名地址變形庫,地名地址前后綴特征庫,形成地名地址語義庫,如圖2所示。1)標(biāo)準(zhǔn)地名地址庫
文本中描述的中文地名地址,常出現(xiàn)在前綴詞與后綴詞之間,因此將前綴詞作為起始語,后綴詞作為結(jié)束語,可粗提取文本中的地名地址,如圖3所示。2.2 基于規(guī)則匹配的地名信息提取
【參考文獻(xiàn)】:
期刊論文
[1]基于注意力機(jī)制的命名實(shí)體識別模型研究——以軍事文本為例[J]. 單義棟,王衡軍,黃河,閆倩. 計(jì)算機(jī)科學(xué). 2019(S1)
[2]基于遷移學(xué)習(xí)和BiLSTM-CRF的中文命名實(shí)體識別[J]. 武惠,呂立,于碧輝. 小型微型計(jì)算機(jī)系統(tǒng). 2019(06)
[3]面向微博的災(zāi)害類事件地址提取與空間定位方法——以地震事件為例[J]. 李想,劉紀(jì)平,羅安,王勇. 測繪與空間地理信息. 2018(04)
[4]一種基于復(fù)合特征的中文地名識別方法[J]. 魏勇,李鴻飛,胡丹露,李響,馬雷雷. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版). 2018(01)
[5]基于BLSTM的命名實(shí)體識別方法[J]. 馮艷紅,于紅,孫庚,孫娟娟. 計(jì)算機(jī)科學(xué). 2018(02)
[6]智慧重慶地理編碼服務(wù)平臺建設(shè)與應(yīng)用[J]. 李林,梁星,劉駿,梁均軍. 地理信息世界. 2017(01)
[7]基于條件隨機(jī)場的中文地名識別方法[J]. 鄔倫,劉磊,李浩然,高勇. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版). 2017(02)
[8]基于深度學(xué)習(xí)的中文機(jī)構(gòu)名識別研究——一種漢字級別的循環(huán)神經(jīng)網(wǎng)絡(luò)方法[J]. 朱丹浩,楊蕾,王東波. 現(xiàn)代圖書情報(bào)技術(shù). 2016(12)
[9]前后綴與特征詞相結(jié)合的地名地址提取[J]. 王克永,劉紀(jì)平,羅安,王勇. 測繪通報(bào). 2016(02)
[10]網(wǎng)絡(luò)文本蘊(yùn)涵地理信息抽取:研究進(jìn)展與展望[J]. 余麗,陸鋒,張恒才. 地球信息科學(xué)學(xué)報(bào). 2015(02)
本文編號:3305372
本文鏈接:http://sikaile.net/kejilunwen/dizhicehuilunwen/3305372.html
最近更新
教材專著