天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 測(cè)繪論文 >

基于條件隨機(jī)場(chǎng)的中文地名識(shí)別方法

發(fā)布時(shí)間:2018-01-16 23:18

  本文關(guān)鍵詞:基于條件隨機(jī)場(chǎng)的中文地名識(shí)別方法 出處:《武漢大學(xué)學(xué)報(bào)(信息科學(xué)版)》2017年02期  論文類型:期刊論文


  更多相關(guān)文章: 地名識(shí)別 條件隨機(jī)場(chǎng) 自然語(yǔ)言處理 中文地名


【摘要】:在互聯(lián)網(wǎng)迅速發(fā)展的現(xiàn)代化信息社會(huì),大量地理信息都以非結(jié)構(gòu)化的文本形式存在,而地名識(shí)別是挖掘這些地理信息的重要基礎(chǔ)。目前已有的地名識(shí)別方法主要是從自然語(yǔ)言處理的角度來(lái)實(shí)現(xiàn),并沒(méi)有充分考慮到地名的構(gòu)成和使用習(xí)慣等特征,造成識(shí)別率偏低或過(guò)擬合等問(wèn)題。本文引入語(yǔ)言學(xué)相關(guān)知識(shí),分析中文地名用字特征,在傳統(tǒng)的地名專名+通名的結(jié)構(gòu)上,更細(xì)致地劃分地名的詞素類型,總結(jié)歸納各詞素類型的特征,將這些特征融入條件隨機(jī)場(chǎng)的方法中,使地名識(shí)別問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題。并根據(jù)中文地名的特征,制定形式化規(guī)則,設(shè)計(jì)基于字的標(biāo)注規(guī)范。在此基礎(chǔ)上,設(shè)計(jì)中文地名特征模板,通過(guò)條件隨機(jī)場(chǎng)模型訓(xùn)練和預(yù)測(cè),識(shí)別自然語(yǔ)言文本中的中文地名。采用170萬(wàn)字的人民日?qǐng)?bào)標(biāo)注語(yǔ)料進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果表明本文方法對(duì)中文地名識(shí)別的召回率、準(zhǔn)確率和F值分別達(dá)到92.69%、96.73%和94.67%,優(yōu)于已有研究成果,能為地理信息科學(xué)領(lǐng)域的研究和應(yīng)用提供更有效的地名服務(wù)。
[Abstract]:In the modern information society with the rapid development of the Internet, a great deal of geographic information exists in the form of unstructured text. At present, the existing methods of geographical name recognition are mainly realized from the perspective of natural language processing, and do not fully take into account the composition and usage habits of geographical names and other characteristics. This paper introduces linguistic knowledge, analyzes the characters of Chinese place names, and classifies the morpheme types of place names in more detail on the structure of traditional names. This paper summarizes and summarizes the characteristics of various morpheme types, integrates these features into the conditional random field method, and transforms the problem of place name recognition into a sequence tagging problem, and formulates formal rules according to the characteristics of Chinese place names. On the basis of this, the Chinese geographical names feature template is designed, which is trained and predicted by conditional random field model. To identify the Chinese place names in the natural language text. 1.7 million words of People's Daily tagging corpus is used for experimental verification. The results show the recall rate of this method to Chinese place names recognition. The accuracy rate and F value are 92.699.73% and 94.67% respectively, which are superior to the existing research results and can provide more effective service for geographical information science research and application.
【作者單位】: 北京大學(xué)遙感與地理信息系統(tǒng)研究所;
【基金】:國(guó)家自然科學(xué)基金(41271385) 測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室開(kāi)放研究基金((16)重02)~~
【分類號(hào)】:P281;P209
【正文快照】: 項(xiàng)目資助:國(guó)家自然科學(xué)基金(41271385);測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室開(kāi)放研究基金((16)重02)。隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)成為信息傳播交流的重要平臺(tái)。在網(wǎng)絡(luò)空間中每天都有大量的數(shù)據(jù)或信息產(chǎn)生,其中大部分都以自然語(yǔ)言文本的形式存在,如何從中挖掘出有用的信息成為

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張素香;高國(guó)洋;戚銀城;;基于條件隨機(jī)場(chǎng)的中國(guó)人名識(shí)別方法[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2009年02期

2 高琳;唐鵬;盛鵬;左航;;復(fù)雜場(chǎng)景下基于條件隨機(jī)場(chǎng)的視覺(jué)目標(biāo)跟蹤[J];光學(xué)學(xué)報(bào);2010年06期

3 王凡秀;;基于條件隨機(jī)場(chǎng)的中文地名識(shí)別[J];中國(guó)西部科技;2008年28期

4 葛金虎;;基于條件隨機(jī)場(chǎng)的中文命名實(shí)體識(shí)別的研究[J];科技信息;2010年16期

5 沈勤中;周國(guó)棟;朱巧明;孔芳;丁金濤;;基于字位置概率特征的條件隨機(jī)場(chǎng)中文分詞方法[J];蘇州大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年03期

6 楊王黎;許少華;;利用條件隨機(jī)場(chǎng)實(shí)現(xiàn)DNA剪接位點(diǎn)的預(yù)測(cè)[J];重慶大學(xué)學(xué)報(bào);2010年10期

7 於實(shí);;基于隱條件隨機(jī)場(chǎng)的異構(gòu)Web數(shù)據(jù)源數(shù)據(jù)抽取算法研究[J];科技通報(bào);2012年08期

8 楊耘;隋立春;;條件隨機(jī)場(chǎng)建模的大尺度空間上下文的高分辨率遙感圖像分類[J];測(cè)繪通報(bào);2014年08期

9 王世昆;李紹滋;陳彤生;;基于條件隨機(jī)場(chǎng)的中醫(yī)命名實(shí)體識(shí)別[J];廈門大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年03期

10 吳秦;胡麗娟;梁久禎;;基于分塊重要度和二維條件隨機(jī)場(chǎng)的Web信息抽取[J];南京大學(xué)學(xué)報(bào)(自然科學(xué));2014年01期

相關(guān)會(huì)議論文 前5條

1 王東波;陳小荷;年洪東;;基于條件隨機(jī)場(chǎng)的有標(biāo)記聯(lián)合結(jié)構(gòu)自動(dòng)識(shí)別[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年

2 張奇;翁富良;黃萱菁;吳立德;;英文口語(yǔ)中非流利區(qū)域的檢測(cè)[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

3 魏瑋;杜金華;徐波;;基于分層語(yǔ)塊分析的統(tǒng)計(jì)翻譯研究[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

4 王根;趙軍;;基于多重冗余標(biāo)記CRF的句子情感分析研究[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

5 寧偉;蔡?hào)|風(fēng);季鐸;;基于條件隨機(jī)場(chǎng)的冠詞選擇研究[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年

相關(guān)博士學(xué)位論文 前1條

1 熊英;中文自然語(yǔ)言理解中基于條件隨機(jī)場(chǎng)理論的詞法分析研究[D];上海交通大學(xué);2009年

相關(guān)碩士學(xué)位論文 前10條

1 趙九洋;圖像中行人檢測(cè)關(guān)鍵技術(shù)研究[D];南京大學(xué);2015年

2 寧振;基于層疊條件隨機(jī)場(chǎng)的情感分析[D];南昌大學(xué);2015年

3 楊獻(xiàn)祥;面向中文微博的產(chǎn)品名實(shí)體識(shí)別與規(guī)范化算法設(shè)計(jì)與實(shí)現(xiàn)[D];北京理工大學(xué);2015年

4 肖s,

本文編號(hào):1435269


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/dizhicehuilunwen/1435269.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶381b6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com