非結構化中文自然語言地址描述的自動識別
本文關鍵詞:非結構化中文自然語言地址描述的自動識別
【摘要】:互聯(lián)網(wǎng)中存在海量易獲取的自然語言形式地址描述文本,其中蘊含豐富的空間信息。針對其非結構化特點,提出了自動提取中文自然語言地址描述中詞語和句法信息的方法,以便深度挖掘空間知識。首先,根據(jù)地址語料中字串共現(xiàn)的統(tǒng)計規(guī)律設計一種不依賴地名詞典的中文分詞算法,并利用在地址文本中起指示、限定作用的常見詞語組成的預定義詞表改善分詞效果及輔助詞性標注。分詞完成后,定義能夠表達中文地址描述常用句法的有限狀態(tài)機模型,進而利用其自動匹配與識別地址文本的句法結構。最后,基于大規(guī)模真實語料的統(tǒng)計分詞及句法識別實驗表明了該方法的可用性及有效性。
【作者單位】: 長安大學地質(zhì)工程與測繪學院;地理信息工程國家重點實驗室;
【關鍵詞】: 地址描述 自然語言 中文分詞 句法識別
【基金】:國家自然科學基金(No.41301513) 地理信息工程國家重點實驗室開放研究基金(No.SKLGIE 2014-M-4-2) 中央高;究蒲袠I(yè)務費專項資金(No.2014G1261056)
【分類號】:TP391.1
【正文快照】: 1引言自然語言是人們進行通信和交流的主要工具,自然語言處理是現(xiàn)代信息科學和技術研究不可或缺的重要內(nèi)容[1]。在互聯(lián)網(wǎng)與大數(shù)據(jù)時代,存在海量易獲取的中文自然語言地址描述數(shù)據(jù),如生活服務類網(wǎng)站中說明各類興趣點(即商戶、學校、銀行、加油站、醫(yī)院等地理對象)位置的語句。
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 譚俊明;;自然語言的理解綜述[J];科技廣場;2008年05期
2 何祖軍;胡靜;;自然語言的規(guī)范與轉化——基于嵌入式系統(tǒng)的描述[J];計算機與現(xiàn)代化;2008年11期
3 劉海濤;關于自然語言計算機處理的幾點思考[J];術語標準化與信息技術;2001年01期
4 劉三滿,劉荷花;論計算機處理自然語言的新趨向[J];科技情報開發(fā)與經(jīng)濟;2002年04期
5 胡廣朋;用于計算機輔助教學的自然語言接口[J];微計算機應用;2003年05期
6 張世紅;胡佳佳;宋繼華;劉會霞;琚文勝;;網(wǎng)絡環(huán)境下的自然語言檢索[J];醫(yī)學情報工作;2005年06期
7 胡廣朋;錢遙立;沈繼峰;;一種應用規(guī)劃識別建立自然語言接口的方法[J];江蘇科技大學學報(自然科學版);2006年03期
8 杜津;楊一平;曾雋芳;;自然語言時間信息的模擬與計算[J];計算機工程與設計;2006年13期
9 張雪英;閭國年;宦建;;面向漢語的自然語言路徑描述方法[J];地球信息科學;2008年06期
10 彭程;;基于本體論的電子商務自然語言研究[J];微計算機信息;2008年18期
中國重要會議論文全文數(shù)據(jù)庫 前7條
1 胡健;黃麗華;劉杰;;基于自然語言的智能決策支持系統(tǒng)人機接口[A];管理科學與系統(tǒng)科學進展——全國青年管理科學與系統(tǒng)科學論文集(第4卷)[C];1997年
2 盛新華;柳勁;;自然語言否定的語用功能與交際策略[A];改革開放以來邏輯的歷程——中國邏輯學會成立30周年紀念文集(上卷)[C];2009年
3 李靈輝;林爾正;林玉婷;林丹紅;;基于自然語言檢索的中醫(yī)中風康復古代文獻數(shù)據(jù)庫構建[A];福建省圖書館學會2011年學術年會論文集[C];2011年
4 谷明哲;孟小峰;周勇;;中文自然語言查詢界面NChiql的Java設計實現(xiàn)[A];第十六屆全國數(shù)據(jù)庫學術會議論文集[C];1999年
5 周勇;孟小峰;劉爽;王珊;;數(shù)據(jù)庫自然語言查詢系統(tǒng)NChiql中語義依存樹向SQL的轉換[A];第十六屆全國數(shù)據(jù)庫學術會議論文集[C];1999年
6 萬繼華;;基于哲學本體論的真值演算系統(tǒng)——實現(xiàn)計算機理解自然語言的邏輯方法[A];邏輯學及其應用研究——第四屆全國邏輯系統(tǒng)、智能科學與信息科學學術會議論文集[C];2008年
7 才讓加;吉太加;;藏語語料庫中詞性分類代碼的確定[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
中國博士學位論文全文數(shù)據(jù)庫 前4條
1 田飛;用于自然語言分布式表達的聯(lián)合學習方法研究[D];中國科學技術大學;2016年
2 李虎;基于本體和規(guī)則的受控自然語言系統(tǒng)模型研究[D];華中科技大學;2010年
3 孟小峰;中文數(shù)據(jù)庫自然語言查詢處理研究[D];中國科學院研究生院(計算技術研究所);1999年
4 朱少楠;面向地理場景的“文—圖—景”轉換方法研究[D];南京師范大學;2013年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 石亞坤;自然語言的人類理解與機器“理解”對比研究[D];陜西師范大學;2011年
2 劉曉;面向高德地圖的自然語言接口語義解析系統(tǒng)設計與實現(xiàn)[D];南京師范大學;2015年
3 孫婷婷;漢語搭配獲取方法研究[D];江蘇科技大學;2015年
4 徐娟;面向地圖搜索領域的自然語言句子g鏌逡饌祭斫夥椒ㄑ芯縖D];復旦大學;2014年
5 蔡靜怡;基于概念圖的關聯(lián)規(guī)則的自然語言表示方法[D];河北師范大學;2015年
6 柳勁;自然語言否定的邏輯思考[D];湘潭大學;2009年
7 裴君波;信息分發(fā)中自然語言訂閱接口的研究[D];北京郵電大學;2015年
8 付勝博;基于自然語言的空間數(shù)據(jù)檢索研究[D];西北工業(yè)大學;2007年
9 武睿峰;自然語言密寫分析及密寫量檢測[D];西北大學;2014年
10 李霞;自然語言篇章中時間信息的研究及在產(chǎn)品設計領域中的應用[D];西安電子科技大學;2013年
,本文編號:843404
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/843404.html