基于本體的中國行政區(qū)劃地名識別與抽取研究
本文關(guān)鍵詞:基于本體的中國行政區(qū)劃地名識別與抽取研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:Web的不斷發(fā)展和日益普及使得Web網(wǎng)頁的數(shù)量飛速增長。眾多的Web網(wǎng)頁蘊含著豐富的地理信息。充分挖掘Web上的地理信息一方面可以滿足人們對地理信息的查詢及檢索需求,另一方面能夠促進基于位置的服務(wù)等新興領(lǐng)域的發(fā)展。中文地名是中文網(wǎng)頁中數(shù)目最多、最為常見的地理信息。本研究在自然語言處理的基礎(chǔ)上,借助構(gòu)建的中國行政區(qū)劃地名時空本體,將中國行政區(qū)劃地名從Web文本中標(biāo)識出來,通過geo/non-geo和geo/geo地名歧義的消除,使之與地球表面具體的地理位置相對應(yīng),進而為Web文本中的中國行政區(qū)劃地名賦予地理坐標(biāo)和地理語義,并以地理可視化的方法建立該Web文本與地圖中空間位置的關(guān)聯(lián)關(guān)系。 目前國內(nèi)對中文地名的識別與抽取多是從自然語言處理的角度,僅限于中文地名的初步識別,缺乏地名歧義消除處理,使得識別結(jié)果無法應(yīng)用于地理信息服務(wù)領(lǐng)域。雖然有學(xué)者從事地理時空本體和中文地名識別與抽取的研究,但是目前還沒有將這兩者有機地結(jié)合到一起,重點關(guān)注地名歧義消除的清晰論述。本文建立了一個基于本體完成中文地名識別與抽取的理論體系框架,并基于該框架設(shè)計并實現(xiàn)了一個中國行政區(qū)劃地名識別與抽取原型系統(tǒng)。 本研究的主要成果包括: ①在介紹和綜述本體、地理本體、空間本體等概念的基礎(chǔ)上,根據(jù)頂層本體——基礎(chǔ)形式本體BFO,運用部分—整體學(xué)、定位理論和拓撲學(xué)基本理論,建立了一個包括BFO-SNAP和BFO-SPAN兩個成分的地名時空本體模型,并將該模型作為建模框架,完成了能夠形式化表達地名變更及地名演化時間特性的中國行政區(qū)劃地名時空本體的構(gòu)建。 ②運用文本工程通用框架GATE,利用基于本體的信息抽取方法,設(shè)計并實現(xiàn)了一個基于本體的中國行政區(qū)劃地名識別與抽取原型系統(tǒng)。該系統(tǒng)使得中國行政區(qū)劃地名這種間接的地理空間參照具有精確的地理坐標(biāo),在一定程度上消除了自然語言中非結(jié)構(gòu)化空間信息與GIS結(jié)構(gòu)化空間信息之間的語義障礙。 ③分析了中國行政區(qū)劃地名歧義的特點及產(chǎn)生原因,將中國行政區(qū)劃地名存在的歧義區(qū)分為geo/non-geo歧義和geo/geo歧義兩種,并進一步將geo/geo歧義分為兩類:有行政隸屬關(guān)系的地名使用同一個特稱地名、無行政隸屬關(guān)系的地名使用同一個特稱加通稱地名或特稱地名。 ④設(shè)計了有效的基于本體的geo/non-geo和geo/geo歧義消除算法,以消除Web文本中廣泛存在的中國行政區(qū)劃地名歧義。算法不識別Web文本中具有g(shù)eo/non-geo歧義的中國行政區(qū)劃地名,并為識別出來的具有g(shù)eo/geo歧義的中國行政區(qū)劃地名指定唯一的地理位置。 ⑤根據(jù)中國行政區(qū)劃地名時空本體,為Web文本中的無歧義中國行政區(qū)劃地名進行語義標(biāo)注,賦予它們地理語義及地理坐標(biāo),并實現(xiàn)了Web文本中中國行政區(qū)劃地名的地圖可視化。
【關(guān)鍵詞】:地名時空本體 中國行政區(qū)劃地名 識別與抽取 geo/non-geo歧義 geo/geo歧義 歧義消除 地理解析 地理編碼
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2011
【分類號】:K928.1
【目錄】:
- 中文摘要3-5
- Abstract5-11
- 第一章 緒論11-20
- 1.1 研究背景及意義11-13
- 1.1.1 中文地名識別與抽取研究的必要性11
- 1.1.2 中文地名識別與抽取的含義11-12
- 1.1.3 中文地名識別與抽取的主要應(yīng)用領(lǐng)域12-13
- 1.2 國內(nèi)外相關(guān)研究概述13-17
- 1.2.1 英文地名識別與抽取的研究概述13-15
- 1.2.2 中文地名識別與抽取的研究概述15-17
- 1.3 本文的研究目標(biāo)、內(nèi)容及關(guān)鍵問題17-18
- 1.3.1 論文的研究目標(biāo)17
- 1.3.2 論文的主要研究內(nèi)容17-18
- 1.3.3 論文解決的關(guān)鍵問題18
- 1.4 論文的組織結(jié)構(gòu)18-20
- 第二章 基本理論與方法20-55
- 2.1 自然語言處理的相關(guān)理論20-22
- 2.1.1 自然語言處理20
- 2.1.2 信息抽取20-21
- 2.1.3 命名實體識別21-22
- 2.2 本體22-35
- 2.2.1 本體論的哲學(xué)意義及起源22-23
- 2.2.2 本體論的基本概念23-24
- 2.2.3 本體分類24-25
- 2.2.4 本體建模25-32
- 2.2.5 本體描述語言O(shè)WL32-34
- 2.2.6 本體建模工具 Protege34-35
- 2.3 地理本體35-44
- 2.3.1 地理本體與地理本體論35-37
- 2.3.2 地理本體的相關(guān)研究37-39
- 2.3.3 國際上與地理本體相關(guān)的主要研究計劃與學(xué)術(shù)會議39-41
- 2.3.4 地理本體建模41-42
- 2.3.5 地理本體描述語言42-44
- 2.4 時間本體44-45
- 2.5 空間本體45-51
- 2.5.1 空間原語46
- 2.5.2 空間關(guān)系46-47
- 2.5.3 拓撲關(guān)系描述模型47-49
- 2.5.4 空間本體形式化表達的3個理論工具49-51
- 2.6 時空本體51-55
- 2.6.1 第一類時空本體52-53
- 2.6.2 地理時空本體——第二類時空本體53-55
- 第三章 地名時空本體及其構(gòu)建55-70
- 3.1 地名55-57
- 3.1.1 地名概述55-56
- 3.1.2 地名分類56
- 3.1.3 地名變更56-57
- 3.2 地名數(shù)據(jù)庫與地名詞典57-59
- 3.2.1 地名數(shù)據(jù)庫57-58
- 3.2.2 地名詞典58-59
- 3.3 地名時空本體59-65
- 3.3.1 地名本體與地名時空本體59-60
- 3.3.2 地名時空本體模型60-65
- 3.4 中國行政區(qū)劃地名時空本體建模65-70
- 3.4.1 中國行政區(qū)劃的分類65
- 3.4.2 中國行政區(qū)劃地名時空本體建模65-67
- 3.4.3 中國行政區(qū)劃地名時空本體庫構(gòu)建67-70
- 第四章 基于本體的中國行政區(qū)劃地名識別與抽取70-95
- 4.1 基于本體的信息抽取70
- 4.2 文本工程通用框架GATE70-72
- 4.2.1 GATE的組件70-71
- 4.2.2 英文文本處理插件ANNIE71
- 4.2.3 GATE的規(guī)則定義語言JAPE71-72
- 4.2.4 GATE中的本體72
- 4.3 基于本體的中國行政區(qū)劃地名識別與抽取原理72-73
- 4.3.1 地理解析階段73
- 4.3.2 地理編碼階段73
- 4.4 基于本體的中國行政區(qū)劃地名識別與抽取原型系統(tǒng)設(shè)計73-76
- 4.4.1 自然語言處理模塊73-74
- 4.4.2 概念關(guān)系庫生成模塊74-75
- 4.4.3 地理解析模塊75
- 4.4.4 地理編碼模塊75
- 4.4.5 地名的地圖可視化模塊75-76
- 4.4.6 原型系統(tǒng)的設(shè)計原則76
- 4.5 自然語言處理模塊的實現(xiàn)76-77
- 4.6 概念關(guān)系庫生成模塊的實現(xiàn)77-78
- 4.7 地理解析模塊的實現(xiàn)78-81
- 4.7.1 Lookup標(biāo)注集生成79-81
- 4.7.2 Lookup標(biāo)注集再處理81
- 4.8 地理編碼模塊的實現(xiàn)81-91
- 4.8.1 geo/non-geo歧義的消除83-84
- 4.8.2 geo/geo歧義的消除——地名消歧義84-91
- 4.8.3 地名語義標(biāo)注91
- 4.9 地名的地圖可視化模塊的實現(xiàn)91-95
- 第五章 實驗驗證及原型系統(tǒng)性能評測95-100
- 5.1 實驗?zāi)繕?biāo)95
- 5.2 實驗數(shù)據(jù)及實驗流程95-96
- 5.3 原型系統(tǒng)性能評測指標(biāo)96
- 5.4 原型系統(tǒng)的評測方法96-98
- 5.4.1 Corpus Benchmark Tool需要的目錄結(jié)構(gòu)97
- 5.4.2 Corpus Benchmark Tool的屬性定義97-98
- 5.5 原型系統(tǒng)的評測結(jié)果98-100
- 第六章 總結(jié)與展望100-103
- 6.1 總結(jié)100-101
- 6.2 主要特色101
- 6.3 研究展望101-103
- 參考文獻103-112
- 在學(xué)期間的研究成果112-113
- 致謝113
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 喬云;;關(guān)于房產(chǎn)地名檔案信息系統(tǒng)框架體系建設(shè)的構(gòu)想[J];中國地名;2011年06期
2 雷升;崔建民;高景明;;規(guī)范設(shè)置地名標(biāo)志 促進城鄉(xiāng)建設(shè)一體化——河南省孟津縣地名設(shè)標(biāo)工作紀(jì)實[J];中國地名;2011年08期
3 張海英;;淺談地名涉及的法律規(guī)范及問題[J];中國地名;2011年08期
4 翟軍;;我國城鎮(zhèn)地名“通名”時代變化積沉下靚麗飄逸的歷史印記[J];中國地名;2011年06期
5 姬煒;胡小勇;劉海珍;李志剛;;基于國家地名數(shù)據(jù)庫的空間分析[J];中國地名;2011年06期
6 張建明;;為海南建成國際旅游島營造優(yōu)良的地名環(huán)境[J];中國地名;2011年06期
7 趙彬;;旅游景區(qū)景點命名的規(guī)范化問題初探[J];中國地名;2011年08期
8 劉小紅;;淺談重慶市兩個馬武鎮(zhèn)——兼釋地名重名現(xiàn)象[J];北方文學(xué)(下半月);2011年05期
9 ;[J];;年期
10 ;[J];;年期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 任小玫;;追尋遠逝的地名記憶——《徐霞客游記》地名記述、轉(zhuǎn)譯及傳播研究[A];徐霞客研究(第17輯)[C];2008年
2 劉忠剛;李曉宇;于圣軍;;城市發(fā)展與地名演變——沈陽市地名演變規(guī)律探析[A];規(guī)劃創(chuàng)新:2010中國城市規(guī)劃年會論文集[C];2010年
3 蘭紅明;李敏;楊波;;海南省地名管理信息系統(tǒng)的設(shè)計與實現(xiàn)[A];全國測繪科技信息網(wǎng)中南分網(wǎng)第二十一次學(xué)術(shù)信息交流會論文集[C];2007年
4 趙麗;李明;王彤;;基于本體的建模方法[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年
5 周安美;于德介;郭建文;;基于設(shè)備維護本體的故障診斷研究[A];機械動力學(xué)理論及其應(yīng)用[C];2011年
6 劉寶良;李建中;張兆功;;基于本體的Web信息組織[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年
7 梁曄;鮑泓;徐光美;;基于本體的數(shù)字博物館檢索系統(tǒng)的設(shè)計與實現(xiàn)[A];創(chuàng)意科技助力數(shù)字博物館[C];2011年
8 苗壯;李杰;王智學(xué);劉劍豪;;基于本體的戰(zhàn)場信息資源互操作模型研究[A];江蘇省系統(tǒng)工程學(xué)會第十一屆學(xué)術(shù)年會論文集[C];2009年
9 李雪竹;周國祥;;基于本體的語義網(wǎng)技術(shù)在信息檢索中的研究[A];全國第20屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(上冊)[C];2009年
10 ;基于本體的個性化搜索引擎[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2003年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 艾冰;是“威清門”還是“威西門”[N];貴陽日報;2008年
2 本報記者 胡新橋 本報見習(xí)記者 余飛;地名管理跟不上市政建設(shè)致“尷尬”頻出[N];法制日報;2008年
3 記者 李曉萌 通訊員 吳遠南 實習(xí)生 李鴻茜;新規(guī)將終結(jié)武漢地名亂象[N];長江日報;2008年
4 馮創(chuàng)志 廣東省恩平市發(fā)改局;“雞屎鹿村”為何不趕改地名的時髦[N];中國國土資源報;2009年
5 ;汕頭市地名管理辦法[N];汕頭日報;2009年
6 董真真;濟南西客站建設(shè)與地名管理工作引發(fā)的思考[N];中國社會報;2009年
7 記者 王文郁;依山而建才能稱為“山莊”[N];中國消費者報;2009年
8 撰文 本報記者 陳果;深圳113條道路要改名[N];廣東建設(shè)報;2009年
9 胡躍忠 楊一渠 張燕;蘇州:一地一名嚴(yán)格使用規(guī)范漢字[N];中國社會報;2009年
10 興化市地名辦;夯實基礎(chǔ) 規(guī)范管理 不斷開創(chuàng)地名工作新局面[N];泰州日報;2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 杜萍;基于本體的中國行政區(qū)劃地名識別與抽取研究[D];蘭州大學(xué);2011年
2 李冠宇;基于智能體和本體的語義數(shù)據(jù)集成研究[D];大連理工大學(xué);2010年
3 熊晶;海洋生態(tài)本體的建模方法研究及應(yīng)用[D];中國海洋大學(xué);2010年
4 劉勇;基于本體的家電領(lǐng)域功能知識表達研究[D];中國海洋大學(xué);2011年
5 沈瑾;基于本體的產(chǎn)品延伸服務(wù)建模與配置研究[D];上海交通大學(xué);2012年
6 劉春辰;基于本體的企業(yè)搜索優(yōu)化技術(shù)研究[D];吉林大學(xué);2012年
7 王宇華;基于本體的流程類業(yè)務(wù)需求建模方法研究[D];哈爾濱工程大學(xué);2011年
8 蕭毅鴻;基于本體的復(fù)雜決策任務(wù)表示方法與求解技術(shù)研究[D];南京大學(xué);2011年
9 石超藝;上海市地名文化保護與地名管理研究[D];華東師范大學(xué);2007年
10 陳楚湘;中醫(yī)診療標(biāo)準(zhǔn)建立及應(yīng)用的智能方法研究[D];解放軍信息工程大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 周娟;基于本體的工程預(yù)算管理系統(tǒng)的研究與實現(xiàn)[D];成都理工大學(xué);2010年
2 萬慕晨;基于本體的數(shù)字化備課資源知識組織個案研究[D];西南大學(xué);2011年
3 毛鑫;基于本體的語義信息集成與知識發(fā)現(xiàn)研究[D];華北電力大學(xué)(北京);2010年
4 葉密;基于地理本體的信息檢索[D];安徽大學(xué);2010年
5 趙天行;基于本體的應(yīng)急救援系統(tǒng)研究[D];重慶大學(xué);2010年
6 周艷;基于本體的信息檢索的研究與應(yīng)用[D];電子科技大學(xué);2010年
7 王娟;基于本體的課程資源管理系統(tǒng)研究[D];江西師范大學(xué);2010年
8 蔣彥;基于本體的數(shù)學(xué)知識庫的構(gòu)建及其應(yīng)用[D];電子科技大學(xué);2011年
9 付斐;基于本體的數(shù)據(jù)集成及其應(yīng)用[D];河北科技大學(xué);2010年
10 周劍烽;基于語義本體的信息檢索方法的研究[D];杭州電子科技大學(xué);2010年
本文關(guān)鍵詞:基于本體的中國行政區(qū)劃地名識別與抽取研究,由筆耕文化傳播整理發(fā)布。
本文編號:282612
本文鏈接:http://sikaile.net/shekelunwen/renwendili/282612.html