基于網絡爬蟲的地名數據庫維護方法
[Abstract]:At present, there are some problems in the construction of toponymic database in China, such as large, concentrated medium granularity toponymic names, lack of small granularity toponymic names, outdated toponymic data, low timeliness, abbreviated, alias and other non-standard toponymic information and the lack of relative position information of toponymic names. However, the updating and maintenance of toponymic database is mainly completed by means of manual surveying and mapping, which has many shortcomings, such as long cycle, high cost, low efficiency and so on. In order to solve this problem, based on the existing toponymic database and spatial relational vocabulary, based on Google search engine service, this paper proposes a method to update and maintain the toponymic database by using web crawler technology and toponymic recognition technology. Firstly, the web crawler with place name as the theme is designed to realize the active acquisition of massive spatial sensitive web page text in unstructured web page data. Then, HTML DOM technology is used to analyze the spatial sensitive web page and CRF toponymic recognition model is used to automatically identify the place names in the web page text. Finally, the related algorithms are designed to automatically analyze the toponymic information in the web page text, to realize the acquisition of new toponymic and toponymic spatial position information, and to update and maintain the toponymic database. Taking Northwestern Xianlin Hotel of Nanjing normal University as an example, the feasibility of this method is verified.
【作者單位】: 南京師范大學虛擬地理環(huán)境教育部重點實驗室;
【基金】:國家自然科學基金項目(40971231)
【分類號】:TP311.13
【參考文獻】
相關期刊論文 前10條
1 狄琳,歐陽宏斌;全國1∶25萬地名數據庫的設計與建立[J];測繪通報;2001年10期
2 陳春華;;1∶5萬地名數據庫到1∶1萬地名數據庫轉換的研究與開發(fā)[J];測繪通報;2006年05期
3 李金良;張雪英;樊曉春;;漢語地名時空信息的一體化表達[J];地理與地理信息科學;2010年06期
4 陳鉆,萬慶,吳杰;基于XML的無線位置服務地理信息服務器的實現[J];地球信息科學;2004年04期
5 張雪英;張春菊;閭國年;;地理命名實體分類體系的設計與應用分析[J];地球信息科學學報;2010年02期
6 張保鋼;楊伯鋼;孔俊元;;北京市地名數據庫的維護更新[J];北京測繪;2010年03期
7 周俊生;戴新宇;尹存燕;陳家駿;;自然語言信息抽取中的機器學習方法研究[J];計算機科學;2005年03期
8 李勇;韓亮;;主題搜索引擎中網絡爬蟲的搜索策略研究[J];計算機工程與科學;2008年03期
9 張小衡,王玲玲;中文機構名稱的識別與分析[J];中文信息學報;1997年04期
10 陳財森;王韜;鄭偉;陳建泗;;基于搜索引擎調用的主題搜索設計與實現[J];計算機工程與設計;2008年21期
相關會議論文 前1條
1 劉秉權;王喻紅;葛冬梅;李佳;;基于結構樹解析的網頁正文抽取方法[A];黑龍江省計算機學會2007年學術交流年會論文集[C];2007年
相關碩士學位論文 前2條
1 王志強;基于條件隨機域的中文命名實體識別研究[D];南京理工大學;2006年
2 陳叢叢;主題爬蟲搜索策略研究[D];山東大學;2009年
【共引文獻】
相關期刊論文 前10條
1 李玉森;張雪英;袁正午;;面向GIS的地理命名實體識別研究[J];重慶郵電大學學報(自然科學版);2008年06期
2 商瑤玲,王東華,李莉;全國1:25萬數據庫的建立與更新[J];測繪科學;2004年S1期
3 鄭浩;張蔚;劉繼東;;基于SQL Server數據庫的遙感影像數據存儲的策略與方法[J];測繪技術裝備;2006年01期
4 商瑤玲,王東華,李莉;論全國1:250000數據庫的建立與更新[J];地理信息世界;2003年02期
5 廖一蘭;王勁峰;馬家奇;戚曉鵬;;基于BPM-BM算法的地名數據匹配[J];測繪通報;2008年06期
6 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當代語言學;2001年01期
7 李金良;張雪英;樊曉春;;漢語地名時空信息的一體化表達[J];地理與地理信息科學;2010年06期
8 黃德根;李澤中;萬如;;基于SVM和CRF的雙層模型中文機構名識別[J];大連理工大學學報;2010年05期
9 張輝,徐健;中國組織機構名自動識別系統(tǒng)的設計與實現[J];電腦開發(fā)與應用;2002年01期
10 陳蕾蕾;張如靜;;面向Web的新聞網頁正文信息抽取策略研究[J];電腦知識與技術;2008年S2期
相關會議論文 前10條
1 陳曉;;中文文本自動分詞研究述要[A];第四屆全國語言文字應用學術研討會論文集[C];2005年
2 何燕;;基于單字詞轉移概率的未登錄詞識別[A];自然語言理解與機器翻譯——全國第六屆計算語言學聯合學術會議論文集[C];2001年
3 張艷麗;黃德根;張麗靜;楊元生;;統(tǒng)計和規(guī)則相結合的中文機構名稱識別[A];自然語言理解與機器翻譯——全國第六屆計算語言學聯合學術會議論文集[C];2001年
4 郭志立;;使用互信息輔助在篇章范圍內識別命名實體[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯合學術會議論文集[C];2003年
5 李斌;;中文單字國名簡稱的自動識別[A];第二屆全國學生計算語言學研討會論文集[C];2004年
6 喬春庚;肖詩斌;孫麗華;施水才;;規(guī)則與統(tǒng)計相結合的案件名稱識別[A];第三屆學生計算語言學研討會論文集[C];2006年
7 余軍;陳曉鷗;;命名實體識別:One-at-a-time or All-at-once?Word-based or Character-based?[A];中國計算技術與語言問題研究——第七屆中文信息處理國際會議論文集[C];2007年
8 馮元勇;孫樂;張大鯤;李文波;;基于單字提示特征的中文命名實體識別快速算法[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
9 雷靜;張舵;馮霞;;基于構成模式的漢語機構名識別[A];第四屆全國學生計算語言學研討會會議論文集[C];2008年
10 孟紅;鐘華;;基于htmlparser的搜索引擎信息抽取系統(tǒng)設計與實現[A];第六屆全國信息檢索學術會議論文集[C];2010年
相關博士學位論文 前10條
1 姚文琳;漢語依存句法分析方法的研究與實現[D];中國海洋大學;2009年
2 劉忠;性質語意理論的提出與自然語言理解及其實現的研究[D];華東師范大學;2004年
3 鄭逢斌;關于計算機理解自然查詢語言的研究[D];西南交通大學;2004年
4 馮敏萱;論漢英平行語料的平行處理[D];南京師范大學;2006年
5 李曉光;XML非完全結構查詢處理中若干關鍵技術的研究[D];東北大學;2006年
6 姜韶華;科研項目管理中的文本挖掘方法研究及應用[D];大連理工大學;2006年
7 高紅;基于統(tǒng)計語言模型的漢語淺層分析研究[D];大連理工大學;2007年
8 史樹敏;基于領域本體的漢語共指消解及相關技術研究[D];南京理工大學;2008年
9 茹昭;企業(yè)信息檢索中的對象檢索方法研究[D];北京郵電大學;2008年
10 熊英;中文自然語言理解中基于條件隨機場理論的詞法分析研究[D];上海交通大學;2009年
相關碩士學位論文 前10條
1 王東亮;基于條件隨機場模型的中文人名識別的研究[D];大連理工大學;2010年
2 安波;基于蛋白質關系網絡的蛋白質絡合物抽取研究[D];大連理工大學;2010年
3 紅霞;基于層疊條件隨機場的中文機構名識別的研究[D];大連理工大學;2010年
4 王玉丹;基于SVM的漢語依存句法分析研究[D];中國海洋大學;2010年
5 鐘鴻鵬;基于時態(tài)信息的網頁排序系統(tǒng)的研究與實現[D];華南理工大學;2010年
6 王曉地;Web信息采集技術研究與實現[D];華南理工大學;2010年
7 楊曉東;中文命名實體識別及若干相關問題的研究[D];江蘇大學;2010年
8 高峰;基于興趣分類的用戶行為分析系統(tǒng)的研究[D];山東大學;2010年
9 劉莎莎;大規(guī)模中文機構名稱與機構地址自動翻譯研究[D];哈爾濱工業(yè)大學;2010年
10 何燕;任意類型的未登錄詞的識別研究[D];北京語言文化大學;2000年
【二級參考文獻】
相關期刊論文 前10條
1 廖楚江,杜清運;GIS空間關系描述模型研究綜述[J];測繪科學;2004年04期
2 狄琳,歐陽宏斌;全國1∶25萬地名數據庫的設計與建立[J];測繪通報;2001年10期
3 石若明,陳秀忠;城市大比例尺地名地理信息數據庫建設的探索[J];測繪通報;2004年01期
4 陳常松;面向數據共享的GIS語義表達理論的初步研究[J];測繪學報;2000年01期
5 陳軍,趙仁亮;GIS空間關系的基本問題與研究進展[J];測繪學報;1999年02期
6 劉瑜;張毅;田原;薛露露;;廣義地名及其本體研究[J];地理與地理信息科學;2007年06期
7 陳凱晨;林星;袁一泓;李潤強;劉瑜;;數字地名詞典中的類型表達和管理[J];地理與地理信息科學;2009年05期
8 吳信才;地理信息系統(tǒng)的基本技術與發(fā)展動態(tài)[J];地球科學;1998年04期
9 吳杰,陸鋒,湯井田,程昌秀,袁正午;基于OCCI的空間數據庫幾何對象實現方法[J];地球信息科學;2003年04期
10 陳志泊,陸守一;TGIS中的時空數據模型的研究進展[J];河北林果研究;2003年04期
相關會議論文 前1條
1 王大禹;姚天順;;使用一種半指導的學習機制識別中文未分詞文本中的姓名(英文)[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
相關碩士學位論文 前2條
1 陳杰;主題搜索引擎中網絡蜘蛛搜索策略研究[D];浙江大學;2006年
2 薛建春;垂直搜索引擎中網絡蜘蛛的設計與實現[D];中國地質大學(北京);2007年
【相似文獻】
相關期刊論文 前10條
1 于成龍;于洪波;;網絡爬蟲技術研究[J];東莞理工學院學報;2011年03期
2 張安妮;姜華;郝相蓮;;面向主題的快速搜索引擎的設計與研究[J];淮陰工學院學報;2011年03期
3 王芳;陳海建;;深入解析Web主題爬蟲的關鍵性原理[J];微型電腦應用;2011年07期
4 張睿涵;林振榮;李建民;衷灣;;基于主題定制的專利網絡爬蟲的設計與實現[J];計算機與現代化;2011年07期
5 鐘遠軍;李照;林澍哲;黎慧斌;;基于PostGIS的地名數據庫設計與應用研究[J];測繪與空間地理信息;2011年03期
6 商瑤玲;張元杰;張義;王立新;王孺;;國家基礎地理信息地名數據更新軟件系統(tǒng)設計與研發(fā)[J];測繪科學;2008年S2期
7 魏毅峰;;產品評論檢索系統(tǒng)設計[J];現代經濟信息;2011年14期
8 翟菊葉;馬吳迪;;電子商務問答系統(tǒng)的研究[J];科技信息;2011年18期
9 施Oz;王恒山;肖仰華;丁衛(wèi)平;;面向主題的垂直搜索引擎系統(tǒng)的研究與實現[J];微電子學與計算機;2011年07期
10 金凡;顧進廣;;一種改進的T-Spider分布式爬蟲[J];微電子學與計算機;2011年08期
相關會議論文 前10條
1 李楠;谷利澤;鈕心忻;;用于XSS掃描的網絡爬蟲的設計與實現[A];2010年全國通信安全學術會議論文集[C];2010年
2 彭亮;卓新建;黃瑋;范文慶;;基于網絡爬蟲的XSS漏洞掃描系統(tǒng)的設計與實現[A];第十三屆中國科協年會第11分會場-中國智慧城市論壇論文集[C];2011年
3 徐劍;柯貴明;;網絡爬蟲技術在搜索引擎中的應用[A];全國第21屆計算機技術與應用學術會議(CACIS·2010)暨全國第2屆安全關鍵技術與應用學術會議論文集[C];2010年
4 鄒永斌;陳興蜀;王文賢;;一個高性能Web資源收集系統(tǒng)的設計與實現[A];2008'中國信息技術與應用學術論壇論文集(二)[C];2008年
5 鄒利平;杜清運;;省級地名管理數據庫數據組織與更新策略探討[A];節(jié)能環(huán)保 和諧發(fā)展——2007中國科協年會論文集(二)[C];2007年
6 侯丹青;李舟軍;鄒蘊珂;;一種跨站腳本漏洞檢測系統(tǒng)的設計與實現[A];全國計算機安全學術交流會論文集(第二十四卷)[C];2009年
7 劉凡平;高艷華;于炯;張偉;;基于關鍵決策方法的站內搜索研究與實現[A];2010年全國開放式分布與并行計算機學術會議論文集[C];2010年
8 張軍;于浩;內野寬治;;UGC中產品評論信息的挖掘[A];內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年
9 張霄軍;;“長安”的同名地名自動識別與指代消解[A];陜西省社會科學界第二屆(2008)學術年會——青年博士論壇“陜西新起點:創(chuàng)新·發(fā)展·民生”專題獲獎論文選編[C];2008年
10 閆鳳林;;加強數據庫建設,適應轉型需要[A];第二十一屆海洋測繪綜合性學術研討會論文集[C];2009年
相關重要報紙文章 前10條
1 李曉軍;縉云縣 地名數據庫全面升級更新[N];中國社會報;2010年
2 潘躍;全國有了24個省級地名數據庫[N];人民日報;2008年
3 記者 陳蘭芹;1:5萬全國地名數據庫建成[N];中國測繪報;2003年
4 記者 卞晨光;聯合國將推出全球地名數據庫[N];科技日報;2007年
5 ;用數字描述神州大地[N];經濟日報;2006年
6 何敏;青海4年內建立三級地名數據庫[N];中國社會報;2006年
7 洮民;洮南地名數據庫配置多媒體信息[N];中國社會報;2005年
8 ;我國投資6億元更新1:5萬地形圖數據庫[N];中國交通報;2006年
9 康國萍;建設新疆地名數據庫編制縣級行政界線詳圖[N];中國測繪報;2007年
10 霍鑫;萬通創(chuàng)建網絡門牌國際標準[N];中國高新技術產業(yè)導報;2007年
相關博士學位論文 前3條
1 石超藝;上海市地名文化保護與地名管理研究[D];華東師范大學;2007年
2 吳永輝;面向專業(yè)領域的網絡信息采集及主題檢測技術研究與應用[D];哈爾濱工業(yè)大學;2010年
3 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年
相關碩士學位論文 前10條
1 王美玲;地名數據庫的更新與變化分析[D];中南大學;2010年
2 龔秋艷;并行網絡爬蟲設計與實現[D];華東師范大學;2010年
3 黃曉鵬;基于網絡爬蟲技術的內容探測系統(tǒng)設計與實現[D];北京郵電大學;2010年
4 么士宇;基于分布式計算的網絡爬蟲技術研究[D];大連海事大學;2011年
5 趙艷;基于網絡爬蟲的跨站腳本漏洞動態(tài)檢測技術研究[D];西南交通大學;2011年
6 郭海燕;搜索引擎中網絡爬蟲技術研究[D];西安電子科技大學;2009年
7 張媚;Ajax友好的網絡爬蟲設計與實現[D];暨南大學;2011年
8 龔勇;搜索引擎中網絡爬蟲的研究[D];武漢理工大學;2010年
9 王佳;支持Ajax技術的主題網絡爬蟲系統(tǒng)研究與實現[D];北京交通大學;2011年
10 宋婷;基于SVM的網絡爬蟲檢測研究與實現[D];天津大學;2010年
,本文編號:2508699
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2508699.html