基于網(wǎng)絡(luò)信息檢索的網(wǎng)頁文本抽取和處理的研究
本文選題:信息檢索 + 主題網(wǎng)絡(luò)爬蟲; 參考:《南京郵電大學(xué)》2014年碩士論文
【摘要】:隨著當(dāng)今社會的飛速發(fā)展,,地理環(huán)境變化日新月異,傳統(tǒng)地理信息測繪方法遇到諸多問題;ヂ(lián)網(wǎng)作為當(dāng)今最重要的信息載體,擁有實時性強和信息獲取價格低廉的優(yōu)勢,為地理信息測繪提供了一條新的渠道。結(jié)合網(wǎng)絡(luò)信息檢索技術(shù)和自然語言處理方法,能夠從海量互聯(lián)網(wǎng)信息中獲取地理信息相關(guān)知識,完成地理信息變化更新的快速檢索和實時檢測,彌補了傳統(tǒng)測繪方法的不足。 本文對網(wǎng)絡(luò)信息檢索技術(shù)進(jìn)行研究,從主題網(wǎng)絡(luò)爬蟲角度出發(fā),針對現(xiàn)有主題爬蟲算法通用性不強的問題,提出了基于鏈接回溯的主題爬蟲算法。該算法針對當(dāng)前新聞網(wǎng)站的鏈接結(jié)構(gòu)特點,通過回溯的方法計算出最有可能包含主題相關(guān)內(nèi)容的鏈接方向,從而大幅提高了主題相關(guān)網(wǎng)頁的獲取效率。同時結(jié)合網(wǎng)絡(luò)文本挖掘和自然語言處理方法,設(shè)計了各項網(wǎng)頁文本要素和地理信息要素的抽取方法,能夠準(zhǔn)確地從網(wǎng)頁文本中抽取出相關(guān)信息。最終,本文實現(xiàn)了基于主題網(wǎng)絡(luò)爬蟲技術(shù)的地理信息變化檢測原型系統(tǒng)。經(jīng)過大量系統(tǒng)實驗,證明該系統(tǒng)具有良好的可用性,查詢結(jié)果有較高的查全率和查準(zhǔn)率,同時驗證了基于鏈接回溯的主題爬蟲相比通用爬蟲具有更好的爬取效率。
[Abstract]:With the rapid development of today's society, the geographical environment changes with each passing day, the traditional geographic information mapping method meets many problems. As the most important information carrier, Internet has the advantages of high real-time and low price, which provides a new channel for geographic information mapping. Combined with the technology of network information retrieval and natural language processing, it can obtain the knowledge of geographic information from mass Internet information, complete the quick retrieval and real-time detection of geographic information change update, and make up for the shortcomings of traditional surveying and mapping methods. In this paper, the network information retrieval technology is studied. From the point of view of topic crawler, a topic crawler algorithm based on link backtracking is proposed to solve the problem that the existing topic crawler algorithm is not universal enough. According to the characteristics of the link structure of the current news website, the method of backtracking is used to calculate the direction of the link which is most likely to contain theme-related content, thus greatly improving the efficiency of obtaining theme-related web pages. At the same time, combining the methods of Web text mining and natural language processing, this paper designs the extraction methods of web page text elements and geographical information elements, which can extract relevant information from web pages accurately. Finally, a prototype system of geographic information change detection based on topic crawler technology is implemented in this paper. Through a large number of system experiments, it is proved that the system has good usability, and the query results have high recall and precision. At the same time, it is verified that the topic crawler based on link backtracking has better crawling efficiency than that of common crawler.
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李建華,王志國,馬曉云,韓建國;網(wǎng)頁發(fā)布常用方法及遇到問題[J];電腦開發(fā)與應(yīng)用;2001年11期
2 王崢;穿梭網(wǎng)絡(luò)看設(shè)計——小議網(wǎng)頁設(shè)計[J];蘇州絲綢工學(xué)院學(xué)報;1999年06期
3 李亞文;網(wǎng)頁設(shè)計系列講座(一) 信息世界的新時尚——用網(wǎng)頁展示自己[J];多媒體世界;1999年02期
4 張?zhí)锪?網(wǎng)頁設(shè)計系列講座(四) 在世界面前展示你的風(fēng)采——網(wǎng)頁發(fā)布[J];多媒體世界;1999年05期
5 高渭文;馬敏峰;;科技期刊網(wǎng)頁的規(guī)劃設(shè)計與制作維護(hù)[J];學(xué)報編輯論叢;2000年00期
6 康軍;出版社網(wǎng)頁的設(shè)計與開發(fā)[J];科技與出版;2000年05期
7 郭再新,常征旗;查詢網(wǎng)頁與網(wǎng)頁發(fā)布[J];南京廣播電視大學(xué)學(xué)報;2000年04期
8 付斌 ,韓松;網(wǎng)頁沙龍之發(fā)布我的網(wǎng)頁[J];網(wǎng)絡(luò)與信息;2001年10期
9 顧綺芳;韓斌;;《網(wǎng)頁設(shè)計》教學(xué)探索[J];職業(yè)圈;2007年14期
10 彭菊萍;李俊青;;基于網(wǎng)絡(luò)教學(xué)環(huán)境下的網(wǎng)頁設(shè)計課程教學(xué)的探索與實踐[J];科技信息(科學(xué)教研);2007年28期
相關(guān)會議論文 前2條
1 高渭文;馬敏峰;;科技期刊網(wǎng)頁的規(guī)劃設(shè)計與制作維護(hù)[A];學(xué)報編輯論叢(第九集)[C];2000年
2 孫周軍;肖文名;;基于組合策略網(wǎng)頁防篡改系統(tǒng)實現(xiàn)方法研究[A];2011年中國氣象學(xué)會氣象通信與信息技術(shù)委員會暨國家氣象信息中心科技年會論文摘要[C];2011年
相關(guān)重要報紙文章 前7條
1 本報記者 王兵 通訊員 韋煒;小網(wǎng)頁 大名片 長鏈條[N];中國氣象報;2012年
2 林欣欣;Micromedia家族新寵 contribute[N];中國電腦教育報;2003年
3 愛上一條魚;傻瓜網(wǎng)站管理工具[N];電腦報;2004年
4 湖南省株洲縣教育局教育技術(shù)裝備站 許賽蘇;做個合格的信息管理員[N];中國電腦教育報;2004年
5 ;書山有路勤為徑[N];中國電腦教育報;2004年
6 王兆和;到秘密花園里“摘”煙花[N];中國電腦教育報;2004年
7 通訊員 郝金榮 記者 曾居仁;萬村千鄉(xiāng)網(wǎng)頁工程建成入選貴州“三農(nóng)”十大新聞[N];中國氣象報;2013年
相關(guān)碩士學(xué)位論文 前10條
1 馮勝;基于正文結(jié)構(gòu)和長句提取的網(wǎng)頁去重研究[D];重慶大學(xué);2010年
2 王海潮;基于網(wǎng)頁結(jié)構(gòu)的信息抽取關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2011年
3 譚慶華;贛縣中學(xué)博客網(wǎng)頁建設(shè)初探[D];江西師范大學(xué);2005年
4 王ZMr
本文編號:1814137
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1814137.html