基于網(wǎng)絡(luò)信息檢索的網(wǎng)頁(yè)文本抽取和處理的研究
本文選題:信息檢索 + 主題網(wǎng)絡(luò)爬蟲(chóng); 參考:《南京郵電大學(xué)》2014年碩士論文
【摘要】:隨著當(dāng)今社會(huì)的飛速發(fā)展,,地理環(huán)境變化日新月異,傳統(tǒng)地理信息測(cè)繪方法遇到諸多問(wèn)題;ヂ(lián)網(wǎng)作為當(dāng)今最重要的信息載體,擁有實(shí)時(shí)性強(qiáng)和信息獲取價(jià)格低廉的優(yōu)勢(shì),為地理信息測(cè)繪提供了一條新的渠道。結(jié)合網(wǎng)絡(luò)信息檢索技術(shù)和自然語(yǔ)言處理方法,能夠從海量互聯(lián)網(wǎng)信息中獲取地理信息相關(guān)知識(shí),完成地理信息變化更新的快速檢索和實(shí)時(shí)檢測(cè),彌補(bǔ)了傳統(tǒng)測(cè)繪方法的不足。 本文對(duì)網(wǎng)絡(luò)信息檢索技術(shù)進(jìn)行研究,從主題網(wǎng)絡(luò)爬蟲(chóng)角度出發(fā),針對(duì)現(xiàn)有主題爬蟲(chóng)算法通用性不強(qiáng)的問(wèn)題,提出了基于鏈接回溯的主題爬蟲(chóng)算法。該算法針對(duì)當(dāng)前新聞網(wǎng)站的鏈接結(jié)構(gòu)特點(diǎn),通過(guò)回溯的方法計(jì)算出最有可能包含主題相關(guān)內(nèi)容的鏈接方向,從而大幅提高了主題相關(guān)網(wǎng)頁(yè)的獲取效率。同時(shí)結(jié)合網(wǎng)絡(luò)文本挖掘和自然語(yǔ)言處理方法,設(shè)計(jì)了各項(xiàng)網(wǎng)頁(yè)文本要素和地理信息要素的抽取方法,能夠準(zhǔn)確地從網(wǎng)頁(yè)文本中抽取出相關(guān)信息。最終,本文實(shí)現(xiàn)了基于主題網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的地理信息變化檢測(cè)原型系統(tǒng)。經(jīng)過(guò)大量系統(tǒng)實(shí)驗(yàn),證明該系統(tǒng)具有良好的可用性,查詢結(jié)果有較高的查全率和查準(zhǔn)率,同時(shí)驗(yàn)證了基于鏈接回溯的主題爬蟲(chóng)相比通用爬蟲(chóng)具有更好的爬取效率。
[Abstract]:With the rapid development of today's society, the geographical environment changes with each passing day, the traditional geographic information mapping method meets many problems. As the most important information carrier, Internet has the advantages of high real-time and low price, which provides a new channel for geographic information mapping. Combined with the technology of network information retrieval and natural language processing, it can obtain the knowledge of geographic information from mass Internet information, complete the quick retrieval and real-time detection of geographic information change update, and make up for the shortcomings of traditional surveying and mapping methods. In this paper, the network information retrieval technology is studied. From the point of view of topic crawler, a topic crawler algorithm based on link backtracking is proposed to solve the problem that the existing topic crawler algorithm is not universal enough. According to the characteristics of the link structure of the current news website, the method of backtracking is used to calculate the direction of the link which is most likely to contain theme-related content, thus greatly improving the efficiency of obtaining theme-related web pages. At the same time, combining the methods of Web text mining and natural language processing, this paper designs the extraction methods of web page text elements and geographical information elements, which can extract relevant information from web pages accurately. Finally, a prototype system of geographic information change detection based on topic crawler technology is implemented in this paper. Through a large number of system experiments, it is proved that the system has good usability, and the query results have high recall and precision. At the same time, it is verified that the topic crawler based on link backtracking has better crawling efficiency than that of common crawler.
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP393.092;TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李建華,王志國(guó),馬曉云,韓建國(guó);網(wǎng)頁(yè)發(fā)布常用方法及遇到問(wèn)題[J];電腦開(kāi)發(fā)與應(yīng)用;2001年11期
2 王崢;穿梭網(wǎng)絡(luò)看設(shè)計(jì)——小議網(wǎng)頁(yè)設(shè)計(jì)[J];蘇州絲綢工學(xué)院學(xué)報(bào);1999年06期
3 李亞文;網(wǎng)頁(yè)設(shè)計(jì)系列講座(一) 信息世界的新時(shí)尚——用網(wǎng)頁(yè)展示自己[J];多媒體世界;1999年02期
4 張?zhí)锪?網(wǎng)頁(yè)設(shè)計(jì)系列講座(四) 在世界面前展示你的風(fēng)采——網(wǎng)頁(yè)發(fā)布[J];多媒體世界;1999年05期
5 高渭文;馬敏峰;;科技期刊網(wǎng)頁(yè)的規(guī)劃設(shè)計(jì)與制作維護(hù)[J];學(xué)報(bào)編輯論叢;2000年00期
6 康軍;出版社網(wǎng)頁(yè)的設(shè)計(jì)與開(kāi)發(fā)[J];科技與出版;2000年05期
7 郭再新,常征旗;查詢網(wǎng)頁(yè)與網(wǎng)頁(yè)發(fā)布[J];南京廣播電視大學(xué)學(xué)報(bào);2000年04期
8 付斌 ,韓松;網(wǎng)頁(yè)沙龍之發(fā)布我的網(wǎng)頁(yè)[J];網(wǎng)絡(luò)與信息;2001年10期
9 顧綺芳;韓斌;;《網(wǎng)頁(yè)設(shè)計(jì)》教學(xué)探索[J];職業(yè)圈;2007年14期
10 彭菊萍;李俊青;;基于網(wǎng)絡(luò)教學(xué)環(huán)境下的網(wǎng)頁(yè)設(shè)計(jì)課程教學(xué)的探索與實(shí)踐[J];科技信息(科學(xué)教研);2007年28期
相關(guān)會(huì)議論文 前2條
1 高渭文;馬敏峰;;科技期刊網(wǎng)頁(yè)的規(guī)劃設(shè)計(jì)與制作維護(hù)[A];學(xué)報(bào)編輯論叢(第九集)[C];2000年
2 孫周軍;肖文名;;基于組合策略網(wǎng)頁(yè)防篡改系統(tǒng)實(shí)現(xiàn)方法研究[A];2011年中國(guó)氣象學(xué)會(huì)氣象通信與信息技術(shù)委員會(huì)暨國(guó)家氣象信息中心科技年會(huì)論文摘要[C];2011年
相關(guān)重要報(bào)紙文章 前7條
1 本報(bào)記者 王兵 通訊員 韋煒;小網(wǎng)頁(yè) 大名片 長(zhǎng)鏈條[N];中國(guó)氣象報(bào);2012年
2 林欣欣;Micromedia家族新寵 contribute[N];中國(guó)電腦教育報(bào);2003年
3 愛(ài)上一條魚(yú);傻瓜網(wǎng)站管理工具[N];電腦報(bào);2004年
4 湖南省株洲縣教育局教育技術(shù)裝備站 許賽蘇;做個(gè)合格的信息管理員[N];中國(guó)電腦教育報(bào);2004年
5 ;書(shū)山有路勤為徑[N];中國(guó)電腦教育報(bào);2004年
6 王兆和;到秘密花園里“摘”煙花[N];中國(guó)電腦教育報(bào);2004年
7 通訊員 郝金榮 記者 曾居仁;萬(wàn)村千鄉(xiāng)網(wǎng)頁(yè)工程建成入選貴州“三農(nóng)”十大新聞[N];中國(guó)氣象報(bào);2013年
相關(guān)碩士學(xué)位論文 前10條
1 馮勝;基于正文結(jié)構(gòu)和長(zhǎng)句提取的網(wǎng)頁(yè)去重研究[D];重慶大學(xué);2010年
2 王海潮;基于網(wǎng)頁(yè)結(jié)構(gòu)的信息抽取關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2011年
3 譚慶華;贛縣中學(xué)博客網(wǎng)頁(yè)建設(shè)初探[D];江西師范大學(xué);2005年
4 王ZMr
本文編號(hào):1814137
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1814137.html