天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

主題網(wǎng)絡(luò)爬蟲的分析與設(shè)計

發(fā)布時間:2020-06-29 11:08
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,浩瀚的網(wǎng)絡(luò)信息資源給人類的生活造成了深刻的影響。于是如何合理利用,并且怎么去完善它們成為了現(xiàn)在的主題關(guān)鍵,因為人們更加注重于如何從互聯(lián)網(wǎng)上搜索到自己想要的信息,這就需要搜索引擎的支持。然而,正是由于互聯(lián)網(wǎng)上信息成千上萬,信息過于膨脹,才‘使得如何通過網(wǎng)頁便捷地查詢到目標(biāo)信息變得很重要。以往的通用搜索引擎很大程度上幫助人們在互聯(lián)網(wǎng)查找信息更加方便,然而,慢慢地也暴露了很多弊端,大部分情況下不能提供個性化專業(yè)化的信息搜索,查準(zhǔn)率偏低、內(nèi)容陳舊等。于是面向主題搜索的第四代搜索引擎應(yīng)運而生。主題搜索引擎,專門面向特定的對象、能夠滿足特定領(lǐng)域和人群的要求,更適應(yīng)于社會形勢。主題網(wǎng)絡(luò)爬蟲由此作為一種工具,在主題搜索引擎領(lǐng)域,發(fā)揮著越來越重要的作用,正因如此,以主題網(wǎng)絡(luò)爬蟲為核心的主題搜索引擎成為研究的重中之重,并且對于主題網(wǎng)絡(luò)爬蟲的研究,也逐漸成為目前信息挖掘領(lǐng)域的熱點。 本文就是通過自己對現(xiàn)有搜索引擎發(fā)展的基本了解,針對性地開展對主題網(wǎng)絡(luò)爬蟲進行的研究,本文主要通過六個章節(jié)來分析主題爬蟲的設(shè)計和實現(xiàn)。主要研究內(nèi)容如下: 1.主要闡述了課題研究的背景,并對國內(nèi)外的對主題爬蟲的研究現(xiàn)狀以及課題的研究意義進行了綜述; 2.通過介紹搜索引擎的發(fā)展,闡述了搜索引擎的基本原理并由此引入了對于網(wǎng)絡(luò)爬蟲的相關(guān)介紹,隨后還進行了兩者之間的對比,重點研究了兩種爬蟲的體系結(jié)構(gòu)和基本工作原理; 3.對主題爬蟲領(lǐng)域關(guān)鍵技術(shù)進行了詳細介紹和對比,同時對于網(wǎng)絡(luò)中普遍存在的隧道現(xiàn)象也進行了針對性的算法改進并進行了編碼實現(xiàn),最后還對于不同的算法也說明了其相關(guān)度計算方式; 4.探討主題爬蟲的系統(tǒng)設(shè)計與實現(xiàn),主要包括網(wǎng)頁抓取模塊、網(wǎng)頁分析模塊、中文分詞、管理等模塊等; 5.重點對主題爬蟲系統(tǒng)的實施辦法進行了研究和詳細設(shè)計,利用該系統(tǒng)主要的數(shù)據(jù)分析方式,集合實驗數(shù)據(jù)得出分析結(jié)果,證明了前述章節(jié)中各個理論的合理性與有效性。 6.最后對前面章節(jié)內(nèi)容進行的總結(jié)與歸納,并提出本文的創(chuàng)新點與局限性。 實驗表明:對于本人提出的詳細改進策略應(yīng)用到主題爬蟲實際工作中具有明顯的優(yōu)越性,不僅保證了較高的收獲比,而且極大減少了存儲空間和爬取時間。保證了網(wǎng)頁的及時更新,此外大量分析還表明’對于用戶使用過程中會剔除更多的冗余信息,具有較高的查準(zhǔn)率。
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3

【參考文獻】

相關(guān)期刊論文 前10條

1 張鋒,樊孝忠;基于最大熵模型的交集型切分歧義消解[J];北京理工大學(xué)學(xué)報;2005年07期

2 周蕾;;基于碎片分詞的未登錄詞識別方法[J];常熟理工學(xué)院學(xué)報;2007年02期

3 劉剛;于力超;;搜索引擎中網(wǎng)絡(luò)蜘蛛的設(shè)計與實現(xiàn)[J];電腦與信息技術(shù);2007年04期

4 李麗;朱國同;陳秀娟;井西利;;模擬退火算法的改進及在靜校正中的應(yīng)用[J];大慶石油地質(zhì)與開發(fā);2008年05期

5 徐家樹;邢立新;覃征;;超鏈接文本相關(guān)度的PageRank算法[J];哈爾濱工業(yè)大學(xué)學(xué)報;2009年01期

6 王福昌;張艷芳;;一種改進模擬退火算法在非線性方程組求解中的應(yīng)用[J];航空計算技術(shù);2007年06期

7 劉向東 ,駱斌 ,陳兆乾;支持向量機最優(yōu)模型選擇的研究[J];計算機研究與發(fā)展;2005年04期

8 林海霞;原福永;陳金森;劉俊峰;;一種改進的主題網(wǎng)絡(luò)蜘蛛搜索算法[J];計算機工程與應(yīng)用;2007年10期

9 趙仲孟;張蓓;沈均毅;;對搜索引擎未來發(fā)展的探討[J];計算機科學(xué);2001年03期

10 印鑒,陳憶群,張鋼;搜索引擎技術(shù)研究與發(fā)展[J];計算機工程;2005年14期

相關(guān)會議論文 前1條

1 苗家;馬軍;陳竹敏;;一種基于HITS算法的blog文摘方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

相關(guān)碩士學(xué)位論文 前3條

1 陳杰;主題搜索引擎中網(wǎng)絡(luò)蜘蛛搜索策略研究[D];浙江大學(xué);2006年

2 譚思亮;聚焦爬行系統(tǒng)的設(shè)計—算法視角[D];中國科學(xué)院研究生院(成都計算機應(yīng)用研究所);2006年

3 王思力;面向大規(guī)模信息檢索的中文分詞技術(shù)研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2006年



本文編號:2733789

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2733789.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶915ef***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com