天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向特定網(wǎng)頁的Web爬蟲的設(shè)計與實現(xiàn)

發(fā)布時間:2019-11-16 01:58
【摘要】:萬維網(wǎng)中數(shù)據(jù)的高速增長使得Web已經(jīng)成為了全球最大的信息庫。面對這個數(shù)量龐大、結(jié)構(gòu)各異、半結(jié)構(gòu)化的數(shù)據(jù)庫,用戶很難在短時間內(nèi)查找到他們真正需要的信息,從而產(chǎn)生了信息雖然龐大,但有用的內(nèi)容匱乏的問題。而不同領(lǐng)域的用戶所需的信息又有差別,為了解決這個問題,個性化信息采集技術(shù)孕育而生,而面向特定網(wǎng)頁的網(wǎng)絡(luò)爬蟲是這一技術(shù)的實現(xiàn)手段之一。 本文深入分析了現(xiàn)階段海量網(wǎng)絡(luò)資源與通用搜索引擎技術(shù)上缺陷之間給用戶帶來的不便,根據(jù)國際上的開發(fā)現(xiàn)狀說明了研發(fā)這項系統(tǒng)的必要性和緊急性。通過系統(tǒng)結(jié)構(gòu)圖的方式介紹了網(wǎng)絡(luò)爬蟲的工作流程,進(jìn)而對爬蟲的兩個主要模塊:網(wǎng)頁獲取、內(nèi)容提取做了簡要分析。對于網(wǎng)頁分析主要分析了通用的三種網(wǎng)頁的搜索策略及其優(yōu)缺點。對網(wǎng)頁內(nèi)容提取主要介紹了相關(guān)的難點和技術(shù)困難。按照系統(tǒng)設(shè)計中應(yīng)遵循的原則,通過圖的形式給出了應(yīng)用層、業(yè)務(wù)邏輯層、數(shù)據(jù)層的系統(tǒng)體系結(jié)構(gòu)。通過詳細(xì)的設(shè)計,完成了本系統(tǒng)在信息的采集、處理、存儲等方面的模塊。同時列出了系統(tǒng)的關(guān)鍵部分:爬行策略、鏈接分析、信息提取的算法實現(xiàn)。最后進(jìn)行了數(shù)據(jù)庫的設(shè)計。該爬蟲系統(tǒng)對URL評價:判斷URL域名、對不完整URL進(jìn)行恢復(fù)(恢復(fù)URL網(wǎng)絡(luò)協(xié)議、主機(jī)名、當(dāng)前頁面在服務(wù)器的文件名),并采用最佳優(yōu)先爬行策略進(jìn)行爬取,將獲得的網(wǎng)頁信息進(jìn)行分析(基于HTML樹形結(jié)構(gòu)),獲取、解析相關(guān)論壇的評論信息,存儲、并提供給用戶。最后設(shè)計了友好的圖形用戶界面,實現(xiàn)人機(jī)交互。 實驗和測試證明了本爬蟲原型系統(tǒng)的正確性和有效性,以實例展示了本系統(tǒng)的爬行結(jié)果和最后存儲的有效評論信息,該原型系統(tǒng)能夠高效地獲取特定網(wǎng)頁的相關(guān)信息并展示給用戶。
【圖文】:

界面圖,界面,網(wǎng)絡(luò)爬蟲,網(wǎng)頁


圖 2.4 TextPad 運(yùn)行界面2.4 本章小結(jié)本章先通過系統(tǒng)結(jié)構(gòu)圖的方式介紹了網(wǎng)絡(luò)爬蟲的工作流程,進(jìn)而對爬蟲的網(wǎng)頁獲取、內(nèi)容提取這兩個主要模塊做了簡要分析。對于網(wǎng)頁分析主要介紹并分析了通用的三種網(wǎng)頁的搜索策略的發(fā)展過程及其優(yōu)缺點。對于網(wǎng)頁內(nèi)容的提取以及主要設(shè)計思路主要介紹了相關(guān)的難點和技術(shù)困難。通過本章我們了解了網(wǎng)絡(luò)爬蟲的相關(guān)知識以及面臨的困難,為后續(xù)設(shè)計做了理論上的鋪墊。

系統(tǒng)結(jié)構(gòu)圖,系統(tǒng)結(jié)構(gòu)圖


期測試提供必要的支持。在這里通過分析現(xiàn)有的搜索引擎,以提高系統(tǒng)和實用性作為目標(biāo),最后制定了本系統(tǒng)的具體需求。 系統(tǒng)實現(xiàn)目標(biāo)針對特定網(wǎng)頁的網(wǎng)絡(luò)爬蟲要求能夠針對特定網(wǎng)頁進(jìn)行內(nèi)容解析,獲取有并對其處理導(dǎo)入數(shù)據(jù)庫。本爬蟲的功能如下:(1) 用戶通過友好的 GUI,,輸入想要獲取信息的初始 URL;(2) 解析網(wǎng)頁內(nèi)容,進(jìn)行處理獲取后續(xù)的 URL,并獲得有用的內(nèi)容結(jié)果存儲到文件中;(3) 對中間結(jié)果進(jìn)行處理導(dǎo)入到數(shù)據(jù)庫。 功能性需求描述由上述分析可知,系統(tǒng)應(yīng)分為信息采集、信息處理、信息存儲三個模塊統(tǒng)結(jié)構(gòu)圖見圖 3.1。
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3;TP311.52

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報;2011年03期

2 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期

3 王巖;;搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展[J];電信快報;2008年10期

4 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機(jī)研究與發(fā)展;2004年10期

5 李勇;韓亮;;主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究[J];計算機(jī)工程與科學(xué);2008年03期

6 王麗娟;關(guān)守義;王曉龍;王熙照;;基于屬性權(quán)重的Fuzzy C Mean算法[J];計算機(jī)學(xué)報;2006年10期

7 蔣宗禮;徐學(xué)可;李帥;;一種基于超鏈接引導(dǎo)的主題搜索的主題敏感爬行方法[J];計算機(jī)應(yīng)用;2008年04期

8 尹江;尹治本;黃洪;;網(wǎng)絡(luò)爬蟲效率瓶頸的分析與解決方案[J];計算機(jī)應(yīng)用;2008年05期

9 劉朋;林泓;高德威;;基于內(nèi)容和鏈接分析的主題爬蟲策略[J];計算機(jī)與數(shù)字工程;2009年01期

10 趙欣欣;索紅光;劉玉樹;;基于標(biāo)記窗的網(wǎng)頁正文信息提取方法[J];計算機(jī)應(yīng)用研究;2007年03期



本文編號:2561602

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2561602.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f51ed***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com