面向特定網(wǎng)頁的Web爬蟲的設(shè)計與實現(xiàn)
【圖文】:
圖 2.4 TextPad 運(yùn)行界面2.4 本章小結(jié)本章先通過系統(tǒng)結(jié)構(gòu)圖的方式介紹了網(wǎng)絡(luò)爬蟲的工作流程,進(jìn)而對爬蟲的網(wǎng)頁獲取、內(nèi)容提取這兩個主要模塊做了簡要分析。對于網(wǎng)頁分析主要介紹并分析了通用的三種網(wǎng)頁的搜索策略的發(fā)展過程及其優(yōu)缺點。對于網(wǎng)頁內(nèi)容的提取以及主要設(shè)計思路主要介紹了相關(guān)的難點和技術(shù)困難。通過本章我們了解了網(wǎng)絡(luò)爬蟲的相關(guān)知識以及面臨的困難,為后續(xù)設(shè)計做了理論上的鋪墊。
期測試提供必要的支持。在這里通過分析現(xiàn)有的搜索引擎,以提高系統(tǒng)和實用性作為目標(biāo),最后制定了本系統(tǒng)的具體需求。 系統(tǒng)實現(xiàn)目標(biāo)針對特定網(wǎng)頁的網(wǎng)絡(luò)爬蟲要求能夠針對特定網(wǎng)頁進(jìn)行內(nèi)容解析,獲取有并對其處理導(dǎo)入數(shù)據(jù)庫。本爬蟲的功能如下:(1) 用戶通過友好的 GUI,,輸入想要獲取信息的初始 URL;(2) 解析網(wǎng)頁內(nèi)容,進(jìn)行處理獲取后續(xù)的 URL,并獲得有用的內(nèi)容結(jié)果存儲到文件中;(3) 對中間結(jié)果進(jìn)行處理導(dǎo)入到數(shù)據(jù)庫。 功能性需求描述由上述分析可知,系統(tǒng)應(yīng)分為信息采集、信息處理、信息存儲三個模塊統(tǒng)結(jié)構(gòu)圖見圖 3.1。
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3;TP311.52
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報;2011年03期
2 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期
3 王巖;;搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展[J];電信快報;2008年10期
4 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機(jī)研究與發(fā)展;2004年10期
5 李勇;韓亮;;主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究[J];計算機(jī)工程與科學(xué);2008年03期
6 王麗娟;關(guān)守義;王曉龍;王熙照;;基于屬性權(quán)重的Fuzzy C Mean算法[J];計算機(jī)學(xué)報;2006年10期
7 蔣宗禮;徐學(xué)可;李帥;;一種基于超鏈接引導(dǎo)的主題搜索的主題敏感爬行方法[J];計算機(jī)應(yīng)用;2008年04期
8 尹江;尹治本;黃洪;;網(wǎng)絡(luò)爬蟲效率瓶頸的分析與解決方案[J];計算機(jī)應(yīng)用;2008年05期
9 劉朋;林泓;高德威;;基于內(nèi)容和鏈接分析的主題爬蟲策略[J];計算機(jī)與數(shù)字工程;2009年01期
10 趙欣欣;索紅光;劉玉樹;;基于標(biāo)記窗的網(wǎng)頁正文信息提取方法[J];計算機(jī)應(yīng)用研究;2007年03期
本文編號:2561602
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2561602.html