面向特定網頁的Web爬蟲的設計與實現
發(fā)布時間:2019-11-16 01:58
【摘要】:萬維網中數據的高速增長使得Web已經成為了全球最大的信息庫。面對這個數量龐大、結構各異、半結構化的數據庫,用戶很難在短時間內查找到他們真正需要的信息,從而產生了信息雖然龐大,但有用的內容匱乏的問題。而不同領域的用戶所需的信息又有差別,為了解決這個問題,個性化信息采集技術孕育而生,而面向特定網頁的網絡爬蟲是這一技術的實現手段之一。 本文深入分析了現階段海量網絡資源與通用搜索引擎技術上缺陷之間給用戶帶來的不便,根據國際上的開發(fā)現狀說明了研發(fā)這項系統(tǒng)的必要性和緊急性。通過系統(tǒng)結構圖的方式介紹了網絡爬蟲的工作流程,進而對爬蟲的兩個主要模塊:網頁獲取、內容提取做了簡要分析。對于網頁分析主要分析了通用的三種網頁的搜索策略及其優(yōu)缺點。對網頁內容提取主要介紹了相關的難點和技術困難。按照系統(tǒng)設計中應遵循的原則,通過圖的形式給出了應用層、業(yè)務邏輯層、數據層的系統(tǒng)體系結構。通過詳細的設計,完成了本系統(tǒng)在信息的采集、處理、存儲等方面的模塊。同時列出了系統(tǒng)的關鍵部分:爬行策略、鏈接分析、信息提取的算法實現。最后進行了數據庫的設計。該爬蟲系統(tǒng)對URL評價:判斷URL域名、對不完整URL進行恢復(恢復URL網絡協議、主機名、當前頁面在服務器的文件名),并采用最佳優(yōu)先爬行策略進行爬取,將獲得的網頁信息進行分析(基于HTML樹形結構),獲取、解析相關論壇的評論信息,存儲、并提供給用戶。最后設計了友好的圖形用戶界面,實現人機交互。 實驗和測試證明了本爬蟲原型系統(tǒng)的正確性和有效性,以實例展示了本系統(tǒng)的爬行結果和最后存儲的有效評論信息,該原型系統(tǒng)能夠高效地獲取特定網頁的相關信息并展示給用戶。
【圖文】:
圖 2.4 TextPad 運行界面2.4 本章小結本章先通過系統(tǒng)結構圖的方式介紹了網絡爬蟲的工作流程,進而對爬蟲的網頁獲取、內容提取這兩個主要模塊做了簡要分析。對于網頁分析主要介紹并分析了通用的三種網頁的搜索策略的發(fā)展過程及其優(yōu)缺點。對于網頁內容的提取以及主要設計思路主要介紹了相關的難點和技術困難。通過本章我們了解了網絡爬蟲的相關知識以及面臨的困難,為后續(xù)設計做了理論上的鋪墊。
期測試提供必要的支持。在這里通過分析現有的搜索引擎,以提高系統(tǒng)和實用性作為目標,最后制定了本系統(tǒng)的具體需求。 系統(tǒng)實現目標針對特定網頁的網絡爬蟲要求能夠針對特定網頁進行內容解析,獲取有并對其處理導入數據庫。本爬蟲的功能如下:(1) 用戶通過友好的 GUI,,輸入想要獲取信息的初始 URL;(2) 解析網頁內容,進行處理獲取后續(xù)的 URL,并獲得有用的內容結果存儲到文件中;(3) 對中間結果進行處理導入到數據庫。 功能性需求描述由上述分析可知,系統(tǒng)應分為信息采集、信息處理、信息存儲三個模塊統(tǒng)結構圖見圖 3.1。
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3;TP311.52
本文編號:2561602
【圖文】:
圖 2.4 TextPad 運行界面2.4 本章小結本章先通過系統(tǒng)結構圖的方式介紹了網絡爬蟲的工作流程,進而對爬蟲的網頁獲取、內容提取這兩個主要模塊做了簡要分析。對于網頁分析主要介紹并分析了通用的三種網頁的搜索策略的發(fā)展過程及其優(yōu)缺點。對于網頁內容的提取以及主要設計思路主要介紹了相關的難點和技術困難。通過本章我們了解了網絡爬蟲的相關知識以及面臨的困難,為后續(xù)設計做了理論上的鋪墊。
期測試提供必要的支持。在這里通過分析現有的搜索引擎,以提高系統(tǒng)和實用性作為目標,最后制定了本系統(tǒng)的具體需求。 系統(tǒng)實現目標針對特定網頁的網絡爬蟲要求能夠針對特定網頁進行內容解析,獲取有并對其處理導入數據庫。本爬蟲的功能如下:(1) 用戶通過友好的 GUI,,輸入想要獲取信息的初始 URL;(2) 解析網頁內容,進行處理獲取后續(xù)的 URL,并獲得有用的內容結果存儲到文件中;(3) 對中間結果進行處理導入到數據庫。 功能性需求描述由上述分析可知,系統(tǒng)應分為信息采集、信息處理、信息存儲三個模塊統(tǒng)結構圖見圖 3.1。
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3;TP311.52
【參考文獻】
相關期刊論文 前10條
1 于成龍;于洪波;;網絡爬蟲技術研究[J];東莞理工學院學報;2011年03期
2 孫立偉;何國輝;吳禮發(fā);;網絡爬蟲技術的研究[J];電腦知識與技術;2010年15期
3 王巖;;搜索引擎中網絡爬蟲技術的發(fā)展[J];電信快報;2008年10期
4 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期
5 李勇;韓亮;;主題搜索引擎中網絡爬蟲的搜索策略研究[J];計算機工程與科學;2008年03期
6 王麗娟;關守義;王曉龍;王熙照;;基于屬性權重的Fuzzy C Mean算法[J];計算機學報;2006年10期
7 蔣宗禮;徐學可;李帥;;一種基于超鏈接引導的主題搜索的主題敏感爬行方法[J];計算機應用;2008年04期
8 尹江;尹治本;黃洪;;網絡爬蟲效率瓶頸的分析與解決方案[J];計算機應用;2008年05期
9 劉朋;林泓;高德威;;基于內容和鏈接分析的主題爬蟲策略[J];計算機與數字工程;2009年01期
10 趙欣欣;索紅光;劉玉樹;;基于標記窗的網頁正文信息提取方法[J];計算機應用研究;2007年03期
本文編號:2561602
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2561602.html