基于網(wǎng)頁分塊的主題爬蟲技術研究
本文關鍵詞: 網(wǎng)頁分塊 視覺信息 標簽屬性 主題鏈接塊 Shark-Search算法 出處:《山東師范大學》2017年碩士論文 論文類型:學位論文
【摘要】:隨著Web信息的多元化發(fā)展以及信息量的膨脹速度日益加快,不僅存儲成本提高,信息采集也變得越來越難。通用爬蟲在工作過程中會消耗大量的網(wǎng)絡帶寬,造成系統(tǒng)資源的浪費。而且它不太關心搜索到的頁面是否符合用戶的搜索主題,往往會返回很多與用戶并不感興趣的頁面。因此,為了提高爬取效率,改善用戶體驗度,產(chǎn)生了以主題爬蟲為核心的垂直搜索引擎。主題爬蟲在頁面抓取過程中采取啟發(fā)式搜索策略,通過計算頁面與用戶搜索主題的相關度,將與用戶搜索主題不相關的頁面過濾掉,只下載與主題相關的頁面存入待訪問隊列。網(wǎng)上的信息豐富多彩,如何有效的獲取并整合主題內容信息以及如何利用爬蟲全面準確地下載主題相關網(wǎng)頁是面臨的關鍵技術挑戰(zhàn)。本文通過研究主題爬蟲技術領域已取得的研究成果,主要對網(wǎng)頁分塊處理以及候選鏈接搜索策略進行了深入研究。在基于標簽信息和視覺信息的分塊布局下,提出了引入主題鏈接塊因子的候選鏈接搜索算法。具體主要工作如下:(1)基于標簽屬性與視覺信息進行網(wǎng)頁分塊。利用table標簽和div標簽的布局規(guī)律,結合CSS樣式表和style屬性中的視覺信息進行分塊處理。首先根據(jù)網(wǎng)頁設計規(guī)律制定分類規(guī)則,將內容塊分為文本塊、鏈接塊和無關塊三類。然后進行主題文本塊提取,先利用標簽屬性值進行初步過濾,再與基準塊進行相似度計算進行進一步過濾,得到最終符合條件的文本。利用主題鏈接塊提取規(guī)則進行主題塊匹配,過濾噪音鏈接,獲取所需的主題鏈接塊。本文選取的基于標簽屬性與視覺信息的分塊方法在實際應用中易于實現(xiàn),避免塊間大范圍盲目匹配,具有較低的時間和空間復雜度。(2)主題爬蟲在爬取過程中,需要先計算待爬取鏈接隊列中的鏈接權重,按照權重大小決定訪問順序。本文在Shark-Search算法的基礎上引入主題鏈接塊權重的概念,提出基于主題鏈接塊的改進搜索策略對網(wǎng)頁中的URL進行優(yōu)先級預測。將鏈接塊中所有子鏈接的錨文本作為鏈接相關度計算的主要影響因素,在Shark-Search算法的理論基礎上,引入主題鏈接塊權重概念,并結合了鏈接結構的影響。(3)為了保證系統(tǒng)的有效性,首先在不同的閾值下分別實現(xiàn)HITS算法、Shark-Search算法和本文算法,將三種算法的結果進行對比分析。實驗數(shù)據(jù)證明本文系統(tǒng)在多個閾值設置下都優(yōu)于其他兩種算法。然后對三種算法下的查全率和信息量總和進行了詳細比較,并針對語義明確的主題和抽象概念的主題漂移率進行了實驗分析,結果證明改進系統(tǒng)性能更優(yōu)秀。
[Abstract]:With the diversified development of Web information and the increasing expansion of information, not only the storage cost increases, but also the information collection becomes more and more difficult. The universal crawler will consume a lot of network bandwidth in the working process. It often returns many pages that are not of interest to the user. Therefore, in order to improve crawling efficiency and user experience, it does not care much about whether the search page is in line with the user's search theme. A vertical search engine with theme crawler as the core is produced. The topic crawler adopts heuristic search strategy in the process of page crawling. By calculating the correlation between the page and the user search theme, the pages that are not related to the user search theme are filtered out. Download only the topic-related pages into the queue to be visited. The information on the web is rich and colorful, How to effectively obtain and integrate the topic content information and how to use crawlers to download the relevant web pages are the key technical challenges. This paper mainly studies the partitioning of web pages and the strategy of candidate link search. Under the partitioning layout based on label information and visual information, A candidate link search algorithm based on topic link block factor is proposed. The main work is as follows: 1) partitioning web pages based on tag attributes and visual information. The layout rules of table tags and div tags are used. According to the rules of web page design, the content block is divided into three categories: text block, link block and irrelevant block. First, the label attribute value is used for preliminary filtering, and then the similarity calculation with the reference block is carried out to further filter, and finally the eligible text is obtained. The topic block extraction rule is used to match the topic block, and the noise link is filtered. The method based on label attribute and visual information is easy to implement in practical application, and avoid blind matching between blocks. The crawler with low time and space complexity needs to calculate the link weight in the queue of links to be crawled. This paper introduces the concept of topic link block weight based on Shark-Search algorithm. An improved search strategy based on topic link block is proposed to predict the priority of URL in web pages. The anchor text of all sub-links in the link block is taken as the main influencing factor in the calculation of link correlation, and based on the theory of Shark-Search algorithm, the anchor text of all sub-links in the link block is considered as the main influencing factor. This paper introduces the concept of topic link block weight, and combines the influence of link structure. In order to ensure the effectiveness of the system, we implement the HITS algorithm Shark-Search algorithm and the algorithm in this paper at different thresholds, respectively. The results of the three algorithms are compared and analyzed. The experimental data show that the system is superior to the other two algorithms in many threshold settings. Then, the recall rate and the sum of information under the three algorithms are compared in detail. The experimental results show that the improved system performance is better.
【學位授予單位】:山東師范大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP393.092;TP391.3
【相似文獻】
相關期刊論文 前10條
1 高俊波;安博文;王曉峰;;在線論壇中潛在影響力主題的發(fā)現(xiàn)研究[J];計算機應用;2008年01期
2 吳玲達,謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動收集與處理系統(tǒng)的研制[J];計算機應用研究;2005年05期
3 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設計與實現(xiàn)[J];計算機工程與應用;2005年31期
4 周亦鵬;杜軍平;;基于時空情境模型的主題跟蹤[J];華南理工大學學報(自然科學版);2012年08期
5 陳雄;都云程;李渝勤;施水才;;基于頁面結構分析的論壇主題信息定位方法研究[J];微計算機信息;2010年27期
6 何利益;陸國鋒;羅鵬;;動態(tài)新聞主題信息推薦系統(tǒng)設計[J];指揮信息系統(tǒng)與技術;2013年04期
7 關慧芬;師軍;;基于本體的主題爬蟲技術研究[J];計算機仿真;2009年10期
8 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計算機研究與發(fā)展;2012年06期
9 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學學報(自然科學版);2005年S1期
10 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報技術;2008年12期
相關會議論文 前6條
1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識別及表示[A];第五屆全國信息檢索學術會議論文集[C];2009年
2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2002年
3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年
4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動提取[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年
6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復評論發(fā)現(xiàn)[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
相關博士學位論文 前5條
1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學;2014年
2 趙一鳴;基于多維尺度分析的潛在主題可視化研究[D];華中師范大學;2013年
3 吳永輝;面向專業(yè)領域的網(wǎng)絡信息采集及主題檢測技術研究與應用[D];哈爾濱工業(yè)大學;2010年
4 薛利;面向證券應用的WEB主題觀點挖掘若干關鍵問題研究[D];復旦大學;2013年
5 周厚奎;概率主題模型的研究及其在多媒體主題發(fā)現(xiàn)和演化中的應用[D];浙江大學;2017年
相關碩士學位論文 前10條
1 解琰;主題優(yōu)化過濾方法研究與應用[D];大連海事大學;2015年
2 楊春艷;基于語義和引用加權的文獻主題提取研究[D];浙江大學;2015年
3 盧洋;基于主題模型的混合推薦算法研究[D];電子科技大學;2014年
4 黃志;基于維基歧義頁的搜索結果聚類方法研究[D];北京理工大學;2015年
5 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學;2015年
6 任昱鳳;基于Hadoop的分布式主題爬蟲及其實現(xiàn)[D];陜西師范大學;2015年
7 韓琳;基于貝葉斯主題爬蟲的研究與實現(xiàn)[D];北京工業(yè)大學;2015年
8 黎楠;面向專利的主題挖掘技術研究及應用[D];北京工業(yè)大學;2015年
9 劉學江;超大規(guī)模社交網(wǎng)絡中基于結構與主題的社團挖掘[D];電子科技大學;2015年
10 黃文強;安卓技術信息的主題爬蟲技術研究與實現(xiàn)[D];東南大學;2015年
,本文編號:1525156
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1525156.html