搜索引擎中網(wǎng)頁(yè)分類和網(wǎng)頁(yè)凈化的研究與實(shí)現(xiàn)
本文選題:網(wǎng)頁(yè)分類 + 主題型網(wǎng)頁(yè); 參考:《武漢理工大學(xué)》2013年碩士論文
【摘要】:隨著社會(huì)的進(jìn)步和科技的飛速發(fā)展,人們的生活已經(jīng)越來(lái)越離不開(kāi)網(wǎng)絡(luò)了,為了滿足人們?nèi)找嬖鲩L(zhǎng)的需求,海量的網(wǎng)頁(yè)信息也隨之產(chǎn)生了,如何從這些海量的信息中找到人們所需要的信息變得越來(lái)越困難,搜索引擎正是為了解決這一難題而產(chǎn)生的。 用戶瀏覽的網(wǎng)頁(yè)可以從內(nèi)容展現(xiàn)形式上分為目錄型網(wǎng)頁(yè)(hub)、主題型網(wǎng)頁(yè)(topic)和圖片型網(wǎng)頁(yè)(picture)這三類,現(xiàn)在將視頻型網(wǎng)頁(yè)也歸類為圖片型網(wǎng)頁(yè)。這三種類型的網(wǎng)頁(yè)在展現(xiàn)形式上的差異,直接影響到信息提取的方法也有所不同,對(duì)于目錄型網(wǎng)頁(yè),主要是提取中間的鏈接信息;而對(duì)于主題型網(wǎng)頁(yè)則是提取主題內(nèi)容;圖片型網(wǎng)頁(yè)則主要是圖片和視頻。如何能對(duì)網(wǎng)頁(yè)進(jìn)行快速、準(zhǔn)確的分類是搜索引擎在預(yù)處理階段必須完成的工作。現(xiàn)在的網(wǎng)頁(yè)在分類上呈現(xiàn)出模糊化,許多目錄型的網(wǎng)頁(yè)中間包含著大量的說(shuō)明性文字,使其看起來(lái)跟主題型網(wǎng)頁(yè)又有幾分類似,這對(duì)網(wǎng)頁(yè)分類又是一個(gè)巨大的挑戰(zhàn)。 搜索引擎在預(yù)處理階段最主要的目的是信息提取,由于網(wǎng)頁(yè)是一種半結(jié)構(gòu)化的數(shù)據(jù),在信息的提取過(guò)程中充滿著各種挑戰(zhàn)。為了頁(yè)面的內(nèi)容豐富、布局美觀還有商業(yè)因素的慘雜,使得網(wǎng)頁(yè)一般都包含著無(wú)用的鏈接、廣告信息、版權(quán)信息等。這些信息嚴(yán)重影響到了網(wǎng)頁(yè)內(nèi)容提取的準(zhǔn)確度,進(jìn)而影響到了返回給用戶檢索結(jié)果的準(zhǔn)確性,因此在進(jìn)行信息的提取過(guò)程中必須進(jìn)行去噪處理。 如何提高搜索引擎的搜索質(zhì)量和搜索效率一直都是人們不斷研究和努力的方向,本文正是在研究搜索引擎的預(yù)處理過(guò)程中,著重研究了網(wǎng)頁(yè)分類和網(wǎng)頁(yè)凈化這兩點(diǎn),研究的主要內(nèi)容有: (1)提出并實(shí)現(xiàn)了一種網(wǎng)頁(yè)分類的方法,該算法主要是對(duì)目錄型和主題型的網(wǎng)頁(yè)進(jìn)行分類,通過(guò)一組多特征的啟發(fā)式的規(guī)則去甄別網(wǎng)頁(yè)的類型,實(shí)驗(yàn)證明該算法在網(wǎng)頁(yè)分類上具有良好的效果。 (2)采用網(wǎng)頁(yè)進(jìn)行分塊的思想,通過(guò)觀察統(tǒng)計(jì)網(wǎng)頁(yè)的主題內(nèi)容的特點(diǎn),提出了通過(guò)計(jì)算該結(jié)構(gòu)塊對(duì)整個(gè)網(wǎng)頁(yè)類型的支持率來(lái)判斷該塊是否為主題塊,同時(shí)針對(duì)不規(guī)范的網(wǎng)頁(yè)中主題內(nèi)容離散的特點(diǎn),針對(duì)性的采用了文本間相似度比較來(lái)判斷該塊是否為主題塊,實(shí)驗(yàn)證明該算法是有效的。
[Abstract]:With the progress of society and the rapid development of science and technology, people's lives have become more and more inseparable from the network. It is becoming more and more difficult to find the information that people need from these huge amounts of information. Search engine is to solve this problem. The web pages viewed by users can be classified into three types: directory web page (hub), theme page (topic) and picture page (picture). Now video pages are also classified as pictorial pages. The difference of display form of these three types of web pages has a direct influence on the methods of information extraction. For directory pages, it is mainly to extract the middle link information, while for the topic pages, it is to extract the subject content. Photo-based web pages are mainly pictures and videos. How to classify web pages quickly and accurately is a task that must be completed in the preprocessing stage of search engines. At present, the classification of web pages is fuzzy, and many directory pages contain a lot of explanatory text in the middle, which makes them look similar to theme pages, which is a great challenge to the classification of web pages. The main purpose of search engine in preprocessing stage is to extract information. Because web page is a kind of semi-structured data, it is full of various challenges in the process of information extraction. In order to enrich the content of the page, the layout of beautiful and commercial factors, make the web pages generally contain useless links, advertising information, copyright information and so on. This information seriously affects the accuracy of web page content extraction, and then affects the accuracy of the retrieval results returned to the user. Therefore, the process of information extraction must be de-noised. How to improve the search quality and efficiency of search engines has been the direction of people's continuous research and efforts. In the process of preprocessing of search engines, this paper focuses on the two aspects of web page classification and page purification. The main contents of this paper are as follows: (1) A web page classification method is proposed and implemented. The algorithm mainly classifies web pages of directory type and topic type, and discriminates the types of web pages by a set of heuristic rules with multiple features. Experiments show that the algorithm has a good effect on the classification of web pages. (2) by using the idea of partitioning web pages and observing the characteristics of the subject content of web pages, In this paper, we propose to judge whether the block is a topic block by calculating the support rate of the structure block for the whole web page type, and at the same time, aiming at the discrete feature of the topic content in the non-standard web page. The comparison of text similarity is used to judge whether the block is a topic block or not. The experiment shows that the algorithm is effective.
【學(xué)位授予單位】:武漢理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前7條
1 祝國(guó)君,劉文業(yè);超文本標(biāo)記語(yǔ)言HTML簡(jiǎn)介[J];電腦知識(shí)與技術(shù);1999年07期
2 楊靜;陳冬;程小紅;;貝葉斯公式的幾個(gè)應(yīng)用[J];大學(xué)數(shù)學(xué);2011年02期
3 夏祥禹;條件概率與貝葉斯公式[J];阜陽(yáng)師范學(xué)院學(xué)報(bào)(自然科學(xué)版);1996年03期
4 郭坤銀;邢永康;;基于Web標(biāo)準(zhǔn)的頁(yè)面分塊算法研究[J];微處理機(jī);2009年06期
5 呂鐵強(qiáng),于滿泉,孟慶發(fā),周立德;基于網(wǎng)頁(yè)分塊的個(gè)性化信息采集的研究與設(shè)計(jì)[J];微電子學(xué)與計(jì)算機(jī);2005年10期
6 張興華;搜索引擎技術(shù)及研究[J];現(xiàn)代情報(bào);2004年04期
7 高樂(lè);張健;田賢忠;;基于視覺(jué)的Web頁(yè)面分塊算法的改進(jìn)與實(shí)現(xiàn)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年04期
相關(guān)碩士學(xué)位論文 前10條
1 孟慶鑫;搜索引擎相關(guān)技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
2 邢敏玲;基于網(wǎng)頁(yè)分塊的主題爬蟲(chóng)方法研究[D];重慶大學(xué);2011年
3 伍菲;面向主題型的網(wǎng)頁(yè)分類技術(shù)的研究與實(shí)現(xiàn)[D];華中科技大學(xué);2011年
4 羅黎敏;基于DOM模型的網(wǎng)頁(yè)凈化系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2010年
5 徐冉;網(wǎng)頁(yè)信息凈化方法的研究與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2007年
6 萬(wàn)樂(lè);網(wǎng)頁(yè)的預(yù)處理技術(shù)[D];吉林大學(xué);2008年
7 徐超;基于DOM的網(wǎng)頁(yè)凈化方法研究[D];中國(guó)石油大學(xué);2009年
8 蘇秀芝;網(wǎng)頁(yè)去噪與特征提取算法的研究及實(shí)現(xiàn)[D];西南交通大學(xué);2010年
9 苗苗;基于頁(yè)面分塊的網(wǎng)頁(yè)內(nèi)容提取的研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2010年
10 朱鳳芳;搜索引擎中網(wǎng)頁(yè)凈化與消重技術(shù)研究[D];東北大學(xué);2008年
,本文編號(hào):2102867
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2102867.html