搜索引擎中網(wǎng)頁分類和網(wǎng)頁凈化的研究與實(shí)現(xiàn)
本文選題:網(wǎng)頁分類 + 主題型網(wǎng)頁。 參考:《武漢理工大學(xué)》2013年碩士論文
【摘要】:隨著社會(huì)的進(jìn)步和科技的飛速發(fā)展,人們的生活已經(jīng)越來越離不開網(wǎng)絡(luò)了,為了滿足人們?nèi)找嬖鲩L的需求,海量的網(wǎng)頁信息也隨之產(chǎn)生了,如何從這些海量的信息中找到人們所需要的信息變得越來越困難,搜索引擎正是為了解決這一難題而產(chǎn)生的。 用戶瀏覽的網(wǎng)頁可以從內(nèi)容展現(xiàn)形式上分為目錄型網(wǎng)頁(hub)、主題型網(wǎng)頁(topic)和圖片型網(wǎng)頁(picture)這三類,現(xiàn)在將視頻型網(wǎng)頁也歸類為圖片型網(wǎng)頁。這三種類型的網(wǎng)頁在展現(xiàn)形式上的差異,直接影響到信息提取的方法也有所不同,對于目錄型網(wǎng)頁,主要是提取中間的鏈接信息;而對于主題型網(wǎng)頁則是提取主題內(nèi)容;圖片型網(wǎng)頁則主要是圖片和視頻。如何能對網(wǎng)頁進(jìn)行快速、準(zhǔn)確的分類是搜索引擎在預(yù)處理階段必須完成的工作,F(xiàn)在的網(wǎng)頁在分類上呈現(xiàn)出模糊化,許多目錄型的網(wǎng)頁中間包含著大量的說明性文字,使其看起來跟主題型網(wǎng)頁又有幾分類似,這對網(wǎng)頁分類又是一個(gè)巨大的挑戰(zhàn)。 搜索引擎在預(yù)處理階段最主要的目的是信息提取,由于網(wǎng)頁是一種半結(jié)構(gòu)化的數(shù)據(jù),在信息的提取過程中充滿著各種挑戰(zhàn)。為了頁面的內(nèi)容豐富、布局美觀還有商業(yè)因素的慘雜,使得網(wǎng)頁一般都包含著無用的鏈接、廣告信息、版權(quán)信息等。這些信息嚴(yán)重影響到了網(wǎng)頁內(nèi)容提取的準(zhǔn)確度,進(jìn)而影響到了返回給用戶檢索結(jié)果的準(zhǔn)確性,因此在進(jìn)行信息的提取過程中必須進(jìn)行去噪處理。 如何提高搜索引擎的搜索質(zhì)量和搜索效率一直都是人們不斷研究和努力的方向,本文正是在研究搜索引擎的預(yù)處理過程中,著重研究了網(wǎng)頁分類和網(wǎng)頁凈化這兩點(diǎn),研究的主要內(nèi)容有: (1)提出并實(shí)現(xiàn)了一種網(wǎng)頁分類的方法,該算法主要是對目錄型和主題型的網(wǎng)頁進(jìn)行分類,通過一組多特征的啟發(fā)式的規(guī)則去甄別網(wǎng)頁的類型,實(shí)驗(yàn)證明該算法在網(wǎng)頁分類上具有良好的效果。 (2)采用網(wǎng)頁進(jìn)行分塊的思想,通過觀察統(tǒng)計(jì)網(wǎng)頁的主題內(nèi)容的特點(diǎn),提出了通過計(jì)算該結(jié)構(gòu)塊對整個(gè)網(wǎng)頁類型的支持率來判斷該塊是否為主題塊,同時(shí)針對不規(guī)范的網(wǎng)頁中主題內(nèi)容離散的特點(diǎn),針對性的采用了文本間相似度比較來判斷該塊是否為主題塊,實(shí)驗(yàn)證明該算法是有效的。
[Abstract]:With the progress of society and the rapid development of science and technology, people's lives have become more and more inseparable from the network. It is becoming more and more difficult to find the information that people need from these huge amounts of information. Search engine is to solve this problem. The web pages viewed by users can be classified into three types: directory web page (hub), theme page (topic) and picture page (picture). Now video pages are also classified as pictorial pages. The difference of display form of these three types of web pages has a direct influence on the methods of information extraction. For directory pages, it is mainly to extract the middle link information, while for the topic pages, it is to extract the subject content. Photo-based web pages are mainly pictures and videos. How to classify web pages quickly and accurately is a task that must be completed in the preprocessing stage of search engines. At present, the classification of web pages is fuzzy, and many directory pages contain a lot of explanatory text in the middle, which makes them look similar to theme pages, which is a great challenge to the classification of web pages. The main purpose of search engine in preprocessing stage is to extract information. Because web page is a kind of semi-structured data, it is full of various challenges in the process of information extraction. In order to enrich the content of the page, the layout of beautiful and commercial factors, make the web pages generally contain useless links, advertising information, copyright information and so on. This information seriously affects the accuracy of web page content extraction, and then affects the accuracy of the retrieval results returned to the user. Therefore, the process of information extraction must be de-noised. How to improve the search quality and efficiency of search engines has been the direction of people's continuous research and efforts. In the process of preprocessing of search engines, this paper focuses on the two aspects of web page classification and page purification. The main contents of this paper are as follows: (1) A web page classification method is proposed and implemented. The algorithm mainly classifies web pages of directory type and topic type, and discriminates the types of web pages by a set of heuristic rules with multiple features. Experiments show that the algorithm has a good effect on the classification of web pages. (2) by using the idea of partitioning web pages and observing the characteristics of the subject content of web pages, In this paper, we propose to judge whether the block is a topic block by calculating the support rate of the structure block for the whole web page type, and at the same time, aiming at the discrete feature of the topic content in the non-standard web page. The comparison of text similarity is used to judge whether the block is a topic block or not. The experiment shows that the algorithm is effective.
【學(xué)位授予單位】:武漢理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前7條
1 祝國君,劉文業(yè);超文本標(biāo)記語言HTML簡介[J];電腦知識與技術(shù);1999年07期
2 楊靜;陳冬;程小紅;;貝葉斯公式的幾個(gè)應(yīng)用[J];大學(xué)數(shù)學(xué);2011年02期
3 夏祥禹;條件概率與貝葉斯公式[J];阜陽師范學(xué)院學(xué)報(bào)(自然科學(xué)版);1996年03期
4 郭坤銀;邢永康;;基于Web標(biāo)準(zhǔn)的頁面分塊算法研究[J];微處理機(jī);2009年06期
5 呂鐵強(qiáng),于滿泉,孟慶發(fā),周立德;基于網(wǎng)頁分塊的個(gè)性化信息采集的研究與設(shè)計(jì)[J];微電子學(xué)與計(jì)算機(jī);2005年10期
6 張興華;搜索引擎技術(shù)及研究[J];現(xiàn)代情報(bào);2004年04期
7 高樂;張健;田賢忠;;基于視覺的Web頁面分塊算法的改進(jìn)與實(shí)現(xiàn)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年04期
相關(guān)碩士學(xué)位論文 前10條
1 孟慶鑫;搜索引擎相關(guān)技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2011年
2 邢敏玲;基于網(wǎng)頁分塊的主題爬蟲方法研究[D];重慶大學(xué);2011年
3 伍菲;面向主題型的網(wǎng)頁分類技術(shù)的研究與實(shí)現(xiàn)[D];華中科技大學(xué);2011年
4 羅黎敏;基于DOM模型的網(wǎng)頁凈化系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2010年
5 徐冉;網(wǎng)頁信息凈化方法的研究與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2007年
6 萬樂;網(wǎng)頁的預(yù)處理技術(shù)[D];吉林大學(xué);2008年
7 徐超;基于DOM的網(wǎng)頁凈化方法研究[D];中國石油大學(xué);2009年
8 蘇秀芝;網(wǎng)頁去噪與特征提取算法的研究及實(shí)現(xiàn)[D];西南交通大學(xué);2010年
9 苗苗;基于頁面分塊的網(wǎng)頁內(nèi)容提取的研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2010年
10 朱鳳芳;搜索引擎中網(wǎng)頁凈化與消重技術(shù)研究[D];東北大學(xué);2008年
,本文編號:2102867
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2102867.html