Web頁面正文信息提取算法
本文選題:Web數(shù)據(jù)挖掘 切入點:信息抽取 出處:《廣西師范大學(xué)》2013年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著Internet和數(shù)據(jù)庫技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)已成為信息傳播的主流平臺。網(wǎng)絡(luò)上的海量信息在給人類帶來方便的同時,信息冗余、形式多樣、真假難辨、統(tǒng)一處理比較困難等一系列問題相繼出現(xiàn)。“數(shù)據(jù)過!薄ⅰ靶畔⒈ā焙汀爸R貧乏”等現(xiàn)象使得人們在海量的信息中難以迅速的找到自己所需要的信息,Web數(shù)據(jù)挖掘技術(shù)因此產(chǎn)生。在Web數(shù)據(jù)挖掘中主要研究Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘等三個方面。隨著數(shù)字媒體技術(shù)的發(fā)展,Web頁面中充斥著各種跨媒體信息,使得Web內(nèi)容挖掘日益重要,因此本文圍繞Web內(nèi)容挖掘展開研究。 由于Web頁面信息類型的增加,信息容量的擴(kuò)充,使得從單個頁面中獲取興趣信息日益困難,再加上頁面編撰者和擁有者為了擴(kuò)大頁面影響力和自身利益的需要而美化網(wǎng)頁,通常會在頁面插入許多超鏈接、廣告等“噪音信息”,這使得用戶無法快速在網(wǎng)頁中定位自己所需要的信息。因此頁面信息提取成為內(nèi)容挖掘中的重要研究課題,尤其對于手機(jī)、PAD用戶,頁面信息提取的意義顯得尤為重要。 通過大量的學(xué)習(xí)總結(jié)出,目前主要的Web信息提取方法有基于統(tǒng)計學(xué)習(xí)、基于模板、基于DOM樹和基于視覺信息這4種,本文從三方面對它們做了比較,并分析了各自的優(yōu)缺點。在此基礎(chǔ)上,提出了針對Web頁面正文提取的兩種方法。 (1)基于Block-DOM的WEB頁面正文信息提取 基于模板、基于視覺信息、基于DOM樹這三種信息提取方法是目前的研究熱點,本文利用它們各自的優(yōu)點將三者結(jié)合起來,提出了一種基于Block-DOM的WEB頁面正文信息提取方法。該方法簡化了其相應(yīng)技術(shù),首先將待提取的頁面進(jìn)行清洗、解析、判別、分塊、凈化等處理,然后再提取出正文信息。實驗證明,該方法快速準(zhǔn)確,具有一定的有效性。 (2)基于塊和標(biāo)簽用途的WEB頁面正文信息提取 本文提出一種基于塊和標(biāo)簽用途的WEB頁面正文信息提取方法,在DOM樹和VIPS算法的基礎(chǔ)上,總結(jié)出了利用塊和標(biāo)簽用途去提取頁面正文信息的規(guī)則,并且設(shè)計了一個噪音詞過濾器,將Web頁面中一些類似用戶評論、留言等文本去除掉。進(jìn)一步通過實驗建立了一個模擬瀏覽器,該瀏覽器中擁有四個模塊,分別是解析模塊、分塊模塊、文本提取模塊和噪音詞過濾模塊。實驗證明,該方法能準(zhǔn)確高效的提取出主題信息。
[Abstract]:With the rapid development of Internet and database technology, the Internet has become the mainstream platform of information dissemination. A series of problems appeared, such as "data surplus", "information explosion" and "lack of knowledge", which made it difficult for people to quickly find the information they needed in the mass of information. Web content mining and Web usage mining are mainly studied in Web data mining. With the development of digital media technology, web pages are full of cross-media information. Web content mining is becoming more and more important, so this paper focuses on Web content mining. Because of the increase of Web page information type and the expansion of information capacity, it is increasingly difficult to obtain interest information from a single page, and the page editor and owner beautify the page in order to expand the influence and self-interest of the page. Usually, many hyperlinks, advertisements and other "noise information" are inserted into the page, which makes it difficult for users to locate the information they need quickly in the web page. Therefore, page information extraction has become an important research topic in content mining. Especially for mobile phone pad users, the significance of page information extraction is particularly important. Through a large number of learning, the main methods of Web information extraction are based on statistical learning, based on template, based on DOM tree and based on visual information, this paper compares them from three aspects. Based on the analysis of their advantages and disadvantages, two methods for Web page text extraction are proposed. WEB page text information extraction based on Block-DOM. The three information extraction methods based on template, visual information and DOM tree are the focus of research at present. This paper presents a method of extracting the text information of WEB pages based on Block-DOM. This method simplifies the corresponding technology. Firstly, the pages to be extracted are cleaned, analyzed, distinguished, divided into blocks, purified and so on. Then the text information is extracted and the experimental results show that the method is fast and accurate. WEB page body information extraction based on block and tag usage. In this paper, a method of extracting WEB page text information based on block and tag usage is proposed. Based on DOM tree and VIPS algorithm, the rules of extracting page text information by using block and tag usage are summarized. And designed a noise word filter to remove some similar user comments, messages and other text in the Web page. Further through the experiment to establish a simulation browser, the browser has four modules, namely, parsing module. Block module, text extraction module and noise word filtering module. Experiments show that this method can extract topic information accurately and efficiently.
【學(xué)位授予單位】:廣西師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張彥超;劉云;李勇;沈波;;基于自動生成模板的Web信息抽取技術(shù)[J];北京交通大學(xué)學(xué)報;2009年05期
2 方明科;王煜霞;;一種動態(tài)Web信息提取方法的設(shè)計與實現(xiàn)[J];管理工程師;2011年03期
3 荊濤,左萬利;基于可視布局信息的網(wǎng)頁噪音去除算法[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2004年S1期
4 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機(jī)研究與發(fā)展;2004年10期
5 黃文蓓;楊靜;顧君忠;;基于分塊的網(wǎng)頁正文信息提取算法研究[J];計算機(jī)應(yīng)用;2007年S1期
6 陳釗;張冬梅;;Web信息抽取技術(shù)綜述[J];計算機(jī)應(yīng)用研究;2010年12期
7 王磊;蔣建中;郭軍利;;基于擴(kuò)展DOM樹的Web頁面信息抽取[J];計算機(jī)應(yīng)用與軟件;2007年06期
8 劉軍;張凈;;基于DOM的網(wǎng)頁主題信息的抽取[J];計算機(jī)應(yīng)用與軟件;2010年05期
9 林子熠;沈備軍;;基于統(tǒng)計的自動化Web新聞?wù)某槿J];計算機(jī)應(yīng)用與軟件;2010年12期
10 黃榮;;基于模板的網(wǎng)頁主題信息抽取模型[J];科技信息;2011年04期
相關(guān)碩士學(xué)位論文 前6條
1 劉斌;基于Web的HTML網(wǎng)頁清洗技術(shù)的研究與實現(xiàn)[D];華北電力大學(xué)(北京);2007年
2 陳佳;基于XML的Web信息抽取技術(shù)的應(yīng)用研究[D];武漢理工大學(xué);2007年
3 杜鵬;基于視覺特征的WEB頁面信息抽取技術(shù)的研究[D];西北師范大學(xué);2009年
4 萬晶;Web網(wǎng)頁正文抽取方法研究[D];南昌大學(xué);2010年
5 高勛;基于云計算的Web結(jié)構(gòu)挖掘算法研究[D];北京交通大學(xué);2010年
6 莫卓穎;基于語義DOM的WEB信息抽取[D];廣西師范大學(xué);2012年
,本文編號:1646856
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1646856.html