基于視覺語義塊的網(wǎng)頁正文提取算法研究
本文選題:網(wǎng)頁正文提取 + DOM樹 ; 參考:《浙江大學(xué)》2013年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,以及網(wǎng)絡(luò)信息的爆炸性增長,網(wǎng)頁的數(shù)量也開始了急劇增加,人們也越來越習(xí)慣于借助搜索引擎這一工具來從浩如煙海的互聯(lián)網(wǎng)上獲取自己所需要的信息。然而,通常情況下一張網(wǎng)頁并不僅僅包含了用戶所需的正文信息,它還通常還有其他各種非正文信息,如導(dǎo)航欄,廣告鏈接,推薦鏈接等,這類噪音信息的存在,給搜索引擎的效率和準(zhǔn)確率帶來了極大地干擾,因此,網(wǎng)頁正文提取技術(shù)也就成為了搜索引擎領(lǐng)域的一個重大課題。 本文提出了一種基于視覺語義塊的網(wǎng)頁正文提取算法,該算法擺脫了現(xiàn)有主流正文提取算法對于網(wǎng)頁文本的依賴性,而是從用戶視覺角度出發(fā),將網(wǎng)頁根據(jù)語義特征分割為一個個語義塊,然后尋找其中面積最大的語義塊,再進(jìn)而尋找與之結(jié)構(gòu)類似的語義塊,通過不斷循環(huán)查找,最后提取出網(wǎng)頁的正文信息。一方面,由于該算法并不依賴于網(wǎng)頁文本分布密度,在一些噪音信息同樣含有大量文本的網(wǎng)頁中也能取得很好的效果,而且還能將正文信息中包含的圖片、視頻等也一并提取出來,因而提高了算法的健壯性;另一方面,該算法在處理DOM樹的過程中,并不需要遍歷整棵DOM樹來查找目標(biāo)信息,而只需要對DOM樹的葉子結(jié)點進(jìn)行處理,從而節(jié)省了查找時間,大大提高了正文提取的效率。 本文通過對15個門戶網(wǎng)站的300個網(wǎng)頁進(jìn)行了實驗分析,其中包含了新聞、博客、論壇、BBS等各類主題性網(wǎng)頁。實驗結(jié)果表明,本文的基于視覺語義塊的網(wǎng)頁正文提取算法基本可以達(dá)到94%以上的提取準(zhǔn)確率和召回率。而且由于算法角度的不同,該算法還可以與其他傳統(tǒng)基于網(wǎng)頁文本的算法相結(jié)合,得到更好的效果。
[Abstract]:With the rapid development of Internet technology and the explosive growth of network information, the number of web pages has also increased dramatically. More and more people are used to the search engine to get the information they need from the vast Internet. Usually, however, a web page contains not only the text information that the user needs, but also other non-text information, such as navigation bar, advertising link, recommendation link, etc. It brings great interference to the efficiency and accuracy of search engine. Therefore, the technology of web page text extraction has become an important subject in the field of search engine. In this paper, a text extraction algorithm based on visual semantic block is proposed. This algorithm breaks away from the dependence of existing mainstream text extraction algorithms on web page text, but starts from the perspective of user vision. The web pages are divided into semantic blocks according to their semantic features, and then the semantic blocks with the largest area are found, and then the semantic blocks similar to the semantic blocks are found. Finally, the text information of the web pages is extracted by continuous loop searching. On the one hand, because the algorithm does not depend on the distribution density of the page text, it can also achieve good results in the web pages where some noise information also contains a lot of text, and can also include images in the text information. Video and so on are extracted at the same time, which improves the robustness of the algorithm. On the other hand, the algorithm does not need to traverse the whole DOM tree to find the target information, but only need to deal with the leaf nodes of the DOM tree, in the process of processing the DOM tree, the algorithm does not need to traverse the whole DOM tree to find the target information. Thus, the searching time is saved and the efficiency of text extraction is greatly improved. This paper makes an experimental analysis of 300 web pages of 15 portals, including news, blogs, forums and BBS. The experimental results show that the algorithm based on visual semantic block can achieve more than 94% extraction accuracy and recall rate. Because of the different angles of the algorithm, the algorithm can be combined with other traditional algorithms based on web page text to get better results.
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁正文信息抽取新方法[J];大連理工大學(xué)學(xué)報;2009年04期
2 吳麒;陳興蜀;譚駿;;基于權(quán)值優(yōu)化的網(wǎng)頁正文內(nèi)容提取算法[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2011年04期
3 李永平,張茂元;基于并行模糊歸類的網(wǎng)頁信息提取方法研究[J];計算機(jī)工程與應(yīng)用;2003年21期
4 李蕾;王勁林;白鶴;胡晶晶;;基于FFT的網(wǎng)頁正文提取算法研究與實現(xiàn)[J];計算機(jī)工程與應(yīng)用;2007年30期
5 孟軍;劉秋水;王秀坤;;節(jié)點頻度和語義距離相結(jié)合的網(wǎng)頁正文信息抽取[J];計算機(jī)工程與應(yīng)用;2009年01期
6 王少康;董科軍;閻保平;;使用特征文本密度的網(wǎng)頁正文提取[J];計算機(jī)工程與應(yīng)用;2010年20期
7 張瑞雪;宋明秋;公衍磊;;逆序解析DOM樹及網(wǎng)頁正文信息提取[J];計算機(jī)科學(xué);2011年04期
8 王利;劉宗田;王燕華;廖濤;;基于內(nèi)容相似度的網(wǎng)頁正文提取[J];計算機(jī)工程;2010年06期
9 歐陽佳;林丕源;;基于DBSCAN算法的網(wǎng)頁正文提取[J];計算機(jī)工程;2011年03期
10 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J];計算機(jī)應(yīng)用;2005年04期
相關(guān)碩士學(xué)位論文 前4條
1 蒲宇達(dá);基于web的網(wǎng)頁鏈接與正文抽取技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2006年
2 劉斌;基于Web的HTML網(wǎng)頁清洗技術(shù)的研究與實現(xiàn)[D];華北電力大學(xué)(北京);2007年
3 褚鋒;基于個性化搜索的網(wǎng)頁特征提取相關(guān)技術(shù)的研究[D];山東科技大學(xué);2009年
4 萬晶;Web網(wǎng)頁正文抽取方法研究[D];南昌大學(xué);2010年
,本文編號:1963743
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1963743.html