基于視覺(jué)語(yǔ)義塊的網(wǎng)頁(yè)正文提取算法研究
本文選題:網(wǎng)頁(yè)正文提取 + DOM樹; 參考:《浙江大學(xué)》2013年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,以及網(wǎng)絡(luò)信息的爆炸性增長(zhǎng),網(wǎng)頁(yè)的數(shù)量也開始了急劇增加,人們也越來(lái)越習(xí)慣于借助搜索引擎這一工具來(lái)從浩如煙海的互聯(lián)網(wǎng)上獲取自己所需要的信息。然而,通常情況下一張網(wǎng)頁(yè)并不僅僅包含了用戶所需的正文信息,它還通常還有其他各種非正文信息,如導(dǎo)航欄,廣告鏈接,推薦鏈接等,這類噪音信息的存在,給搜索引擎的效率和準(zhǔn)確率帶來(lái)了極大地干擾,因此,網(wǎng)頁(yè)正文提取技術(shù)也就成為了搜索引擎領(lǐng)域的一個(gè)重大課題。 本文提出了一種基于視覺(jué)語(yǔ)義塊的網(wǎng)頁(yè)正文提取算法,該算法擺脫了現(xiàn)有主流正文提取算法對(duì)于網(wǎng)頁(yè)文本的依賴性,而是從用戶視覺(jué)角度出發(fā),將網(wǎng)頁(yè)根據(jù)語(yǔ)義特征分割為一個(gè)個(gè)語(yǔ)義塊,然后尋找其中面積最大的語(yǔ)義塊,再進(jìn)而尋找與之結(jié)構(gòu)類似的語(yǔ)義塊,通過(guò)不斷循環(huán)查找,最后提取出網(wǎng)頁(yè)的正文信息。一方面,由于該算法并不依賴于網(wǎng)頁(yè)文本分布密度,在一些噪音信息同樣含有大量文本的網(wǎng)頁(yè)中也能取得很好的效果,而且還能將正文信息中包含的圖片、視頻等也一并提取出來(lái),因而提高了算法的健壯性;另一方面,該算法在處理DOM樹的過(guò)程中,并不需要遍歷整棵DOM樹來(lái)查找目標(biāo)信息,而只需要對(duì)DOM樹的葉子結(jié)點(diǎn)進(jìn)行處理,從而節(jié)省了查找時(shí)間,大大提高了正文提取的效率。 本文通過(guò)對(duì)15個(gè)門戶網(wǎng)站的300個(gè)網(wǎng)頁(yè)進(jìn)行了實(shí)驗(yàn)分析,其中包含了新聞、博客、論壇、BBS等各類主題性網(wǎng)頁(yè)。實(shí)驗(yàn)結(jié)果表明,本文的基于視覺(jué)語(yǔ)義塊的網(wǎng)頁(yè)正文提取算法基本可以達(dá)到94%以上的提取準(zhǔn)確率和召回率。而且由于算法角度的不同,該算法還可以與其他傳統(tǒng)基于網(wǎng)頁(yè)文本的算法相結(jié)合,得到更好的效果。
[Abstract]:With the rapid development of Internet technology and the explosive growth of network information, the number of web pages has also increased dramatically. More and more people are used to the search engine to get the information they need from the vast Internet. Usually, however, a web page contains not only the text information that the user needs, but also other non-text information, such as navigation bar, advertising link, recommendation link, etc. It brings great interference to the efficiency and accuracy of search engine. Therefore, the technology of web page text extraction has become an important subject in the field of search engine. In this paper, a text extraction algorithm based on visual semantic block is proposed. This algorithm breaks away from the dependence of existing mainstream text extraction algorithms on web page text, but starts from the perspective of user vision. The web pages are divided into semantic blocks according to their semantic features, and then the semantic blocks with the largest area are found, and then the semantic blocks similar to the semantic blocks are found. Finally, the text information of the web pages is extracted by continuous loop searching. On the one hand, because the algorithm does not depend on the distribution density of the page text, it can also achieve good results in the web pages where some noise information also contains a lot of text, and can also include images in the text information. Video and so on are extracted at the same time, which improves the robustness of the algorithm. On the other hand, the algorithm does not need to traverse the whole DOM tree to find the target information, but only need to deal with the leaf nodes of the DOM tree, in the process of processing the DOM tree, the algorithm does not need to traverse the whole DOM tree to find the target information. Thus, the searching time is saved and the efficiency of text extraction is greatly improved. This paper makes an experimental analysis of 300 web pages of 15 portals, including news, blogs, forums and BBS. The experimental results show that the algorithm based on visual semantic block can achieve more than 94% extraction accuracy and recall rate. Because of the different angles of the algorithm, the algorithm can be combined with other traditional algorithms based on web page text to get better results.
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁(yè)正文信息抽取新方法[J];大連理工大學(xué)學(xué)報(bào);2009年04期
2 吳麒;陳興蜀;譚駿;;基于權(quán)值優(yōu)化的網(wǎng)頁(yè)正文內(nèi)容提取算法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期
3 李永平,張茂元;基于并行模糊歸類的網(wǎng)頁(yè)信息提取方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年21期
4 李蕾;王勁林;白鶴;胡晶晶;;基于FFT的網(wǎng)頁(yè)正文提取算法研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2007年30期
5 孟軍;劉秋水;王秀坤;;節(jié)點(diǎn)頻度和語(yǔ)義距離相結(jié)合的網(wǎng)頁(yè)正文信息抽取[J];計(jì)算機(jī)工程與應(yīng)用;2009年01期
6 王少康;董科軍;閻保平;;使用特征文本密度的網(wǎng)頁(yè)正文提取[J];計(jì)算機(jī)工程與應(yīng)用;2010年20期
7 張瑞雪;宋明秋;公衍磊;;逆序解析DOM樹及網(wǎng)頁(yè)正文信息提取[J];計(jì)算機(jī)科學(xué);2011年04期
8 王利;劉宗田;王燕華;廖濤;;基于內(nèi)容相似度的網(wǎng)頁(yè)正文提取[J];計(jì)算機(jī)工程;2010年06期
9 歐陽(yáng)佳;林丕源;;基于DBSCAN算法的網(wǎng)頁(yè)正文提取[J];計(jì)算機(jī)工程;2011年03期
10 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁(yè)信息解析器的研究與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2005年04期
相關(guān)碩士學(xué)位論文 前4條
1 蒲宇達(dá);基于web的網(wǎng)頁(yè)鏈接與正文抽取技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2006年
2 劉斌;基于Web的HTML網(wǎng)頁(yè)清洗技術(shù)的研究與實(shí)現(xiàn)[D];華北電力大學(xué)(北京);2007年
3 褚鋒;基于個(gè)性化搜索的網(wǎng)頁(yè)特征提取相關(guān)技術(shù)的研究[D];山東科技大學(xué);2009年
4 萬(wàn)晶;Web網(wǎng)頁(yè)正文抽取方法研究[D];南昌大學(xué);2010年
,本文編號(hào):1963743
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1963743.html