天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于視覺語義塊的網(wǎng)頁正文提取算法研究

發(fā)布時間:2018-06-01 09:44

  本文選題:網(wǎng)頁正文提取 + DOM樹 ; 參考:《浙江大學(xué)》2013年碩士論文


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,以及網(wǎng)絡(luò)信息的爆炸性增長,網(wǎng)頁的數(shù)量也開始了急劇增加,人們也越來越習(xí)慣于借助搜索引擎這一工具來從浩如煙海的互聯(lián)網(wǎng)上獲取自己所需要的信息。然而,通常情況下一張網(wǎng)頁并不僅僅包含了用戶所需的正文信息,它還通常還有其他各種非正文信息,如導(dǎo)航欄,廣告鏈接,推薦鏈接等,這類噪音信息的存在,給搜索引擎的效率和準(zhǔn)確率帶來了極大地干擾,因此,網(wǎng)頁正文提取技術(shù)也就成為了搜索引擎領(lǐng)域的一個重大課題。 本文提出了一種基于視覺語義塊的網(wǎng)頁正文提取算法,該算法擺脫了現(xiàn)有主流正文提取算法對于網(wǎng)頁文本的依賴性,而是從用戶視覺角度出發(fā),將網(wǎng)頁根據(jù)語義特征分割為一個個語義塊,然后尋找其中面積最大的語義塊,再進(jìn)而尋找與之結(jié)構(gòu)類似的語義塊,通過不斷循環(huán)查找,最后提取出網(wǎng)頁的正文信息。一方面,由于該算法并不依賴于網(wǎng)頁文本分布密度,在一些噪音信息同樣含有大量文本的網(wǎng)頁中也能取得很好的效果,而且還能將正文信息中包含的圖片、視頻等也一并提取出來,因而提高了算法的健壯性;另一方面,該算法在處理DOM樹的過程中,并不需要遍歷整棵DOM樹來查找目標(biāo)信息,而只需要對DOM樹的葉子結(jié)點進(jìn)行處理,從而節(jié)省了查找時間,大大提高了正文提取的效率。 本文通過對15個門戶網(wǎng)站的300個網(wǎng)頁進(jìn)行了實驗分析,其中包含了新聞、博客、論壇、BBS等各類主題性網(wǎng)頁。實驗結(jié)果表明,本文的基于視覺語義塊的網(wǎng)頁正文提取算法基本可以達(dá)到94%以上的提取準(zhǔn)確率和召回率。而且由于算法角度的不同,該算法還可以與其他傳統(tǒng)基于網(wǎng)頁文本的算法相結(jié)合,得到更好的效果。
[Abstract]:With the rapid development of Internet technology and the explosive growth of network information, the number of web pages has also increased dramatically. More and more people are used to the search engine to get the information they need from the vast Internet. Usually, however, a web page contains not only the text information that the user needs, but also other non-text information, such as navigation bar, advertising link, recommendation link, etc. It brings great interference to the efficiency and accuracy of search engine. Therefore, the technology of web page text extraction has become an important subject in the field of search engine. In this paper, a text extraction algorithm based on visual semantic block is proposed. This algorithm breaks away from the dependence of existing mainstream text extraction algorithms on web page text, but starts from the perspective of user vision. The web pages are divided into semantic blocks according to their semantic features, and then the semantic blocks with the largest area are found, and then the semantic blocks similar to the semantic blocks are found. Finally, the text information of the web pages is extracted by continuous loop searching. On the one hand, because the algorithm does not depend on the distribution density of the page text, it can also achieve good results in the web pages where some noise information also contains a lot of text, and can also include images in the text information. Video and so on are extracted at the same time, which improves the robustness of the algorithm. On the other hand, the algorithm does not need to traverse the whole DOM tree to find the target information, but only need to deal with the leaf nodes of the DOM tree, in the process of processing the DOM tree, the algorithm does not need to traverse the whole DOM tree to find the target information. Thus, the searching time is saved and the efficiency of text extraction is greatly improved. This paper makes an experimental analysis of 300 web pages of 15 portals, including news, blogs, forums and BBS. The experimental results show that the algorithm based on visual semantic block can achieve more than 94% extraction accuracy and recall rate. Because of the different angles of the algorithm, the algorithm can be combined with other traditional algorithms based on web page text to get better results.
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁正文信息抽取新方法[J];大連理工大學(xué)學(xué)報;2009年04期

2 吳麒;陳興蜀;譚駿;;基于權(quán)值優(yōu)化的網(wǎng)頁正文內(nèi)容提取算法[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2011年04期

3 李永平,張茂元;基于并行模糊歸類的網(wǎng)頁信息提取方法研究[J];計算機(jī)工程與應(yīng)用;2003年21期

4 李蕾;王勁林;白鶴;胡晶晶;;基于FFT的網(wǎng)頁正文提取算法研究與實現(xiàn)[J];計算機(jī)工程與應(yīng)用;2007年30期

5 孟軍;劉秋水;王秀坤;;節(jié)點頻度和語義距離相結(jié)合的網(wǎng)頁正文信息抽取[J];計算機(jī)工程與應(yīng)用;2009年01期

6 王少康;董科軍;閻保平;;使用特征文本密度的網(wǎng)頁正文提取[J];計算機(jī)工程與應(yīng)用;2010年20期

7 張瑞雪;宋明秋;公衍磊;;逆序解析DOM樹及網(wǎng)頁正文信息提取[J];計算機(jī)科學(xué);2011年04期

8 王利;劉宗田;王燕華;廖濤;;基于內(nèi)容相似度的網(wǎng)頁正文提取[J];計算機(jī)工程;2010年06期

9 歐陽佳;林丕源;;基于DBSCAN算法的網(wǎng)頁正文提取[J];計算機(jī)工程;2011年03期

10 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J];計算機(jī)應(yīng)用;2005年04期

相關(guān)碩士學(xué)位論文 前4條

1 蒲宇達(dá);基于web的網(wǎng)頁鏈接與正文抽取技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2006年

2 劉斌;基于Web的HTML網(wǎng)頁清洗技術(shù)的研究與實現(xiàn)[D];華北電力大學(xué)(北京);2007年

3 褚鋒;基于個性化搜索的網(wǎng)頁特征提取相關(guān)技術(shù)的研究[D];山東科技大學(xué);2009年

4 萬晶;Web網(wǎng)頁正文抽取方法研究[D];南昌大學(xué);2010年

,

本文編號:1963743

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1963743.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9166e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
精品亚洲av一区二区三区| 日本人妻免费一区二区三区| 免费精品一区二区三区 | 国产精品白丝久久av| 国产一级二级三级观看| 免费一区二区三区少妇| 国产麻豆视频一二三区| 日韩日韩日韩日韩在线| 精品少妇一区二区视频| 91亚洲熟女少妇在线观看| 欧美一区二区三区五月婷婷| 亚洲精品国男人在线视频| 国产又黄又猛又粗又爽的片| 国产精品久久香蕉国产线| 精品人妻少妇二区三区| 可以在线看的欧美黄片| 欧美国产日韩变态另类在线看| 日韩一区二区免费在线观看| 亚洲国产成人一区二区在线观看| 欧美精品专区一区二区| 日韩人妻有码一区二区| 日本婷婷色大香蕉视频在线观看| 搡老妇女老熟女一区二区| 邻居人妻人公侵犯人妻视频| 人妻精品一区二区三区视频免精| 日韩精品毛片视频免费看 | 国产目拍亚洲精品区一区| 99视频精品免费视频播放| 国产亚洲神马午夜福利| 欧美在线观看视频三区| 国产欧美日韩不卡在线视频| 在线九月婷婷丁香伊人| 欧美日韩在线视频一区| 日本 一区二区 在线| 成人精品视频一区二区在线观看 | 欧美日韩国产另类一区二区| 人体偷拍一区二区三区| 东北老熟妇全程露脸被内射| 九九九热在线免费视频| 精品久久少妇激情视频| 四季精品人妻av一区二区三区|