天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于視覺特征的網(wǎng)頁清洗研究與實現(xiàn)

發(fā)布時間:2017-10-17 11:37

  本文關(guān)鍵詞:基于視覺特征的網(wǎng)頁清洗研究與實現(xiàn)


  更多相關(guān)文章: 網(wǎng)頁清洗 正文提取 網(wǎng)頁分塊 VIPS算法


【摘要】:網(wǎng)頁清洗,也稱為網(wǎng)頁去噪,即自動識別并去除網(wǎng)頁中的噪音信息,提取網(wǎng)頁中的有用文本。網(wǎng)頁清洗為搜索引擎、web數(shù)據(jù)挖掘等各種應(yīng)用和研究提供高質(zhì)量的純文本數(shù)據(jù),對基于互聯(lián)網(wǎng)的各種應(yīng)用和研究極具意義。 本文針對當(dāng)前網(wǎng)頁清洗技術(shù)中存在的通用性不足的問題,提出了一套基于視覺的網(wǎng)頁清洗算法,該算法充分考慮網(wǎng)頁制作者設(shè)計網(wǎng)頁和用戶瀏覽網(wǎng)頁的視覺模式信息,從而更具通用性。本文基于該算法設(shè)計并實現(xiàn)一個網(wǎng)頁清洗系統(tǒng)。 本文主要有四個方面的主要貢獻(xiàn): 首先,通過深入研究互聯(lián)網(wǎng)頁面的半結(jié)構(gòu)化表示,詳細(xì)分析網(wǎng)頁常用表示方法及其特點,根據(jù)用戶瀏覽網(wǎng)頁觀察到的頁面結(jié)構(gòu),將互聯(lián)網(wǎng)上多樣的網(wǎng)頁劃分為主題型、論壇型和索引型三種不同結(jié)構(gòu)類型的網(wǎng)頁,針對不同結(jié)構(gòu)類型的網(wǎng)頁更加精確地定義網(wǎng)頁清洗任務(wù)。 其次,研究基于視覺信息的頁面分塊算法VIPS(Vision-based Page Segmentation Algorithm),針對網(wǎng)頁清洗任務(wù)對其進(jìn)行改進(jìn),將網(wǎng)頁分成視覺和語義相結(jié)合的塊,設(shè)計自適應(yīng)調(diào)整閾值算法解決對不同頁面進(jìn)行分塊的粒度控制問題。 再次,設(shè)計正文塊識別算法。綜合考慮網(wǎng)頁視覺塊多個層面的信息,對視覺塊提取統(tǒng)計特征并進(jìn)行量化,訓(xùn)練分類模型,最終定位正文塊。 第四,設(shè)計并實現(xiàn)一套完整的網(wǎng)頁清洗系統(tǒng)。設(shè)計實驗分析本文算法的關(guān)鍵技術(shù),并與兩種已有的清洗算法進(jìn)行比較。實驗結(jié)果表明本文算法能夠有效地對不同結(jié)構(gòu)類型的網(wǎng)頁進(jìn)行正文提取,在準(zhǔn)確率和完整性上具有更好的效果。
【關(guān)鍵詞】:網(wǎng)頁清洗 正文提取 網(wǎng)頁分塊 VIPS算法
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092
【目錄】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 緒論9-16
  • 1.1 研究背景與意義9-10
  • 1.2 國內(nèi)外研究現(xiàn)狀10-13
  • 1.3 論文內(nèi)容與章節(jié)安排13-16
  • 1.3.1 論文主要工作13-14
  • 1.3.2 論文組織結(jié)構(gòu)14-16
  • 第二章 相關(guān)知識16-24
  • 2.1 頁面結(jié)構(gòu)表示16-20
  • 2.1.1 HTML16-18
  • 2.1.2 DOM18-20
  • 2.2 頁面結(jié)構(gòu)分析20-24
  • 第三章 基于視覺信息的頁面分塊算法24-36
  • 3.1 VIPS(Vision-based Page Segmentation)算法24-28
  • 3.2 視覺分塊算法實現(xiàn)28-36
  • 3.2.1 頁面視覺塊提取算法29-31
  • 3.2.2 自適應(yīng)調(diào)整閾值過程31-36
  • 第四章 正文塊識別算法36-45
  • 4.1 頁面視覺塊特征提取36-40
  • 4.1.1 內(nèi)容特征37
  • 4.1.2 視覺特征37-39
  • 4.1.3 標(biāo)簽特征39
  • 4.1.4 相似度特征39-40
  • 4.2 頁面視覺塊分類算法40-45
  • 4.2.1 分類算法40-42
  • 4.2.2 樣本打標(biāo)系統(tǒng)42-45
  • 第五章 網(wǎng)頁清洗系統(tǒng)實現(xiàn)及實驗45-56
  • 5.1 網(wǎng)頁清洗系統(tǒng)設(shè)計與實現(xiàn)45-49
  • 5.2 實驗分析49-53
  • 5.2.1 實驗評估49-51
  • 5.2.2 自適應(yīng)調(diào)整閾值的分塊算法分析51
  • 5.2.3 正文塊識別特征選取分析51-53
  • 5.3 對比實驗53-56
  • 第六章 總結(jié)與展望56-58
  • 6.1 本文工作總結(jié)56
  • 6.2 進(jìn)一步工作展望56-58
  • 參考文獻(xiàn)58-62
  • 致謝62

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 趙文;唐建雄;高慶鋒;;基于統(tǒng)計的中文網(wǎng)頁正文抽取的研究[J];電腦知識與技術(shù);2008年01期

2 任玉;樊勇;鄭家恒;;基于分塊的網(wǎng)頁主題文本抽取[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2009年01期

3 夏天;;基于擴(kuò)展標(biāo)記樹的網(wǎng)頁正文抽取[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2011年01期

4 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機(jī)研究與發(fā)展;2004年10期

5 張霞亮;陳家駿;;基于邏輯行和最大接納距離的網(wǎng)頁正文抽取[J];計算機(jī)工程與應(yīng)用;2009年25期

6 汪建偉;楊冬青;高軍;王騰蛟;;一種基于分類算法的網(wǎng)頁信息提取方法[J];計算機(jī)科學(xué);2008年03期

7 王利;劉宗田;王燕華;廖濤;;基于內(nèi)容相似度的網(wǎng)頁正文提取[J];計算機(jī)工程;2010年06期

8 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J];計算機(jī)應(yīng)用;2005年04期

9 何正華;顧君忠;楊靜;;基于視覺特征的BBS用戶發(fā)言信息抽取[J];計算機(jī)應(yīng)用;2009年S1期

10 趙欣欣;索紅光;劉玉樹;;基于標(biāo)記窗的網(wǎng)頁正文信息提取方法[J];計算機(jī)應(yīng)用研究;2007年03期

,

本文編號:1048634

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1048634.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b8571***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com