天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

頁(yè)面數(shù)據(jù)過濾技術(shù)研究與應(yīng)用

發(fā)布時(shí)間:2017-05-20 13:25

  本文關(guān)鍵詞:頁(yè)面數(shù)據(jù)過濾技術(shù)研究與應(yīng)用,,由筆耕文化傳播整理發(fā)布。


【摘要】:摘要:互聯(lián)網(wǎng)頁(yè)面數(shù)量的膨脹使得從海量頁(yè)面中獲取有用信息變得非常重要。然而,網(wǎng)頁(yè)包含的大量噪音信息(廣告、版權(quán)信息、導(dǎo)航信息等)給搜索引擎為頁(yè)面建立索引帶來(lái)了很大的干擾。這種對(duì)頁(yè)面噪音凈化的迫切需求,使得頁(yè)面數(shù)據(jù)過濾技術(shù)成為研究的熱點(diǎn)。 頁(yè)面數(shù)據(jù)過濾技術(shù)旨在對(duì)網(wǎng)頁(yè)中的充斥的大量與正文無(wú)關(guān)的且重復(fù)性高的噪音信息進(jìn)行識(shí)別,提取網(wǎng)頁(yè)中的主題相關(guān)內(nèi)容。目前已有很多學(xué)者根據(jù)網(wǎng)絡(luò)頁(yè)面特點(diǎn)提出各種頁(yè)面數(shù)據(jù)的凈化方法。本文深入分析了各種頁(yè)面凈化方法的優(yōu)缺點(diǎn)和適用性,指出了現(xiàn)有的頁(yè)面凈化方法缺少對(duì)網(wǎng)頁(yè)的布局特征和視覺描述信息的充分利用等問題,并且針對(duì)現(xiàn)代主流商業(yè)網(wǎng)站基于"DIV+CSS"的頁(yè)面設(shè)計(jì)風(fēng)格,總結(jié)出頁(yè)面中同一div塊中的內(nèi)容具有同樣的語(yǔ)義特征,提出了DIV_FOREST網(wǎng)頁(yè)表示模型,并結(jié)合基于視覺特征的VIPS算法,提出了綜合考慮布局特征和視覺特征的DVPS網(wǎng)頁(yè)分塊算法。 在網(wǎng)頁(yè)分塊的基礎(chǔ)上,本文對(duì)各數(shù)據(jù)塊的空間位置、語(yǔ)義特征和視覺表現(xiàn)特征進(jìn)行提取、分析和量化表示。給出了網(wǎng)頁(yè)數(shù)據(jù)塊是主題塊或者噪音塊的評(píng)判標(biāo)準(zhǔn)。至此,實(shí)現(xiàn)了應(yīng)用DVPS算法進(jìn)行頁(yè)面數(shù)據(jù)過濾的過程。然后,論文對(duì)新提出的DVPS算法與前人提出的VIPS算法在頁(yè)面過濾效果上做出比較,仿真結(jié)果證明,該算法在處理"CSS+DIV"類型的頁(yè)面時(shí),表現(xiàn)出了預(yù)期的優(yōu)勢(shì)。最后,本文在之前頁(yè)面數(shù)據(jù)過濾工作的基礎(chǔ)上,將凈化后的頁(yè)面作為網(wǎng)頁(yè)分類器的輸入頁(yè)面,通過分類效果的評(píng)估來(lái)評(píng)判網(wǎng)頁(yè)凈化算法的效果。實(shí)驗(yàn)結(jié)果證明了本文提出的網(wǎng)頁(yè)塊劃分模型和頁(yè)面數(shù)據(jù)過濾方法的合理性和有效性。 論文的工作得到了國(guó)家自然科學(xué)基金(No.61172072,61271308)、北京市自然科學(xué)基金(No.4112045)、高等教育博士點(diǎn)基金(No.W11C100030)、北京科技計(jì)劃(No.Z121100000312024)和北京市教育委員會(huì)學(xué)科建設(shè)與研究生建設(shè)項(xiàng)目等課題的支持。
【關(guān)鍵詞】:頁(yè)面數(shù)據(jù)過濾 網(wǎng)頁(yè)分塊 DIV_FOREST模型 DVPS算法
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092
【目錄】:
  • 致謝5-6
  • 中文摘要6-7
  • ABSTRACT7-11
  • 1 引言11-16
  • 1.1 課題背景與研究意義11-12
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-14
  • 1.3 論文研究?jī)?nèi)容14
  • 1.4 論文組織結(jié)構(gòu)14-16
  • 2 關(guān)鍵技術(shù)分析16-26
  • 2.1 網(wǎng)頁(yè)的表示16-20
  • 2.1.1 超文本標(biāo)記語(yǔ)言HTML16-17
  • 2.1.2 可擴(kuò)展標(biāo)記語(yǔ)言XML17-19
  • 2.1.3 文檔對(duì)象模型DOM19-20
  • 2.2 信息抽取模型20-23
  • 2.2.1 基于NLP的頁(yè)面信息抽取20-21
  • 2.2.2 基于包裝器(Wrapper)的頁(yè)面信息抽取21
  • 2.2.3 基于HTML結(jié)構(gòu)分析的網(wǎng)頁(yè)信息抽取21-22
  • 2.2.4 基于本體的頁(yè)面信息抽取22
  • 2.2.5 各抽取方法的比較22-23
  • 2.3 文本預(yù)處理23-24
  • 2.3.1 正則表達(dá)式23
  • 2.3.2 中文分詞技術(shù)23-24
  • 2.4 CSS+DIV頁(yè)面布局特點(diǎn)24-25
  • 2.5 小結(jié)25-26
  • 3 基于DIV_FOREST網(wǎng)頁(yè)表示的DVPS算法26-45
  • 3.1 網(wǎng)頁(yè)分塊方法26-30
  • 3.1.1 利用標(biāo)記布局特征進(jìn)行網(wǎng)頁(yè)分塊26-27
  • 3.1.2 利用擴(kuò)展DOM樹進(jìn)行網(wǎng)頁(yè)分塊27-28
  • 3.1.3 利用視覺特征進(jìn)行網(wǎng)頁(yè)分塊28-30
  • 3.2 頁(yè)面數(shù)據(jù)過濾方案30-38
  • 3.2.1 DIV_FOREST模型簡(jiǎn)介30-32
  • 3.2.2 模型構(gòu)建規(guī)則32-35
  • 3.2.3 DVPS視覺分塊算法35-38
  • 3.3 DIV數(shù)據(jù)塊特征提取38-43
  • 3.3.1 文本特征提取39-40
  • 3.3.2 空間特征提取40-41
  • 3.3.3 語(yǔ)義特征提取41-43
  • 3.4 小結(jié)43-45
  • 4 頁(yè)面數(shù)據(jù)過濾系統(tǒng)設(shè)計(jì)45-53
  • 4.1 系統(tǒng)結(jié)構(gòu)圖45
  • 4.2 實(shí)驗(yàn)環(huán)境45-50
  • 4.2.1 DIV_FOREST模型構(gòu)建模塊46-47
  • 4.2.2 網(wǎng)頁(yè)視覺塊劃分模塊47
  • 4.2.3 頁(yè)面特征提取模塊47-50
  • 4.3 實(shí)驗(yàn)結(jié)果與分析50-53
  • 5 頁(yè)面數(shù)據(jù)過濾在網(wǎng)頁(yè)分類中的應(yīng)用53-59
  • 5.1 網(wǎng)頁(yè)分類算法的選擇53-55
  • 5.1.1 KNN分類算法53-54
  • 5.1.2 樸素貝葉斯算法54
  • 5.1.3 決策樹分類算法54-55
  • 5.1.4 TF-IDF算法55
  • 5.1.5 各分類算法的比較55
  • 5.2 評(píng)價(jià)指標(biāo)55-56
  • 5.3 實(shí)驗(yàn)數(shù)據(jù)集56-57
  • 5.4 分類結(jié)果分析57
  • 5.5 小結(jié)57-59
  • 6 總結(jié)與展望59-61
  • 6.1 總結(jié)59-60
  • 6.2 未來(lái)研究的展望60-61
  • 參考文獻(xiàn)61-64
  • 作者簡(jiǎn)歷64-66
  • 學(xué)位論文數(shù)據(jù)集66

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條

1 張啟宇;朱玲;張雅萍;;中文分詞算法研究綜述[J];情報(bào)探索;2008年11期

2 常紅要;朱征宇;陳燁;張鵬;曾麗芳;;基于HTML標(biāo)記用途分析的網(wǎng)頁(yè)正文提取技術(shù)[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年24期

3 孫曉輝;劉建;王勁林;陳曉;;基于CSS的網(wǎng)頁(yè)分割算法[J];微計(jì)算機(jī)應(yīng)用;2008年09期

4 高琰;谷士文;譚立球;;基于多種策略的頁(yè)面內(nèi)容提取算法[J];西南交通大學(xué)學(xué)報(bào);2007年04期

5 高樂;張健;田賢忠;;基于視覺的Web頁(yè)面分塊算法的改進(jìn)與實(shí)現(xiàn)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年04期


  本文關(guān)鍵詞:頁(yè)面數(shù)據(jù)過濾技術(shù)研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。



本文編號(hào):381770

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/381770.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8bceb***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产午夜在线精品视频| 精品国产亚洲区久久露脸| 日本高清不卡一二三区| 夫妻性生活真人动作视频| 少妇高潮呻吟浪语91| 国产传媒中文字幕东京热| 国产激情国产精品久久源| 日韩一级免费中文字幕视频| 真实偷拍一区二区免费视频| 国产一区在线免费国产一区| 中文字幕五月婷婷免费| 亚洲中文字幕在线视频频道| 欧美日韩亚洲国产av| 日韩蜜桃一区二区三区| 国产一区日韩二区欧美| 亚洲欧美日韩在线看片| 国产91人妻精品一区二区三区| 黄片美女在线免费观看| 午夜视频成人在线观看| 免费大片黄在线观看国语| 精品国产成人av一区二区三区| 中文字幕欧美视频二区| 亚洲欧美国产网爆精品| 能在线看的视频你懂的| 伊人国产精选免费观看在线视频 | 亚洲熟女精品一区二区成人| 日韩欧美国产亚洲一区| 国产又色又粗又黄又爽| 国产视频福利一区二区| 黑人巨大精品欧美一区二区区 | 欧美日韩综合在线第一页| 午夜资源在线观看免费高清| 日本熟女中文字幕一区| 亚洲欧美日本国产不卡 | 蜜桃av人妻精品一区二区三区| 五月天婷亚洲天婷综合网| 国产精品免费视频专区| 久久精品国产亚洲av麻豆尤物| 欧美激情中文字幕综合八区| 久久永久免费一区二区| 91欧美亚洲视频在线|