頁面數(shù)據過濾技術研究與應用

發(fā)布時間：2017-05-20 13:25

本文關鍵詞：頁面數(shù)據過濾技術研究與應用，，由筆耕文化傳播整理發(fā)布。

【摘要】：摘要：互聯(lián)網頁面數(shù)量的膨脹使得從海量頁面中獲取有用信息變得非常重要。然而,網頁包含的大量噪音信息(廣告、版權信息、導航信息等)給搜索引擎為頁面建立索引帶來了很大的干擾。這種對頁面噪音凈化的迫切需求,使得頁面數(shù)據過濾技術成為研究的熱點。頁面數(shù)據過濾技術旨在對網頁中的充斥的大量與正文無關的且重復性高的噪音信息進行識別,提取網頁中的主題相關內容。目前已有很多學者根據網絡頁面特點提出各種頁面數(shù)據的凈化方法。本文深入分析了各種頁面凈化方法的優(yōu)缺點和適用性,指出了現(xiàn)有的頁面凈化方法缺少對網頁的布局特征和視覺描述信息的充分利用等問題,并且針對現(xiàn)代主流商業(yè)網站基于"DIV+CSS"的頁面設計風格,總結出頁面中同一div塊中的內容具有同樣的語義特征,提出了DIV_FOREST網頁表示模型,并結合基于視覺特征的VIPS算法,提出了綜合考慮布局特征和視覺特征的DVPS網頁分塊算法。在網頁分塊的基礎上,本文對各數(shù)據塊的空間位置、語義特征和視覺表現(xiàn)特征進行提取、分析和量化表示。給出了網頁數(shù)據塊是主題塊或者噪音塊的評判標準。至此,實現(xiàn)了應用DVPS算法進行頁面數(shù)據過濾的過程。然后,論文對新提出的DVPS算法與前人提出的VIPS算法在頁面過濾效果上做出比較,仿真結果證明,該算法在處理"CSS+DIV"類型的頁面時,表現(xiàn)出了預期的優(yōu)勢。最后,本文在之前頁面數(shù)據過濾工作的基礎上,將凈化后的頁面作為網頁分類器的輸入頁面,通過分類效果的評估來評判網頁凈化算法的效果。實驗結果證明了本文提出的網頁塊劃分模型和頁面數(shù)據過濾方法的合理性和有效性。論文的工作得到了國家自然科學基金(No.61172072,61271308)、北京市自然科學基金(No.4112045)、高等教育博士點基金(No.W11C100030)、北京科技計劃(No.Z121100000312024)和北京市教育委員會學科建設與研究生建設項目等課題的支持。
【關鍵詞】：頁面數(shù)據過濾 網頁分塊 DIV_FOREST模型 DVPS算法
【學位授予單位】：北京交通大學
【學位級別】：碩士
【學位授予年份】：2014
【分類號】：TP393.092
【目錄】：

致謝5-6
中文摘要6-7
ABSTRACT7-11
1 引言11-16
1.1 課題背景與研究意義11-12
1.2 國內外研究現(xiàn)狀12-14
1.3 論文研究內容14
1.4 論文組織結構14-16
2 關鍵技術分析16-26
2.1 網頁的表示16-20
2.1.1 超文本標記語言HTML16-17
2.1.2 可擴展標記語言XML17-19
2.1.3 文檔對象模型DOM19-20
2.2 信息抽取模型20-23
2.2.1 基于NLP的頁面信息抽取20-21
2.2.2 基于包裝器(Wrapper)的頁面信息抽取21
2.2.3 基于HTML結構分析的網頁信息抽取21-22
2.2.4 基于本體的頁面信息抽取22
2.2.5 各抽取方法的比較22-23
2.3 文本預處理23-24
2.3.1 正則表達式23
2.3.2 中文分詞技術23-24
2.4 CSS+DIV頁面布局特點24-25
2.5 小結25-26
3 基于DIV_FOREST網頁表示的DVPS算法26-45
3.1 網頁分塊方法26-30
3.1.1 利用標記布局特征進行網頁分塊26-27
3.1.2 利用擴展DOM樹進行網頁分塊27-28
3.1.3 利用視覺特征進行網頁分塊28-30
3.2 頁面數(shù)據過濾方案30-38
3.2.1 DIV_FOREST模型簡介30-32
3.2.2 模型構建規(guī)則32-35
3.2.3 DVPS視覺分塊算法35-38
3.3 DIV數(shù)據塊特征提取38-43
3.3.1 文本特征提取39-40
3.3.2 空間特征提取40-41
3.3.3 語義特征提取41-43
3.4 小結43-45
4 頁面數(shù)據過濾系統(tǒng)設計45-53
4.1 系統(tǒng)結構圖45
4.2 實驗環(huán)境45-50
4.2.1 DIV_FOREST模型構建模塊46-47
4.2.2 網頁視覺塊劃分模塊47
4.2.3 頁面特征提取模塊47-50
4.3 實驗結果與分析50-53
5 頁面數(shù)據過濾在網頁分類中的應用53-59
5.1 網頁分類算法的選擇53-55
5.1.1 KNN分類算法53-54
5.1.2 樸素貝葉斯算法54
5.1.3 決策樹分類算法54-55
5.1.4 TF-IDF算法55
5.1.5 各分類算法的比較55
5.2 評價指標55-56
5.3 實驗數(shù)據集56-57
5.4 分類結果分析57
5.5 小結57-59
6 總結與展望59-61
6.1 總結59-60
6.2 未來研究的展望60-61
參考文獻61-64
作者簡歷64-66
學位論文數(shù)據集66

【參考文獻】

中國期刊全文數(shù)據庫前5條

1 張啟宇;朱玲;張雅萍;;中文分詞算法研究綜述[J];情報探索;2008年11期

2 常紅要;朱征宇;陳燁;張鵬;曾麗芳;;基于HTML標記用途分析的網頁正文提取技術[J];計算機工程與設計;2010年24期

3 孫曉輝;劉建;王勁林;陳曉;;基于CSS的網頁分割算法[J];微計算機應用;2008年09期

4 高琰;谷士文;譚立球;;基于多種策略的頁面內容提取算法[J];西南交通大學學報;2007年04期

5 高樂;張健;田賢忠;;基于視覺的Web頁面分塊算法的改進與實現(xiàn)[J];計算機系統(tǒng)應用;2009年04期

本文關鍵詞：頁面數(shù)據過濾技術研究與應用，由筆耕文化傳播整理發(fā)布。

本文編號：381770

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/381770.html

上一篇：Web熱點信息發(fā)現(xiàn)系統(tǒng)的設計與實現(xiàn)
下一篇：Android系統(tǒng)取證關鍵技術研究

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

頁面數(shù)據過濾技術研究與應用