頁(yè)面數(shù)據(jù)過濾技術(shù)研究與應(yīng)用
發(fā)布時(shí)間:2017-05-20 13:25
本文關(guān)鍵詞:頁(yè)面數(shù)據(jù)過濾技術(shù)研究與應(yīng)用,,由筆耕文化傳播整理發(fā)布。
【摘要】:摘要:互聯(lián)網(wǎng)頁(yè)面數(shù)量的膨脹使得從海量頁(yè)面中獲取有用信息變得非常重要。然而,網(wǎng)頁(yè)包含的大量噪音信息(廣告、版權(quán)信息、導(dǎo)航信息等)給搜索引擎為頁(yè)面建立索引帶來(lái)了很大的干擾。這種對(duì)頁(yè)面噪音凈化的迫切需求,使得頁(yè)面數(shù)據(jù)過濾技術(shù)成為研究的熱點(diǎn)。 頁(yè)面數(shù)據(jù)過濾技術(shù)旨在對(duì)網(wǎng)頁(yè)中的充斥的大量與正文無(wú)關(guān)的且重復(fù)性高的噪音信息進(jìn)行識(shí)別,提取網(wǎng)頁(yè)中的主題相關(guān)內(nèi)容。目前已有很多學(xué)者根據(jù)網(wǎng)絡(luò)頁(yè)面特點(diǎn)提出各種頁(yè)面數(shù)據(jù)的凈化方法。本文深入分析了各種頁(yè)面凈化方法的優(yōu)缺點(diǎn)和適用性,指出了現(xiàn)有的頁(yè)面凈化方法缺少對(duì)網(wǎng)頁(yè)的布局特征和視覺描述信息的充分利用等問題,并且針對(duì)現(xiàn)代主流商業(yè)網(wǎng)站基于"DIV+CSS"的頁(yè)面設(shè)計(jì)風(fēng)格,總結(jié)出頁(yè)面中同一div塊中的內(nèi)容具有同樣的語(yǔ)義特征,提出了DIV_FOREST網(wǎng)頁(yè)表示模型,并結(jié)合基于視覺特征的VIPS算法,提出了綜合考慮布局特征和視覺特征的DVPS網(wǎng)頁(yè)分塊算法。 在網(wǎng)頁(yè)分塊的基礎(chǔ)上,本文對(duì)各數(shù)據(jù)塊的空間位置、語(yǔ)義特征和視覺表現(xiàn)特征進(jìn)行提取、分析和量化表示。給出了網(wǎng)頁(yè)數(shù)據(jù)塊是主題塊或者噪音塊的評(píng)判標(biāo)準(zhǔn)。至此,實(shí)現(xiàn)了應(yīng)用DVPS算法進(jìn)行頁(yè)面數(shù)據(jù)過濾的過程。然后,論文對(duì)新提出的DVPS算法與前人提出的VIPS算法在頁(yè)面過濾效果上做出比較,仿真結(jié)果證明,該算法在處理"CSS+DIV"類型的頁(yè)面時(shí),表現(xiàn)出了預(yù)期的優(yōu)勢(shì)。最后,本文在之前頁(yè)面數(shù)據(jù)過濾工作的基礎(chǔ)上,將凈化后的頁(yè)面作為網(wǎng)頁(yè)分類器的輸入頁(yè)面,通過分類效果的評(píng)估來(lái)評(píng)判網(wǎng)頁(yè)凈化算法的效果。實(shí)驗(yàn)結(jié)果證明了本文提出的網(wǎng)頁(yè)塊劃分模型和頁(yè)面數(shù)據(jù)過濾方法的合理性和有效性。 論文的工作得到了國(guó)家自然科學(xué)基金(No.61172072,61271308)、北京市自然科學(xué)基金(No.4112045)、高等教育博士點(diǎn)基金(No.W11C100030)、北京科技計(jì)劃(No.Z121100000312024)和北京市教育委員會(huì)學(xué)科建設(shè)與研究生建設(shè)項(xiàng)目等課題的支持。
【關(guān)鍵詞】:頁(yè)面數(shù)據(jù)過濾 網(wǎng)頁(yè)分塊 DIV_FOREST模型 DVPS算法
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092
【目錄】:
- 致謝5-6
- 中文摘要6-7
- ABSTRACT7-11
- 1 引言11-16
- 1.1 課題背景與研究意義11-12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-14
- 1.3 論文研究?jī)?nèi)容14
- 1.4 論文組織結(jié)構(gòu)14-16
- 2 關(guān)鍵技術(shù)分析16-26
- 2.1 網(wǎng)頁(yè)的表示16-20
- 2.1.1 超文本標(biāo)記語(yǔ)言HTML16-17
- 2.1.2 可擴(kuò)展標(biāo)記語(yǔ)言XML17-19
- 2.1.3 文檔對(duì)象模型DOM19-20
- 2.2 信息抽取模型20-23
- 2.2.1 基于NLP的頁(yè)面信息抽取20-21
- 2.2.2 基于包裝器(Wrapper)的頁(yè)面信息抽取21
- 2.2.3 基于HTML結(jié)構(gòu)分析的網(wǎng)頁(yè)信息抽取21-22
- 2.2.4 基于本體的頁(yè)面信息抽取22
- 2.2.5 各抽取方法的比較22-23
- 2.3 文本預(yù)處理23-24
- 2.3.1 正則表達(dá)式23
- 2.3.2 中文分詞技術(shù)23-24
- 2.4 CSS+DIV頁(yè)面布局特點(diǎn)24-25
- 2.5 小結(jié)25-26
- 3 基于DIV_FOREST網(wǎng)頁(yè)表示的DVPS算法26-45
- 3.1 網(wǎng)頁(yè)分塊方法26-30
- 3.1.1 利用標(biāo)記布局特征進(jìn)行網(wǎng)頁(yè)分塊26-27
- 3.1.2 利用擴(kuò)展DOM樹進(jìn)行網(wǎng)頁(yè)分塊27-28
- 3.1.3 利用視覺特征進(jìn)行網(wǎng)頁(yè)分塊28-30
- 3.2 頁(yè)面數(shù)據(jù)過濾方案30-38
- 3.2.1 DIV_FOREST模型簡(jiǎn)介30-32
- 3.2.2 模型構(gòu)建規(guī)則32-35
- 3.2.3 DVPS視覺分塊算法35-38
- 3.3 DIV數(shù)據(jù)塊特征提取38-43
- 3.3.1 文本特征提取39-40
- 3.3.2 空間特征提取40-41
- 3.3.3 語(yǔ)義特征提取41-43
- 3.4 小結(jié)43-45
- 4 頁(yè)面數(shù)據(jù)過濾系統(tǒng)設(shè)計(jì)45-53
- 4.1 系統(tǒng)結(jié)構(gòu)圖45
- 4.2 實(shí)驗(yàn)環(huán)境45-50
- 4.2.1 DIV_FOREST模型構(gòu)建模塊46-47
- 4.2.2 網(wǎng)頁(yè)視覺塊劃分模塊47
- 4.2.3 頁(yè)面特征提取模塊47-50
- 4.3 實(shí)驗(yàn)結(jié)果與分析50-53
- 5 頁(yè)面數(shù)據(jù)過濾在網(wǎng)頁(yè)分類中的應(yīng)用53-59
- 5.1 網(wǎng)頁(yè)分類算法的選擇53-55
- 5.1.1 KNN分類算法53-54
- 5.1.2 樸素貝葉斯算法54
- 5.1.3 決策樹分類算法54-55
- 5.1.4 TF-IDF算法55
- 5.1.5 各分類算法的比較55
- 5.2 評(píng)價(jià)指標(biāo)55-56
- 5.3 實(shí)驗(yàn)數(shù)據(jù)集56-57
- 5.4 分類結(jié)果分析57
- 5.5 小結(jié)57-59
- 6 總結(jié)與展望59-61
- 6.1 總結(jié)59-60
- 6.2 未來(lái)研究的展望60-61
- 參考文獻(xiàn)61-64
- 作者簡(jiǎn)歷64-66
- 學(xué)位論文數(shù)據(jù)集66
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條
1 張啟宇;朱玲;張雅萍;;中文分詞算法研究綜述[J];情報(bào)探索;2008年11期
2 常紅要;朱征宇;陳燁;張鵬;曾麗芳;;基于HTML標(biāo)記用途分析的網(wǎng)頁(yè)正文提取技術(shù)[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年24期
3 孫曉輝;劉建;王勁林;陳曉;;基于CSS的網(wǎng)頁(yè)分割算法[J];微計(jì)算機(jī)應(yīng)用;2008年09期
4 高琰;谷士文;譚立球;;基于多種策略的頁(yè)面內(nèi)容提取算法[J];西南交通大學(xué)學(xué)報(bào);2007年04期
5 高樂;張健;田賢忠;;基于視覺的Web頁(yè)面分塊算法的改進(jìn)與實(shí)現(xiàn)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年04期
本文關(guān)鍵詞:頁(yè)面數(shù)據(jù)過濾技術(shù)研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
本文編號(hào):381770
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/381770.html
最近更新
教材專著