當(dāng)前位置：主頁 > 管理論文 > 移動(dòng)網(wǎng)絡(luò)論文 >

Web網(wǎng)頁去噪及信息提取算法的研究與應(yīng)用

發(fā)布時(shí)間：2021-10-08 12:46

　　隨著互聯(lián)網(wǎng)的發(fā)展與普及,越來越多的人依賴于從網(wǎng)絡(luò)上獲取信息,但是為了維護(hù)商業(yè)利益和推廣的需要,網(wǎng)絡(luò)上充斥著大量的噪音信息,嚴(yán)重干擾了人們對(duì)信息的獲取,基于此本文提出了一種基于DOM （Document Object Model）樹的網(wǎng)頁信息提取方法。通過對(duì)常用的網(wǎng)頁去噪和信息提取方法進(jìn)行分析發(fā)現(xiàn),某些基于DOM實(shí)現(xiàn)的網(wǎng)頁提取方法并不能判斷不含有超級(jí)鏈接的網(wǎng)頁噪音,而且不能處理正文分布在DIV標(biāo)簽中的情況,去噪效果不理想。本文從以下幾個(gè)方面解決了上述問題：1.利用VIPS （Vision Based Page Segmentation）實(shí)現(xiàn)網(wǎng)頁內(nèi)容分塊,有效的劃分開了與網(wǎng)頁主題相關(guān)的信息塊和噪音信息塊。2.將所劃分得到的塊轉(zhuǎn)化為DOM樹形結(jié)構(gòu)。用VIPS方法劃分出來的每個(gè)內(nèi)容塊都是一個(gè)樹形結(jié)構(gòu),將網(wǎng)頁進(jìn)行了更加細(xì)粒度的劃分。3.用遞歸方法對(duì)DOM樹中存在于標(biāo)簽中的節(jié)點(diǎn)信息進(jìn)行提取,有效的解決了主題信息存在于TABLE和DIV標(biāo)簽中的問題。根據(jù)網(wǎng)頁標(biāo)題與結(jié)點(diǎn)中詞共現(xiàn)頻率以及文本間的相似度實(shí)現(xiàn)網(wǎng)頁正文內(nèi)容的提取。在計(jì)算網(wǎng)頁標(biāo)題與結(jié)點(diǎn)詞共現(xiàn)頻率時(shí),將標(biāo)題中的詞賦予較大的權(quán)重,文本中的節(jié)點(diǎn)詞賦予...

【文章來源】：安徽理工大學(xué)安徽省

【文章頁數(shù)】：57 頁

【學(xué)位級(jí)別】：碩士

【文章目錄】：
摘要
Abstract
1 緒論
    1.1 研究背景
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
    1.3 存在問題
    1.4 研究意義
    1.5 論文結(jié)構(gòu)
2 常見的網(wǎng)頁去噪及信息提取技術(shù)
    2.1 基于網(wǎng)頁分塊的網(wǎng)頁去噪模型
    2.2 基于模板的網(wǎng)頁去噪方法
    2.3 基于視覺模型的Web頁面信息提取算法
3 相關(guān)知識(shí)介紹
    3.1 Web
    3.2 XML
    3.3 CSS
    3.4 DOM
    3.5 超級(jí)文本標(biāo)記語言
    3.6 Web數(shù)據(jù)挖掘技術(shù)
4 結(jié)構(gòu)模型
    4.1 整體框架模型
        4.1.1 Web信息提取和Web信息檢索
        4.1.2 信息提取的整體框架
        4.1.3 信息提取的結(jié)構(gòu)
    4.2 待提取信息頁面的獲取
    4.3 頁面分塊與凈化
    4.4 關(guān)聯(lián)規(guī)則經(jīng)典算法分析
5 系統(tǒng)實(shí)現(xiàn)與分析
    5.1 網(wǎng)頁去噪及信息提取過程
        5.1.1 信息選取
        5.1.2 網(wǎng)頁塊的劃分去噪
    5.2 系統(tǒng)設(shè)計(jì)
        5.2.1 性能評(píng)價(jià)指標(biāo)
        5.2.2 設(shè)計(jì)目標(biāo)
        5.2.3 系統(tǒng)運(yùn)行環(huán)境及實(shí)現(xiàn)結(jié)果
6 總結(jié)與展望
參考文獻(xiàn)
致謝
作者簡(jiǎn)介及讀研期間主要科研成果

【參考文獻(xiàn)】：
期刊論文
[1]Lanczos雙對(duì)角算法在文本挖掘當(dāng)中的應(yīng)用[J]. 范偉鵬.  信息技術(shù). 2012(12)
[2]基于社會(huì)網(wǎng)絡(luò)分析的多屬性關(guān)聯(lián)規(guī)則挖掘方法[J]. 李永立,吳沖,劉一丹,孫紀(jì)舟.  情報(bào)學(xué)報(bào). 2012 (08)
[3]Web數(shù)據(jù)挖掘中數(shù)據(jù)異構(gòu)問題解決方法的研究[J]. 李春梅,李艾丹,薛中玉,韓爽.  中國(guó)科技資源導(dǎo)刊. 2012 (04)
[4]面向Web信息檢索的虛核文本分類算法[J]. 李靜,楊小帆,孫啟干.  計(jì)算機(jī)工程. 2012(10)
[5]一種適用于機(jī)器翻譯的漢語分詞方法[J]. 奚寧,李博淵,黃書劍,陳家駿.  中文信息學(xué)報(bào). 2012(03)
[6]一種基于海量信息處理的云存儲(chǔ)模型研究[J]. 張桂剛,李超,張勇,邢春曉.  計(jì)算機(jī)研究與發(fā)展. 2012(S1)
[7]基于DTD/DOM的XML技術(shù)的應(yīng)用研究[J]. 陳煥英,李冰.  河南城建學(xué)院學(xué)報(bào). 2012(01)
[8]比較分析XML與HTML[J]. 曹風(fēng)華.  電腦與信息技術(shù). 2011(04)
[9]基于云模型的文本特征自動(dòng)提取算法[J]. 代勁,何中市,胡峰.  中南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(03)
[10]基于模板的網(wǎng)頁主題信息抽取模型[J]. 黃榮.  科技信息. 2011(04)

碩士論文
[1]基于樹形結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)抽取模式研究及應(yīng)用[D]. 高永勝.大連理工大學(xué) 2011
[2]互聯(lián)網(wǎng)中的海量用戶行為挖掘算法研究[D]. 周津.中國(guó)科學(xué)技術(shù)大學(xué) 2011
[3]基于JAVA/XML的分布式數(shù)據(jù)同步系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D]. 徐瑞雪.大連海事大學(xué) 2011
[4]文本自動(dòng)標(biāo)引方法研究與實(shí)現(xiàn)[D]. 馬娟.西南交通大學(xué) 2009
[5]基于DOM的網(wǎng)頁凈化方法研究[D]. 徐超.中國(guó)石油大學(xué) 2009
[6]垂直搜索引擎中的網(wǎng)頁對(duì)象抽取模型及實(shí)現(xiàn)技術(shù)研究[D]. 王實(shí).湖南大學(xué) 2009

本文編號(hào)：3424189

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/3424189.html

上一篇：淺談大數(shù)據(jù)在計(jì)算機(jī)網(wǎng)絡(luò)安全教學(xué)中的應(yīng)用
下一篇：動(dòng)態(tài)環(huán)境下P2P蠕蟲防御模型的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Web網(wǎng)頁去噪及信息提取算法的研究與應(yīng)用