Web網(wǎng)頁去噪及信息提取算法的研究與應(yīng)用
發(fā)布時(shí)間:2021-10-08 12:46
隨著互聯(lián)網(wǎng)的發(fā)展與普及,越來越多的人依賴于從網(wǎng)絡(luò)上獲取信息,但是為了維護(hù)商業(yè)利益和推廣的需要,網(wǎng)絡(luò)上充斥著大量的噪音信息,嚴(yán)重干擾了人們對(duì)信息的獲取,基于此本文提出了一種基于DOM (Document Object Model)樹的網(wǎng)頁信息提取方法。通過對(duì)常用的網(wǎng)頁去噪和信息提取方法進(jìn)行分析發(fā)現(xiàn),某些基于DOM實(shí)現(xiàn)的網(wǎng)頁提取方法并不能判斷不含有超級(jí)鏈接的網(wǎng)頁噪音,而且不能處理正文分布在DIV標(biāo)簽中的情況,去噪效果不理想。本文從以下幾個(gè)方面解決了上述問題:1.利用VIPS (Vision Based Page Segmentation)實(shí)現(xiàn)網(wǎng)頁內(nèi)容分塊,有效的劃分開了與網(wǎng)頁主題相關(guān)的信息塊和噪音信息塊。2.將所劃分得到的塊轉(zhuǎn)化為DOM樹形結(jié)構(gòu)。用VIPS方法劃分出來的每個(gè)內(nèi)容塊都是一個(gè)樹形結(jié)構(gòu),將網(wǎng)頁進(jìn)行了更加細(xì)粒度的劃分。3.用遞歸方法對(duì)DOM樹中存在于標(biāo)簽中的節(jié)點(diǎn)信息進(jìn)行提取,有效的解決了主題信息存在于TABLE和DIV標(biāo)簽中的問題。根據(jù)網(wǎng)頁標(biāo)題與結(jié)點(diǎn)中詞共現(xiàn)頻率以及文本間的相似度實(shí)現(xiàn)網(wǎng)頁正文內(nèi)容的提取。在計(jì)算網(wǎng)頁標(biāo)題與結(jié)點(diǎn)詞共現(xiàn)頻率時(shí),將標(biāo)題中的詞賦予較大的權(quán)重,文本中的節(jié)點(diǎn)詞賦予...
【文章來源】:安徽理工大學(xué)安徽省
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 存在問題
1.4 研究意義
1.5 論文結(jié)構(gòu)
2 常見的網(wǎng)頁去噪及信息提取技術(shù)
2.1 基于網(wǎng)頁分塊的網(wǎng)頁去噪模型
2.2 基于模板的網(wǎng)頁去噪方法
2.3 基于視覺模型的Web頁面信息提取算法
3 相關(guān)知識(shí)介紹
3.1 Web
3.2 XML
3.3 CSS
3.4 DOM
3.5 超級(jí)文本標(biāo)記語言
3.6 Web數(shù)據(jù)挖掘技術(shù)
4 結(jié)構(gòu)模型
4.1 整體框架模型
4.1.1 Web信息提取和Web信息檢索
4.1.2 信息提取的整體框架
4.1.3 信息提取的結(jié)構(gòu)
4.2 待提取信息頁面的獲取
4.3 頁面分塊與凈化
4.4 關(guān)聯(lián)規(guī)則經(jīng)典算法分析
5 系統(tǒng)實(shí)現(xiàn)與分析
5.1 網(wǎng)頁去噪及信息提取過程
5.1.1 信息選取
5.1.2 網(wǎng)頁塊的劃分去噪
5.2 系統(tǒng)設(shè)計(jì)
5.2.1 性能評(píng)價(jià)指標(biāo)
5.2.2 設(shè)計(jì)目標(biāo)
5.2.3 系統(tǒng)運(yùn)行環(huán)境及實(shí)現(xiàn)結(jié)果
6 總結(jié)與展望
參考文獻(xiàn)
致謝
作者簡(jiǎn)介及讀研期間主要科研成果
【參考文獻(xiàn)】:
期刊論文
[1]Lanczos雙對(duì)角算法在文本挖掘當(dāng)中的應(yīng)用[J]. 范偉鵬. 信息技術(shù). 2012(12)
[2]基于社會(huì)網(wǎng)絡(luò)分析的多屬性關(guān)聯(lián)規(guī)則挖掘方法[J]. 李永立,吳沖,劉一丹,孫紀(jì)舟. 情報(bào)學(xué)報(bào). 2012 (08)
[3]Web數(shù)據(jù)挖掘中數(shù)據(jù)異構(gòu)問題解決方法的研究[J]. 李春梅,李艾丹,薛中玉,韓爽. 中國(guó)科技資源導(dǎo)刊. 2012 (04)
[4]面向Web信息檢索的虛核文本分類算法[J]. 李靜,楊小帆,孫啟干. 計(jì)算機(jī)工程. 2012(10)
[5]一種適用于機(jī)器翻譯的漢語分詞方法[J]. 奚寧,李博淵,黃書劍,陳家駿. 中文信息學(xué)報(bào). 2012(03)
[6]一種基于海量信息處理的云存儲(chǔ)模型研究[J]. 張桂剛,李超,張勇,邢春曉. 計(jì)算機(jī)研究與發(fā)展. 2012(S1)
[7]基于DTD/DOM的XML技術(shù)的應(yīng)用研究[J]. 陳煥英,李冰. 河南城建學(xué)院學(xué)報(bào). 2012(01)
[8]比較分析XML與HTML[J]. 曹風(fēng)華. 電腦與信息技術(shù). 2011(04)
[9]基于云模型的文本特征自動(dòng)提取算法[J]. 代勁,何中市,胡峰. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(03)
[10]基于模板的網(wǎng)頁主題信息抽取模型[J]. 黃榮. 科技信息. 2011(04)
碩士論文
[1]基于樹形結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)抽取模式研究及應(yīng)用[D]. 高永勝.大連理工大學(xué) 2011
[2]互聯(lián)網(wǎng)中的海量用戶行為挖掘算法研究[D]. 周津.中國(guó)科學(xué)技術(shù)大學(xué) 2011
[3]基于JAVA/XML的分布式數(shù)據(jù)同步系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D]. 徐瑞雪.大連海事大學(xué) 2011
[4]文本自動(dòng)標(biāo)引方法研究與實(shí)現(xiàn)[D]. 馬娟.西南交通大學(xué) 2009
[5]基于DOM的網(wǎng)頁凈化方法研究[D]. 徐超.中國(guó)石油大學(xué) 2009
[6]垂直搜索引擎中的網(wǎng)頁對(duì)象抽取模型及實(shí)現(xiàn)技術(shù)研究[D]. 王實(shí).湖南大學(xué) 2009
本文編號(hào):3424189
【文章來源】:安徽理工大學(xué)安徽省
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 存在問題
1.4 研究意義
1.5 論文結(jié)構(gòu)
2 常見的網(wǎng)頁去噪及信息提取技術(shù)
2.1 基于網(wǎng)頁分塊的網(wǎng)頁去噪模型
2.2 基于模板的網(wǎng)頁去噪方法
2.3 基于視覺模型的Web頁面信息提取算法
3 相關(guān)知識(shí)介紹
3.1 Web
3.2 XML
3.3 CSS
3.4 DOM
3.5 超級(jí)文本標(biāo)記語言
3.6 Web數(shù)據(jù)挖掘技術(shù)
4 結(jié)構(gòu)模型
4.1 整體框架模型
4.1.1 Web信息提取和Web信息檢索
4.1.2 信息提取的整體框架
4.1.3 信息提取的結(jié)構(gòu)
4.2 待提取信息頁面的獲取
4.3 頁面分塊與凈化
4.4 關(guān)聯(lián)規(guī)則經(jīng)典算法分析
5 系統(tǒng)實(shí)現(xiàn)與分析
5.1 網(wǎng)頁去噪及信息提取過程
5.1.1 信息選取
5.1.2 網(wǎng)頁塊的劃分去噪
5.2 系統(tǒng)設(shè)計(jì)
5.2.1 性能評(píng)價(jià)指標(biāo)
5.2.2 設(shè)計(jì)目標(biāo)
5.2.3 系統(tǒng)運(yùn)行環(huán)境及實(shí)現(xiàn)結(jié)果
6 總結(jié)與展望
參考文獻(xiàn)
致謝
作者簡(jiǎn)介及讀研期間主要科研成果
【參考文獻(xiàn)】:
期刊論文
[1]Lanczos雙對(duì)角算法在文本挖掘當(dāng)中的應(yīng)用[J]. 范偉鵬. 信息技術(shù). 2012(12)
[2]基于社會(huì)網(wǎng)絡(luò)分析的多屬性關(guān)聯(lián)規(guī)則挖掘方法[J]. 李永立,吳沖,劉一丹,孫紀(jì)舟. 情報(bào)學(xué)報(bào). 2012 (08)
[3]Web數(shù)據(jù)挖掘中數(shù)據(jù)異構(gòu)問題解決方法的研究[J]. 李春梅,李艾丹,薛中玉,韓爽. 中國(guó)科技資源導(dǎo)刊. 2012 (04)
[4]面向Web信息檢索的虛核文本分類算法[J]. 李靜,楊小帆,孫啟干. 計(jì)算機(jī)工程. 2012(10)
[5]一種適用于機(jī)器翻譯的漢語分詞方法[J]. 奚寧,李博淵,黃書劍,陳家駿. 中文信息學(xué)報(bào). 2012(03)
[6]一種基于海量信息處理的云存儲(chǔ)模型研究[J]. 張桂剛,李超,張勇,邢春曉. 計(jì)算機(jī)研究與發(fā)展. 2012(S1)
[7]基于DTD/DOM的XML技術(shù)的應(yīng)用研究[J]. 陳煥英,李冰. 河南城建學(xué)院學(xué)報(bào). 2012(01)
[8]比較分析XML與HTML[J]. 曹風(fēng)華. 電腦與信息技術(shù). 2011(04)
[9]基于云模型的文本特征自動(dòng)提取算法[J]. 代勁,何中市,胡峰. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(03)
[10]基于模板的網(wǎng)頁主題信息抽取模型[J]. 黃榮. 科技信息. 2011(04)
碩士論文
[1]基于樹形結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)抽取模式研究及應(yīng)用[D]. 高永勝.大連理工大學(xué) 2011
[2]互聯(lián)網(wǎng)中的海量用戶行為挖掘算法研究[D]. 周津.中國(guó)科學(xué)技術(shù)大學(xué) 2011
[3]基于JAVA/XML的分布式數(shù)據(jù)同步系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D]. 徐瑞雪.大連海事大學(xué) 2011
[4]文本自動(dòng)標(biāo)引方法研究與實(shí)現(xiàn)[D]. 馬娟.西南交通大學(xué) 2009
[5]基于DOM的網(wǎng)頁凈化方法研究[D]. 徐超.中國(guó)石油大學(xué) 2009
[6]垂直搜索引擎中的網(wǎng)頁對(duì)象抽取模型及實(shí)現(xiàn)技術(shù)研究[D]. 王實(shí).湖南大學(xué) 2009
本文編號(hào):3424189
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3424189.html
最近更新
教材專著