基于頁面主體提取的WEB信息抽取技術(shù)研究
發(fā)布時間:2021-04-28 10:04
隨著Internet的飛速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)量呈爆炸性增長,使得Web已經(jīng)成為全球信息傳播與共享的重要渠道,而網(wǎng)頁固有的半結(jié)構(gòu)性以及網(wǎng)絡(luò)上存在大量的與網(wǎng)頁主題無關(guān)的信息,使人們無法快速準確的獲得所需要的信息。這種情況下,研究如何從Web中抽取出人們所需要的信息已經(jīng)變得越來越重要。國內(nèi)外學者在這方面已經(jīng)有了大量的研究。然而通過對現(xiàn)有Web信息抽取方法和當前Web網(wǎng)頁特點的分析,發(fā)現(xiàn)現(xiàn)有抽取技術(shù)存在自動化程度不夠和抽取結(jié)果不準確的問題。為了彌補以上的兩個不足,本文提出了一種基于頁面主體提取的Web信息抽取方法,主要包括頁面預處理、頁面主體提取、抽取規(guī)則生成、信息抽取四個模塊。頁面預處理模塊利用JTidy完成對HTML標簽的格式化,以及頁面中一些與主題無關(guān)內(nèi)容的去除。頁面主體提取模塊使用HTMLParser對頁面進行解析,得到與Web頁面對應的結(jié)構(gòu)樹,然后分析結(jié)構(gòu)樹,使用基于MMTD的算法識別出頁面的主體部分。而抽取規(guī)則生成模塊則使用了XPATH和XSLT,針對頁面主體生成一類頁面的抽取規(guī)則。信息抽取模塊將抽取規(guī)則運用于待抽取頁面便得到我們需要的信息,并將其存入數(shù)據(jù)庫,以方便人們查找并使用...
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
專用術(shù)語注釋表
第一章 緒論
1.1 研究背景
1.1.1 網(wǎng)頁主體提取
1.1.2 中介真值程度度量
1.1.3 Web 信息抽取
1.2 研究目標及主要內(nèi)容
1.3 本文組織結(jié)構(gòu)
第二章 Web 信息抽取
2.1 Web 信息抽取概念
2.2 Web 信息抽取方法分類
2.2.1 基于自然語言處理的信息抽取
2.2.2 基于包裝器歸納的信息抽取
2.2.3 基于 Ontology 的信息抽取
2.2.4 基于 Web 查詢的信息抽取
2.2.5 基于視覺特征的信息抽取
2.2.6 基于 HTML 的信息抽取
2.3 Web 信息抽取方法評價指標
2.4 本章小結(jié)
第三章 基于 MMTD 的頁面主體提取
3.1 HTML 與 XML
3.1.1 HTML
3.1.2 XML
3.2 頁面預處理
3.2.1 頁面整理
3.2.2 頁面去噪
3.3 基于 MMTD 的頁面主體提取
3.3.1 HTMLParser
3.3.2 MMTD
3.3.3 頁面主體特征分析
3.3.4 提取算法
3.4 實驗
3.5 本章小結(jié)
第四章 基于頁面主體提取的 WEB 信息抽取方法
4.1 基于頁面主體提取的 Web 信息抽取方法概述
4.2 抽取規(guī)則的生成
4.2.1 XPATH
4.2.2 XSLT
4.2.3 信息定位
4.2.4 路徑轉(zhuǎn)換及生成抽取規(guī)則
4.3 信息抽取
4.4 本章小結(jié)
第五章 基于頁面主體提取的 WEB 信息抽取設(shè)計與實現(xiàn)
5.1 系統(tǒng)設(shè)計目標
5.2 系統(tǒng)總體設(shè)計
5.2.1 功能模塊設(shè)計
5.2.2 體系結(jié)構(gòu)設(shè)計
5.3 系統(tǒng)的實現(xiàn)與測試
5.3.1 系統(tǒng)開發(fā)工具介紹
5.3.2 系統(tǒng)操作界面
5.3.3 實驗及結(jié)果分析
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 本文工作總結(jié)
6.2 未來工作展望
參考文獻
附錄 1 攻讀碩士學位期間撰寫的論文
附錄 2 攻讀碩士學位期間參加的科研項目
致謝
【參考文獻】:
期刊論文
[1]一種基于統(tǒng)計學特征和DOM樹的網(wǎng)頁去噪技術(shù)[J]. 何友全,徐澄,徐小樂,唐華姣. 重慶理工大學學報(自然科學版). 2011(01)
[2]基于中介真值程度度量處理圖像的應用理論研究[J]. 周寧寧,洪龍. 南京郵電大學學報(自然科學版). 2010(03)
[3]中介真值程度的度量及其應用(I)[J]. 洪龍,肖奚安,朱梧槚. 計算機學報. 2006(12)
[4]基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J]. 于滿泉,陳鐵睿,許洪波. 計算機應用. 2005(04)
[5]基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J]. 孫承杰,關(guān)毅. 中文信息學報. 2004(05)
[6]A SYSTEM OF MEDIUM AXIOMATIC SET THEORY[J]. 肖奚安,朱梧槚. Science in China,Ser.A. 1988(11)
[7]中介邏輯的命題演算系統(tǒng)(Ⅰ)[J]. 肖奚安,朱梧槚. 自然雜志. 1985(04)
[8]數(shù)學基礎(chǔ)與模糊數(shù)學基礎(chǔ)[J]. 朱梧槚,肖奚安. 自然雜志. 1984(10)
[9]一種HTML網(wǎng)頁凈化方法[J]. 張志剛,陳靜,李曉明. 情報學報. 2004 (04)
碩士論文
[1]基于樹自動機技術(shù)的Web信息抽取研究[D]. 譚鵬許.解放軍信息工程大學 2009
[2]BBS熱點話題挖掘與觀點分析[D]. 姚曉娜.大連海事大學 2008
[3]基于視覺特征的Web信息抽取技術(shù)的研究與實現(xiàn)[D]. 張偉.華東師范大學 2008
本文編號:3165284
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
專用術(shù)語注釋表
第一章 緒論
1.1 研究背景
1.1.1 網(wǎng)頁主體提取
1.1.2 中介真值程度度量
1.1.3 Web 信息抽取
1.2 研究目標及主要內(nèi)容
1.3 本文組織結(jié)構(gòu)
第二章 Web 信息抽取
2.1 Web 信息抽取概念
2.2 Web 信息抽取方法分類
2.2.1 基于自然語言處理的信息抽取
2.2.2 基于包裝器歸納的信息抽取
2.2.3 基于 Ontology 的信息抽取
2.2.4 基于 Web 查詢的信息抽取
2.2.5 基于視覺特征的信息抽取
2.2.6 基于 HTML 的信息抽取
2.3 Web 信息抽取方法評價指標
2.4 本章小結(jié)
第三章 基于 MMTD 的頁面主體提取
3.1 HTML 與 XML
3.1.1 HTML
3.1.2 XML
3.2 頁面預處理
3.2.1 頁面整理
3.2.2 頁面去噪
3.3 基于 MMTD 的頁面主體提取
3.3.1 HTMLParser
3.3.2 MMTD
3.3.3 頁面主體特征分析
3.3.4 提取算法
3.4 實驗
3.5 本章小結(jié)
第四章 基于頁面主體提取的 WEB 信息抽取方法
4.1 基于頁面主體提取的 Web 信息抽取方法概述
4.2 抽取規(guī)則的生成
4.2.1 XPATH
4.2.2 XSLT
4.2.3 信息定位
4.2.4 路徑轉(zhuǎn)換及生成抽取規(guī)則
4.3 信息抽取
4.4 本章小結(jié)
第五章 基于頁面主體提取的 WEB 信息抽取設(shè)計與實現(xiàn)
5.1 系統(tǒng)設(shè)計目標
5.2 系統(tǒng)總體設(shè)計
5.2.1 功能模塊設(shè)計
5.2.2 體系結(jié)構(gòu)設(shè)計
5.3 系統(tǒng)的實現(xiàn)與測試
5.3.1 系統(tǒng)開發(fā)工具介紹
5.3.2 系統(tǒng)操作界面
5.3.3 實驗及結(jié)果分析
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 本文工作總結(jié)
6.2 未來工作展望
參考文獻
附錄 1 攻讀碩士學位期間撰寫的論文
附錄 2 攻讀碩士學位期間參加的科研項目
致謝
【參考文獻】:
期刊論文
[1]一種基于統(tǒng)計學特征和DOM樹的網(wǎng)頁去噪技術(shù)[J]. 何友全,徐澄,徐小樂,唐華姣. 重慶理工大學學報(自然科學版). 2011(01)
[2]基于中介真值程度度量處理圖像的應用理論研究[J]. 周寧寧,洪龍. 南京郵電大學學報(自然科學版). 2010(03)
[3]中介真值程度的度量及其應用(I)[J]. 洪龍,肖奚安,朱梧槚. 計算機學報. 2006(12)
[4]基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J]. 于滿泉,陳鐵睿,許洪波. 計算機應用. 2005(04)
[5]基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J]. 孫承杰,關(guān)毅. 中文信息學報. 2004(05)
[6]A SYSTEM OF MEDIUM AXIOMATIC SET THEORY[J]. 肖奚安,朱梧槚. Science in China,Ser.A. 1988(11)
[7]中介邏輯的命題演算系統(tǒng)(Ⅰ)[J]. 肖奚安,朱梧槚. 自然雜志. 1985(04)
[8]數(shù)學基礎(chǔ)與模糊數(shù)學基礎(chǔ)[J]. 朱梧槚,肖奚安. 自然雜志. 1984(10)
[9]一種HTML網(wǎng)頁凈化方法[J]. 張志剛,陳靜,李曉明. 情報學報. 2004 (04)
碩士論文
[1]基于樹自動機技術(shù)的Web信息抽取研究[D]. 譚鵬許.解放軍信息工程大學 2009
[2]BBS熱點話題挖掘與觀點分析[D]. 姚曉娜.大連海事大學 2008
[3]基于視覺特征的Web信息抽取技術(shù)的研究與實現(xiàn)[D]. 張偉.華東師范大學 2008
本文編號:3165284
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3165284.html
最近更新
教材專著