面向領(lǐng)域的Web信息自動化抽取系統(tǒng)設計與實現(xiàn)
發(fā)布時間:2021-06-20 18:54
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,社會各行各業(yè)都在通過網(wǎng)絡與外界交互信息,Web信息呈顯海量和多元化,并且仍在急劇增長。在越來越多的實際應用需要從Web中抽取有價值的信息加以利用。不同網(wǎng)站網(wǎng)頁異構(gòu)化和網(wǎng)頁自身半結(jié)構(gòu)化特征使得Web信息難以分析和直接利用,另一方面,人們除了關(guān)注大眾新聞外,更多的是對一些與自己相關(guān)的特定領(lǐng)域信息感興趣。面向領(lǐng)域的Web信息抽取技術(shù)在實際應用中變得越來越重要。論文分析了當前的Web信息抽取國內(nèi)外研究現(xiàn)狀及發(fā)展趨勢,研究領(lǐng)域網(wǎng)站的特點并提出系統(tǒng)設計目標。本系統(tǒng)的特色是基于特定領(lǐng)域網(wǎng)站抽取用戶關(guān)注信息,能夠自動生成領(lǐng)域內(nèi)不同網(wǎng)站的抽取規(guī)則,系統(tǒng)具有良好的抽取性能,并且容易擴展,可移植抽取不同領(lǐng)域網(wǎng)站。系統(tǒng)設計宗旨是努力提高系統(tǒng)的易用性,尋求在用戶參與負擔和系統(tǒng)抽取性能之間取得平衡。系統(tǒng)設計主要包括了數(shù)據(jù)采集模塊、網(wǎng)頁清洗模塊、抽取規(guī)則生成模塊、Web信息管理模塊等。其中抽取規(guī)則生成模塊為系統(tǒng)核心模塊,采用全自動化包裝器生成算法MDR算法和DSE算法分別用來抽取兩類數(shù)據(jù)密集型網(wǎng)頁:列表頁和詳情頁。為了提高抽取結(jié)果的準確率,系統(tǒng)基于DOM樹模型設計了兩種方法過濾噪音:一種方...
【文章來源】:鄭州大學河南省 211工程院校
【文章頁數(shù)】:78 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
目錄
1 緒論
1.1 研究背景和研究意義
1.2 信息抽取的歷史和現(xiàn)狀
1.3 Web信息抽取技術(shù)國內(nèi)外研究現(xiàn)狀
1.4 論文的工作
1.5 論文的結(jié)構(gòu)
2 相關(guān)技術(shù)概述
2.1 基于網(wǎng)頁重復模式抽取方法原理
2.2 基于DOM的Web抽取技術(shù)的比較
2.2.1 DSE算法
2.2.2 RoadRunner算法
2.2.3 MDR算法
2.3 文本分類的分析與研究
2.3.1 文本分類
2.3.2 文本的表示方法
2.3.3 特征的選擇
2.3.4 中文文本分類方法
2.4 本章小結(jié)
3 系統(tǒng)設計目標與總體設計
3.1 系統(tǒng)設計目標
3.2 系統(tǒng)總體框架
3.3 系統(tǒng)功能總體設計
3.4 本章小結(jié)
4 網(wǎng)頁采集與預處理模塊設計
4.1 網(wǎng)頁采集模塊的設計
4.1.1 爬蟲的工作原理
4.1.2 爬蟲程序設計
4.1.3 相對地址轉(zhuǎn)換
4.1.4 使用HttpClient訪問網(wǎng)絡
4.2 數(shù)據(jù)預處理模塊的分析與設計
4.2.1 網(wǎng)頁中的噪音
4.2.2 HTML錯誤檢查與修正
4.2.3 使用正則式確定網(wǎng)頁編碼方式
4.3 中文分詞模塊設計
4.4 本章小結(jié)
5 領(lǐng)域Web數(shù)據(jù)抽取分析與設計
5.1 領(lǐng)域網(wǎng)頁的特征分析
5.2 兩類網(wǎng)頁的抽取算法選擇
5.2.1 面臨的問題
5.2.2 抽取算法選擇
5.2.3 使用DOM技術(shù)處理XML文檔
5.3 列表頁數(shù)據(jù)抽取
5.3.1 樹的相似度算法
5.3.2 使用MDR算法抽取列表頁數(shù)據(jù)
5.4 噪音特征分析
5.4.1 列表頁數(shù)據(jù)區(qū)域特征
5.4.2 詳情頁文本特征
5.5 噪音過濾
5.5.1 噪音過濾設計方案
5.5.2 文本分類訓練模塊設計
5.5.3 使用kNN分類算法過濾噪音
5.6 詳情頁數(shù)據(jù)抽取
5.6.1 DOM樹的對齊
5.6.2 詳情頁噪音特征分析與過濾
5.7 抽取模板生成
5.7.1 語義標注
5.7.2 基于XPath技術(shù)的抽取規(guī)則表示
5.8 本章小結(jié)
6 系統(tǒng)的實現(xiàn)與評測
6.1 系統(tǒng)開發(fā)環(huán)境
6.2 系統(tǒng)架構(gòu)與關(guān)鍵類實現(xiàn)
6.3 系統(tǒng)數(shù)據(jù)庫實現(xiàn)
6.4 用戶界面實現(xiàn)
6.5 系統(tǒng)的性能評測
6.6 本章小結(jié)
7 總結(jié)與展望
參考文獻
致謝
個人簡歷與研究成果
【參考文獻】:
期刊論文
[1]網(wǎng)頁去噪:研究綜述[J]. 毛先領(lǐng),何靖,閆宏飛. 計算機研究與發(fā)展. 2010(12)
[2]Web信息抽取技術(shù)綜述[J]. 陳釗,張冬梅. 計算機應用研究. 2010(12)
[3]支持向量機與K近鄰結(jié)合的網(wǎng)頁分類方法[J]. 宗永升,張祎. 計算機仿真. 2010(09)
[4]基于Web的信息抽取技術(shù)研究綜述[J]. 蒲筱哥. 現(xiàn)代情報. 2007(10)
[5]Deep Web數(shù)據(jù)集成研究綜述[J]. 劉偉,孟小峰,孟衛(wèi)一. 計算機學報. 2007(09)
[6]中文文本分類中特征抽取方法的比較研究[J]. 代六玲,黃河燕,陳肇雄. 中文信息學報. 2004(01)
[7]基于DOM的Web信息提取[J]. 李效東,顧毓清. 計算機學報. 2002(05)
[8]基于支持向量機與無監(jiān)督聚類相結(jié)合的中文網(wǎng)頁分類器[J]. 李曉黎,劉繼敏,史忠植. 計算機學報. 2001(01)
碩士論文
[1]中文文本分類中分詞和特征選擇方法研究[D]. 李原.吉林大學 2011
[2]中文文本分類中特征選擇方法的研究與實現(xiàn)[D]. 裴英博.西北大學 2010
本文編號:3239742
【文章來源】:鄭州大學河南省 211工程院校
【文章頁數(shù)】:78 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
目錄
1 緒論
1.1 研究背景和研究意義
1.2 信息抽取的歷史和現(xiàn)狀
1.3 Web信息抽取技術(shù)國內(nèi)外研究現(xiàn)狀
1.4 論文的工作
1.5 論文的結(jié)構(gòu)
2 相關(guān)技術(shù)概述
2.1 基于網(wǎng)頁重復模式抽取方法原理
2.2 基于DOM的Web抽取技術(shù)的比較
2.2.1 DSE算法
2.2.2 RoadRunner算法
2.2.3 MDR算法
2.3 文本分類的分析與研究
2.3.1 文本分類
2.3.2 文本的表示方法
2.3.3 特征的選擇
2.3.4 中文文本分類方法
2.4 本章小結(jié)
3 系統(tǒng)設計目標與總體設計
3.1 系統(tǒng)設計目標
3.2 系統(tǒng)總體框架
3.3 系統(tǒng)功能總體設計
3.4 本章小結(jié)
4 網(wǎng)頁采集與預處理模塊設計
4.1 網(wǎng)頁采集模塊的設計
4.1.1 爬蟲的工作原理
4.1.2 爬蟲程序設計
4.1.3 相對地址轉(zhuǎn)換
4.1.4 使用HttpClient訪問網(wǎng)絡
4.2 數(shù)據(jù)預處理模塊的分析與設計
4.2.1 網(wǎng)頁中的噪音
4.2.2 HTML錯誤檢查與修正
4.2.3 使用正則式確定網(wǎng)頁編碼方式
4.3 中文分詞模塊設計
4.4 本章小結(jié)
5 領(lǐng)域Web數(shù)據(jù)抽取分析與設計
5.1 領(lǐng)域網(wǎng)頁的特征分析
5.2 兩類網(wǎng)頁的抽取算法選擇
5.2.1 面臨的問題
5.2.2 抽取算法選擇
5.2.3 使用DOM技術(shù)處理XML文檔
5.3 列表頁數(shù)據(jù)抽取
5.3.1 樹的相似度算法
5.3.2 使用MDR算法抽取列表頁數(shù)據(jù)
5.4 噪音特征分析
5.4.1 列表頁數(shù)據(jù)區(qū)域特征
5.4.2 詳情頁文本特征
5.5 噪音過濾
5.5.1 噪音過濾設計方案
5.5.2 文本分類訓練模塊設計
5.5.3 使用kNN分類算法過濾噪音
5.6 詳情頁數(shù)據(jù)抽取
5.6.1 DOM樹的對齊
5.6.2 詳情頁噪音特征分析與過濾
5.7 抽取模板生成
5.7.1 語義標注
5.7.2 基于XPath技術(shù)的抽取規(guī)則表示
5.8 本章小結(jié)
6 系統(tǒng)的實現(xiàn)與評測
6.1 系統(tǒng)開發(fā)環(huán)境
6.2 系統(tǒng)架構(gòu)與關(guān)鍵類實現(xiàn)
6.3 系統(tǒng)數(shù)據(jù)庫實現(xiàn)
6.4 用戶界面實現(xiàn)
6.5 系統(tǒng)的性能評測
6.6 本章小結(jié)
7 總結(jié)與展望
參考文獻
致謝
個人簡歷與研究成果
【參考文獻】:
期刊論文
[1]網(wǎng)頁去噪:研究綜述[J]. 毛先領(lǐng),何靖,閆宏飛. 計算機研究與發(fā)展. 2010(12)
[2]Web信息抽取技術(shù)綜述[J]. 陳釗,張冬梅. 計算機應用研究. 2010(12)
[3]支持向量機與K近鄰結(jié)合的網(wǎng)頁分類方法[J]. 宗永升,張祎. 計算機仿真. 2010(09)
[4]基于Web的信息抽取技術(shù)研究綜述[J]. 蒲筱哥. 現(xiàn)代情報. 2007(10)
[5]Deep Web數(shù)據(jù)集成研究綜述[J]. 劉偉,孟小峰,孟衛(wèi)一. 計算機學報. 2007(09)
[6]中文文本分類中特征抽取方法的比較研究[J]. 代六玲,黃河燕,陳肇雄. 中文信息學報. 2004(01)
[7]基于DOM的Web信息提取[J]. 李效東,顧毓清. 計算機學報. 2002(05)
[8]基于支持向量機與無監(jiān)督聚類相結(jié)合的中文網(wǎng)頁分類器[J]. 李曉黎,劉繼敏,史忠植. 計算機學報. 2001(01)
碩士論文
[1]中文文本分類中分詞和特征選擇方法研究[D]. 李原.吉林大學 2011
[2]中文文本分類中特征選擇方法的研究與實現(xiàn)[D]. 裴英博.西北大學 2010
本文編號:3239742
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3239742.html
最近更新
教材專著