當(dāng)前位置：主頁 > 管理論文 > 移動網(wǎng)絡(luò)論文 >

面向領(lǐng)域的Web信息自動化抽取系統(tǒng)設(shè)計與實(shí)現(xiàn)

發(fā)布時間：2021-06-20 18:54

　　隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,社會各行各業(yè)都在通過網(wǎng)絡(luò)與外界交互信息,Web信息呈顯海量和多元化,并且仍在急劇增長。在越來越多的實(shí)際應(yīng)用需要從Web中抽取有價值的信息加以利用。不同網(wǎng)站網(wǎng)頁異構(gòu)化和網(wǎng)頁自身半結(jié)構(gòu)化特征使得Web信息難以分析和直接利用,另一方面,人們除了關(guān)注大眾新聞外,更多的是對一些與自己相關(guān)的特定領(lǐng)域信息感興趣。面向領(lǐng)域的Web信息抽取技術(shù)在實(shí)際應(yīng)用中變得越來越重要。論文分析了當(dāng)前的Web信息抽取國內(nèi)外研究現(xiàn)狀及發(fā)展趨勢,研究領(lǐng)域網(wǎng)站的特點(diǎn)并提出系統(tǒng)設(shè)計目標(biāo)。本系統(tǒng)的特色是基于特定領(lǐng)域網(wǎng)站抽取用戶關(guān)注信息,能夠自動生成領(lǐng)域內(nèi)不同網(wǎng)站的抽取規(guī)則,系統(tǒng)具有良好的抽取性能,并且容易擴(kuò)展,可移植抽取不同領(lǐng)域網(wǎng)站。系統(tǒng)設(shè)計宗旨是努力提高系統(tǒng)的易用性,尋求在用戶參與負(fù)擔(dān)和系統(tǒng)抽取性能之間取得平衡。系統(tǒng)設(shè)計主要包括了數(shù)據(jù)采集模塊、網(wǎng)頁清洗模塊、抽取規(guī)則生成模塊、Web信息管理模塊等。其中抽取規(guī)則生成模塊為系統(tǒng)核心模塊,采用全自動化包裝器生成算法MDR算法和DSE算法分別用來抽取兩類數(shù)據(jù)密集型網(wǎng)頁：列表頁和詳情頁。為了提高抽取結(jié)果的準(zhǔn)確率,系統(tǒng)基于DOM樹模型設(shè)計了兩種方法過濾噪音：一種方...

【文章來源】：鄭州大學(xué)河南省 211工程院校

【文章頁數(shù)】：78 頁

【學(xué)位級別】：碩士

【文章目錄】：
摘要
Abstract
目錄
1 緒論
    1.1 研究背景和研究意義
    1.2 信息抽取的歷史和現(xiàn)狀
    1.3 Web信息抽取技術(shù)國內(nèi)外研究現(xiàn)狀
    1.4 論文的工作
    1.5 論文的結(jié)構(gòu)
2 相關(guān)技術(shù)概述
    2.1 基于網(wǎng)頁重復(fù)模式抽取方法原理
    2.2 基于DOM的Web抽取技術(shù)的比較
        2.2.1 DSE算法
        2.2.2 RoadRunner算法
        2.2.3 MDR算法
    2.3 文本分類的分析與研究
        2.3.1 文本分類
        2.3.2 文本的表示方法
        2.3.3 特征的選擇
        2.3.4 中文文本分類方法
    2.4 本章小結(jié)
3 系統(tǒng)設(shè)計目標(biāo)與總體設(shè)計
    3.1 系統(tǒng)設(shè)計目標(biāo)
    3.2 系統(tǒng)總體框架
    3.3 系統(tǒng)功能總體設(shè)計
    3.4 本章小結(jié)
4 網(wǎng)頁采集與預(yù)處理模塊設(shè)計
    4.1 網(wǎng)頁采集模塊的設(shè)計
        4.1.1 爬蟲的工作原理
        4.1.2 爬蟲程序設(shè)計
        4.1.3 相對地址轉(zhuǎn)換
        4.1.4 使用HttpClient訪問網(wǎng)絡(luò)
    4.2 數(shù)據(jù)預(yù)處理模塊的分析與設(shè)計
        4.2.1 網(wǎng)頁中的噪音
        4.2.2 HTML錯誤檢查與修正
        4.2.3 使用正則式確定網(wǎng)頁編碼方式
    4.3 中文分詞模塊設(shè)計
    4.4 本章小結(jié)
5 領(lǐng)域Web數(shù)據(jù)抽取分析與設(shè)計
    5.1 領(lǐng)域網(wǎng)頁的特征分析
    5.2 兩類網(wǎng)頁的抽取算法選擇
        5.2.1 面臨的問題
        5.2.2 抽取算法選擇
        5.2.3 使用DOM技術(shù)處理XML文檔
    5.3 列表頁數(shù)據(jù)抽取
        5.3.1 樹的相似度算法
        5.3.2 使用MDR算法抽取列表頁數(shù)據(jù)
    5.4 噪音特征分析
        5.4.1 列表頁數(shù)據(jù)區(qū)域特征
        5.4.2 詳情頁文本特征
    5.5 噪音過濾
        5.5.1 噪音過濾設(shè)計方案
        5.5.2 文本分類訓(xùn)練模塊設(shè)計
        5.5.3 使用kNN分類算法過濾噪音
    5.6 詳情頁數(shù)據(jù)抽取
        5.6.1 DOM樹的對齊
        5.6.2 詳情頁噪音特征分析與過濾
    5.7 抽取模板生成
        5.7.1 語義標(biāo)注
        5.7.2 基于XPath技術(shù)的抽取規(guī)則表示
    5.8 本章小結(jié)
6 系統(tǒng)的實(shí)現(xiàn)與評測
    6.1 系統(tǒng)開發(fā)環(huán)境
    6.2 系統(tǒng)架構(gòu)與關(guān)鍵類實(shí)現(xiàn)
    6.3 系統(tǒng)數(shù)據(jù)庫實(shí)現(xiàn)
    6.4 用戶界面實(shí)現(xiàn)
    6.5 系統(tǒng)的性能評測
    6.6 本章小結(jié)
7 總結(jié)與展望
參考文獻(xiàn)
致謝
個人簡歷與研究成果

【參考文獻(xiàn)】：
期刊論文
[1]網(wǎng)頁去噪:研究綜述[J]. 毛先領(lǐng),何靖,閆宏飛.  計算機(jī)研究與發(fā)展. 2010(12)
[2]Web信息抽取技術(shù)綜述[J]. 陳釗,張冬梅.  計算機(jī)應(yīng)用研究. 2010(12)
[3]支持向量機(jī)與K近鄰結(jié)合的網(wǎng)頁分類方法[J]. 宗永升,張祎.  計算機(jī)仿真. 2010(09)
[4]基于Web的信息抽取技術(shù)研究綜述[J]. 蒲筱哥.  現(xiàn)代情報. 2007(10)
[5]Deep Web數(shù)據(jù)集成研究綜述[J]. 劉偉,孟小峰,孟衛(wèi)一.  計算機(jī)學(xué)報. 2007(09)
[6]中文文本分類中特征抽取方法的比較研究[J]. 代六玲,黃河燕,陳肇雄.  中文信息學(xué)報. 2004(01)
[7]基于DOM的Web信息提取[J]. 李效東,顧毓清.  計算機(jī)學(xué)報. 2002(05)
[8]基于支持向量機(jī)與無監(jiān)督聚類相結(jié)合的中文網(wǎng)頁分類器[J]. 李曉黎,劉繼敏,史忠植.  計算機(jī)學(xué)報. 2001(01)

碩士論文
[1]中文文本分類中分詞和特征選擇方法研究[D]. 李原.吉林大學(xué) 2011
[2]中文文本分類中特征選擇方法的研究與實(shí)現(xiàn)[D]. 裴英博.西北大學(xué) 2010

本文編號：3239742

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/3239742.html

上一篇：數(shù)字圖書館安全網(wǎng)絡(luò)架構(gòu)的設(shè)計與實(shí)現(xiàn)
下一篇：農(nóng)業(yè)銀行門戶網(wǎng)站IPv6改造經(jīng)驗(yàn)分享

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向領(lǐng)域的Web信息自動化抽取系統(tǒng)設(shè)計與實(shí)現(xiàn)