當(dāng)前位置：主頁(yè) > 管理論文 > 移動(dòng)網(wǎng)絡(luò)論文 >

基于頁(yè)面主體提取的WEB信息抽取技術(shù)研究

發(fā)布時(shí)間：2021-04-28 10:04

　　隨著Internet的飛速發(fā)展，互聯(lián)網(wǎng)上的數(shù)據(jù)量呈爆炸性增長(zhǎng)，使得Web已經(jīng)成為全球信息傳播與共享的重要渠道，而網(wǎng)頁(yè)固有的半結(jié)構(gòu)性以及網(wǎng)絡(luò)上存在大量的與網(wǎng)頁(yè)主題無(wú)關(guān)的信息，使人們無(wú)法快速準(zhǔn)確的獲得所需要的信息。這種情況下，研究如何從Web中抽取出人們所需要的信息已經(jīng)變得越來(lái)越重要。國(guó)內(nèi)外學(xué)者在這方面已經(jīng)有了大量的研究。然而通過(guò)對(duì)現(xiàn)有Web信息抽取方法和當(dāng)前Web網(wǎng)頁(yè)特點(diǎn)的分析，發(fā)現(xiàn)現(xiàn)有抽取技術(shù)存在自動(dòng)化程度不夠和抽取結(jié)果不準(zhǔn)確的問(wèn)題。為了彌補(bǔ)以上的兩個(gè)不足，本文提出了一種基于頁(yè)面主體提取的Web信息抽取方法，主要包括頁(yè)面預(yù)處理、頁(yè)面主體提取、抽取規(guī)則生成、信息抽取四個(gè)模塊。頁(yè)面預(yù)處理模塊利用JTidy完成對(duì)HTML標(biāo)簽的格式化，以及頁(yè)面中一些與主題無(wú)關(guān)內(nèi)容的去除。頁(yè)面主體提取模塊使用HTMLParser對(duì)頁(yè)面進(jìn)行解析，得到與Web頁(yè)面對(duì)應(yīng)的結(jié)構(gòu)樹，然后分析結(jié)構(gòu)樹，使用基于MMTD的算法識(shí)別出頁(yè)面的主體部分。而抽取規(guī)則生成模塊則使用了XPATH和XSLT，針對(duì)頁(yè)面主體生成一類頁(yè)面的抽取規(guī)則。信息抽取模塊將抽取規(guī)則運(yùn)用于待抽取頁(yè)面便得到我們需要的信息，并將其存入數(shù)據(jù)庫(kù)，以方便人們查找并使用...

【文章來(lái)源】：南京郵電大學(xué)江蘇省

【文章頁(yè)數(shù)】：64 頁(yè)

【學(xué)位級(jí)別】：碩士

【文章目錄】：
摘要
Abstract
專用術(shù)語(yǔ)注釋表
第一章緒論
    1.1 研究背景
        1.1.1 網(wǎng)頁(yè)主體提取
        1.1.2 中介真值程度度量
        1.1.3 Web 信息抽取
    1.2 研究目標(biāo)及主要內(nèi)容
    1.3 本文組織結(jié)構(gòu)
第二章 Web 信息抽取
    2.1 Web 信息抽取概念
    2.2 Web 信息抽取方法分類
        2.2.1 基于自然語(yǔ)言處理的信息抽取
        2.2.2 基于包裝器歸納的信息抽取
        2.2.3 基于 Ontology 的信息抽取
        2.2.4 基于 Web 查詢的信息抽取
        2.2.5 基于視覺特征的信息抽取
        2.2.6 基于 HTML 的信息抽取
    2.3 Web 信息抽取方法評(píng)價(jià)指標(biāo)
    2.4 本章小結(jié)
第三章基于 MMTD 的頁(yè)面主體提取
    3.1 HTML 與 XML
        3.1.1 HTML
        3.1.2 XML
    3.2 頁(yè)面預(yù)處理
        3.2.1 頁(yè)面整理
        3.2.2 頁(yè)面去噪
    3.3 基于 MMTD 的頁(yè)面主體提取
        3.3.1 HTMLParser
        3.3.2 MMTD
        3.3.3 頁(yè)面主體特征分析
        3.3.4 提取算法
    3.4 實(shí)驗(yàn)
    3.5 本章小結(jié)
第四章基于頁(yè)面主體提取的 WEB 信息抽取方法
    4.1 基于頁(yè)面主體提取的 Web 信息抽取方法概述
    4.2 抽取規(guī)則的生成
        4.2.1 XPATH
        4.2.2 XSLT
        4.2.3 信息定位
        4.2.4 路徑轉(zhuǎn)換及生成抽取規(guī)則
    4.3 信息抽取
    4.4 本章小結(jié)
第五章基于頁(yè)面主體提取的 WEB 信息抽取設(shè)計(jì)與實(shí)現(xiàn)
    5.1 系統(tǒng)設(shè)計(jì)目標(biāo)
    5.2 系統(tǒng)總體設(shè)計(jì)
        5.2.1 功能模塊設(shè)計(jì)
        5.2.2 體系結(jié)構(gòu)設(shè)計(jì)
    5.3 系統(tǒng)的實(shí)現(xiàn)與測(cè)試
        5.3.1 系統(tǒng)開發(fā)工具介紹
        5.3.2 系統(tǒng)操作界面
        5.3.3 實(shí)驗(yàn)及結(jié)果分析
    5.4 本章小結(jié)
第六章總結(jié)與展望
    6.1 本文工作總結(jié)
    6.2 未來(lái)工作展望
參考文獻(xiàn)
附錄 1 攻讀碩士學(xué)位期間撰寫的論文
附錄 2 攻讀碩士學(xué)位期間參加的科研項(xiàng)目
致謝

【參考文獻(xiàn)】：
期刊論文
[1]一種基于統(tǒng)計(jì)學(xué)特征和DOM樹的網(wǎng)頁(yè)去噪技術(shù)[J]. 何友全,徐澄,徐小樂,唐華姣.  重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(01)
[2]基于中介真值程度度量處理圖像的應(yīng)用理論研究[J]. 周寧寧,洪龍.  南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版). 2010(03)
[3]中介真值程度的度量及其應(yīng)用（I）[J]. 洪龍,肖奚安,朱梧槚.  計(jì)算機(jī)學(xué)報(bào). 2006(12)
[4]基于分塊的網(wǎng)頁(yè)信息解析器的研究與設(shè)計(jì)[J]. 于滿泉,陳鐵睿,許洪波.  計(jì)算機(jī)應(yīng)用. 2005(04)
[5]基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文信息抽取方法的研究[J]. 孫承杰,關(guān)毅.  中文信息學(xué)報(bào). 2004(05)
[6]A SYSTEM OF MEDIUM AXIOMATIC SET THEORY[J]. 肖奚安,朱梧槚.  Science in China,Ser.A. 1988(11)
[7]中介邏輯的命題演算系統(tǒng)（Ⅰ）[J]. 肖奚安,朱梧槚.  自然雜志. 1985(04)
[8]數(shù)學(xué)基礎(chǔ)與模糊數(shù)學(xué)基礎(chǔ)[J]. 朱梧槚,肖奚安.  自然雜志. 1984(10)
[9]一種HTML網(wǎng)頁(yè)凈化方法[J]. 張志剛,陳靜,李曉明.  情報(bào)學(xué)報(bào). 2004 (04)

碩士論文
[1]基于樹自動(dòng)機(jī)技術(shù)的Web信息抽取研究[D]. 譚鵬許.解放軍信息工程大學(xué) 2009
[2]BBS熱點(diǎn)話題挖掘與觀點(diǎn)分析[D]. 姚曉娜.大連海事大學(xué) 2008
[3]基于視覺特征的Web信息抽取技術(shù)的研究與實(shí)現(xiàn)[D]. 張偉.華東師范大學(xué) 2008

本文編號(hào)：3165284

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/3165284.html

上一篇：面向私有DNS的攻擊檢測(cè)及響應(yīng)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
下一篇：EPFTS平臺(tái)OAM中的連通性故障管理

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于頁(yè)面主體提取的WEB信息抽取技術(shù)研究