天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于頁面主體提取的WEB信息抽取技術(shù)研究

發(fā)布時間:2021-04-28 10:04
  隨著Internet的飛速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)量呈爆炸性增長,使得Web已經(jīng)成為全球信息傳播與共享的重要渠道,而網(wǎng)頁固有的半結(jié)構(gòu)性以及網(wǎng)絡(luò)上存在大量的與網(wǎng)頁主題無關(guān)的信息,使人們無法快速準確的獲得所需要的信息。這種情況下,研究如何從Web中抽取出人們所需要的信息已經(jīng)變得越來越重要。國內(nèi)外學者在這方面已經(jīng)有了大量的研究。然而通過對現(xiàn)有Web信息抽取方法和當前Web網(wǎng)頁特點的分析,發(fā)現(xiàn)現(xiàn)有抽取技術(shù)存在自動化程度不夠和抽取結(jié)果不準確的問題。為了彌補以上的兩個不足,本文提出了一種基于頁面主體提取的Web信息抽取方法,主要包括頁面預處理、頁面主體提取、抽取規(guī)則生成、信息抽取四個模塊。頁面預處理模塊利用JTidy完成對HTML標簽的格式化,以及頁面中一些與主題無關(guān)內(nèi)容的去除。頁面主體提取模塊使用HTMLParser對頁面進行解析,得到與Web頁面對應的結(jié)構(gòu)樹,然后分析結(jié)構(gòu)樹,使用基于MMTD的算法識別出頁面的主體部分。而抽取規(guī)則生成模塊則使用了XPATH和XSLT,針對頁面主體生成一類頁面的抽取規(guī)則。信息抽取模塊將抽取規(guī)則運用于待抽取頁面便得到我們需要的信息,并將其存入數(shù)據(jù)庫,以方便人們查找并使用... 

【文章來源】:南京郵電大學江蘇省

【文章頁數(shù)】:64 頁

【學位級別】:碩士

【文章目錄】:
摘要
Abstract
專用術(shù)語注釋表
第一章 緒論
    1.1 研究背景
        1.1.1 網(wǎng)頁主體提取
        1.1.2 中介真值程度度量
        1.1.3 Web 信息抽取
    1.2 研究目標及主要內(nèi)容
    1.3 本文組織結(jié)構(gòu)
第二章 Web 信息抽取
    2.1 Web 信息抽取概念
    2.2 Web 信息抽取方法分類
        2.2.1 基于自然語言處理的信息抽取
        2.2.2 基于包裝器歸納的信息抽取
        2.2.3 基于 Ontology 的信息抽取
        2.2.4 基于 Web 查詢的信息抽取
        2.2.5 基于視覺特征的信息抽取
        2.2.6 基于 HTML 的信息抽取
    2.3 Web 信息抽取方法評價指標
    2.4 本章小結(jié)
第三章 基于 MMTD 的頁面主體提取
    3.1 HTML 與 XML
        3.1.1 HTML
        3.1.2 XML
    3.2 頁面預處理
        3.2.1 頁面整理
        3.2.2 頁面去噪
    3.3 基于 MMTD 的頁面主體提取
        3.3.1 HTMLParser
        3.3.2 MMTD
        3.3.3 頁面主體特征分析
        3.3.4 提取算法
    3.4 實驗
    3.5 本章小結(jié)
第四章 基于頁面主體提取的 WEB 信息抽取方法
    4.1 基于頁面主體提取的 Web 信息抽取方法概述
    4.2 抽取規(guī)則的生成
        4.2.1 XPATH
        4.2.2 XSLT
        4.2.3 信息定位
        4.2.4 路徑轉(zhuǎn)換及生成抽取規(guī)則
    4.3 信息抽取
    4.4 本章小結(jié)
第五章 基于頁面主體提取的 WEB 信息抽取設(shè)計與實現(xiàn)
    5.1 系統(tǒng)設(shè)計目標
    5.2 系統(tǒng)總體設(shè)計
        5.2.1 功能模塊設(shè)計
        5.2.2 體系結(jié)構(gòu)設(shè)計
    5.3 系統(tǒng)的實現(xiàn)與測試
        5.3.1 系統(tǒng)開發(fā)工具介紹
        5.3.2 系統(tǒng)操作界面
        5.3.3 實驗及結(jié)果分析
    5.4 本章小結(jié)
第六章 總結(jié)與展望
    6.1 本文工作總結(jié)
    6.2 未來工作展望
參考文獻
附錄 1 攻讀碩士學位期間撰寫的論文
附錄 2 攻讀碩士學位期間參加的科研項目
致謝


【參考文獻】:
期刊論文
[1]一種基于統(tǒng)計學特征和DOM樹的網(wǎng)頁去噪技術(shù)[J]. 何友全,徐澄,徐小樂,唐華姣.  重慶理工大學學報(自然科學版). 2011(01)
[2]基于中介真值程度度量處理圖像的應用理論研究[J]. 周寧寧,洪龍.  南京郵電大學學報(自然科學版). 2010(03)
[3]中介真值程度的度量及其應用(I)[J]. 洪龍,肖奚安,朱梧槚.  計算機學報. 2006(12)
[4]基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J]. 于滿泉,陳鐵睿,許洪波.  計算機應用. 2005(04)
[5]基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J]. 孫承杰,關(guān)毅.  中文信息學報. 2004(05)
[6]A SYSTEM OF MEDIUM AXIOMATIC SET THEORY[J]. 肖奚安,朱梧槚.  Science in China,Ser.A. 1988(11)
[7]中介邏輯的命題演算系統(tǒng)(Ⅰ)[J]. 肖奚安,朱梧槚.  自然雜志. 1985(04)
[8]數(shù)學基礎(chǔ)與模糊數(shù)學基礎(chǔ)[J]. 朱梧槚,肖奚安.  自然雜志. 1984(10)
[9]一種HTML網(wǎng)頁凈化方法[J]. 張志剛,陳靜,李曉明.  情報學報. 2004 (04)

碩士論文
[1]基于樹自動機技術(shù)的Web信息抽取研究[D]. 譚鵬許.解放軍信息工程大學 2009
[2]BBS熱點話題挖掘與觀點分析[D]. 姚曉娜.大連海事大學 2008
[3]基于視覺特征的Web信息抽取技術(shù)的研究與實現(xiàn)[D]. 張偉.華東師范大學 2008



本文編號:3165284

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3165284.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶89c72***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产又粗又猛又大爽又黄同志| 亚洲成人免费天堂诱惑| 蜜桃臀欧美日韩国产精品| 亚洲三级视频在线观看免费| 国产老熟女乱子人伦视频| 天堂网中文字幕在线视频| 国产老女人性生活视频| 国产日韩欧美国产欧美日韩| 国产中文字幕久久黄色片| 欧美熟妇喷浆一区二区| 好吊日视频这里都是精品| 亚洲欧美日韩另类第一页| 精品一区二区三区不卡少妇av| 日韩一区二区三区18| 久久香蕉综合网精品视频| 日韩成人h视频在线观看| 中文字幕一区久久综合| 青青操视频在线播放免费| 中文字幕禁断介一区二区| 国内外激情免费在线视频| 人妻少妇av中文字幕乱码高清| 国产欧美日韩一级小黄片| 91偷拍与自偷拍精品| 中文字幕无线码一区欧美| 日本国产欧美精品视频| 成人精品视频一区二区在线观看| 国产精品不卡免费视频| 日韩中文高清在线专区| 中文字幕欧美精品人妻一区| 国产熟女高清一区二区| 欧美亚洲三级视频在线观看| 91午夜少妇极品福利| 丰满少妇高潮一区二区| 国产一级二级三级观看| 日韩欧美一区二区黄色| 欧美一区二区黑人在线| 亚洲天堂一区在线播放| 好吊妞在线免费观看视频| 精品欧美国产一二三区| 日韩精品一区二区毛片| 国产精品一区二区视频成人 |