天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

web信息抽取技術(shù)研究與應(yīng)用

發(fā)布時(shí)間:2017-05-19 23:09

  本文關(guān)鍵詞:web信息抽取技術(shù)研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。


【摘要】:近幾十年來,互聯(lián)網(wǎng)的迅猛發(fā)展改變了人們獲取信息的方式,從原始的紙質(zhì)書本轉(zhuǎn)移到了網(wǎng)絡(luò)上。怎樣能在互聯(lián)網(wǎng)這個巨大的信息寶庫中發(fā)現(xiàn)有價(jià)值的信息并為人們所用,至關(guān)重要。Web信息抽取技術(shù)就是在這樣一種情況下,產(chǎn)生、發(fā)展并發(fā)揮作用。其主要的目標(biāo)是在web這種半結(jié)構(gòu)化的信息池中,精準(zhǔn)的獲取有研究價(jià)值的信息。本文主要研究如何準(zhǔn)確高效地從大量的web網(wǎng)頁中,獲取有價(jià)值的信息并規(guī)則化存儲。具體工作如下: 1、利用正則表達(dá)式對文本的處理,構(gòu)建了一個基于正則表達(dá)式的增量式統(tǒng)一信息抽取系統(tǒng)。該系統(tǒng)可以對論壇,博客,新聞網(wǎng)站進(jìn)行增量式爬取。應(yīng)用統(tǒng)一的架構(gòu)對大量的網(wǎng)站進(jìn)行信息的采集和信息的抽取。在采集之前把相應(yīng)的正則表達(dá)式存儲在模板表中,每增加一個新的網(wǎng)站,只需要在種子和模板添加或修改信息即可。從而簡化web信息抽取系統(tǒng)的構(gòu)建,大幅度降低抽取系統(tǒng)的開發(fā)成本,增加該系統(tǒng)的可拓展性,減少后期維護(hù)的工作量。 2、本文把基于正則表達(dá)式的信息抽取技術(shù)進(jìn)一步應(yīng)用到了實(shí)際系統(tǒng)中——圖書館信息采集系統(tǒng)。通過對國內(nèi)各大高校圖書館館藏資源檢索系統(tǒng)的分析和研究,把這些系統(tǒng)分成四類,分別制定抽取策略。該系統(tǒng)成功采集抽取數(shù)據(jù)一千七百多萬條,并規(guī)則化存儲在數(shù)據(jù)庫中。 3、提出一種基于網(wǎng)頁分塊的BBS信息抽取技術(shù),該算法不但保證了準(zhǔn)確率且具有一定的普適性,減少人工的參與和開發(fā)的成本。首先,本文提出基于信息論的網(wǎng)頁分塊方法,進(jìn)行噪音信息的去除。其次,根據(jù)BBS的評論信息具有一定的相似性的特點(diǎn),本文在網(wǎng)頁分塊的基礎(chǔ)上提出基于深度加權(quán)的DOM樹相似度算法來抽取評論信息,在減少人工參與和開發(fā)難度的同時(shí)保證了正確率。 本文提出的兩種信息抽取算法可以快速精準(zhǔn)地提取網(wǎng)頁中的信息,在輿情分析和搜索引擎的信息抽取方面有很好的應(yīng)用前景和參考價(jià)值。
【關(guān)鍵詞】:信息抽取 網(wǎng)頁分塊 樹深度加權(quán) 相似度 正則表達(dá)式
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092
【目錄】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 緒論9-15
  • 1.1 研究背景與意義9-10
  • 1.2 國內(nèi)外研究現(xiàn)狀10-12
  • 1.2.1 爬蟲技術(shù)國內(nèi)外研究現(xiàn)狀10
  • 1.2.2 web信息抽取技術(shù)國內(nèi)外研究現(xiàn)狀10-12
  • 1.3 論文的主要內(nèi)容12-13
  • 1.4 論文結(jié)構(gòu)安排13-15
  • 第二章 web信息抽取系統(tǒng)相關(guān)技術(shù)介紹15-20
  • 2.1 網(wǎng)絡(luò)爬蟲技術(shù)15-17
  • 2.1.1 全網(wǎng)爬蟲15-16
  • 2.1.2 增量式爬蟲16-17
  • 2.2 Web信息抽取技術(shù)17-19
  • 2.2.1 基于包裝器的web信息抽取系統(tǒng)17-18
  • 2.2.2 基于視覺的網(wǎng)頁分塊技術(shù)18-19
  • 2.2.3 Web信息抽取系統(tǒng)的評價(jià)標(biāo)準(zhǔn)19
  • 2.3 本章小結(jié)19-20
  • 第三章 正則表達(dá)式在web信息抽取技術(shù)中的應(yīng)用20-35
  • 3.1 正則表達(dá)式應(yīng)用在信息抽取技術(shù)中的可行性分析20
  • 3.2 增量式統(tǒng)一信息抽取系統(tǒng)需求20-21
  • 3.3 增量式統(tǒng)一信息抽取系統(tǒng)架構(gòu)21-23
  • 3.4 各模塊詳細(xì)設(shè)計(jì)23-27
  • 3.4.1 模板定制模塊詳細(xì)設(shè)計(jì)23-24
  • 3.4.2 網(wǎng)頁下載模塊詳細(xì)設(shè)計(jì)24-25
  • 3.4.3 匹配模塊詳細(xì)設(shè)計(jì)25-26
  • 3.4.4 增量處理模塊詳細(xì)設(shè)計(jì)26-27
  • 3.5 主程序接口介紹27
  • 3.6 系統(tǒng)流程27-30
  • 3.7 數(shù)據(jù)存儲30-31
  • 3.8 結(jié)果展示31-34
  • 3.9 本章小結(jié)34-35
  • 第四章 圖書館信息采集系統(tǒng)35-46
  • 4.1 需求分析35-36
  • 4.2 系統(tǒng)架構(gòu)36-37
  • 4.3 采集模塊實(shí)現(xiàn)37-42
  • 4.3.1 圖書館網(wǎng)站分類38-39
  • 4.3.2 斷點(diǎn)續(xù)爬機(jī)制39-40
  • 4.3.3 采集模塊的流程40-42
  • 4.4 采集程序監(jiān)控模塊42
  • 4.5 數(shù)據(jù)校對模塊42-43
  • 4.6 數(shù)據(jù)存儲模塊43-44
  • 4.7 結(jié)果展示44-45
  • 4.8 本章小結(jié)45-46
  • 第五章 基于網(wǎng)頁視覺分塊的BBS評論信息抽取技術(shù)研究46-60
  • 5.1 HTML預(yù)處理46-47
  • 5.2 網(wǎng)頁清洗47-48
  • 5.3 構(gòu)造帶有視覺信息的DOM樹48-49
  • 5.4 獲取網(wǎng)頁正文塊49-54
  • 5.4.1 基于視覺信息的網(wǎng)頁分塊50-51
  • 5.4.2 基于信息論模型的網(wǎng)頁分塊51-54
  • 5.5 基于樹的深度相似度算法提取BBS評論信息54-56
  • 5.5.1 子樹最優(yōu)自由匹配準(zhǔn)則54-55
  • 5.5.2 基于深度加權(quán)的DOM樹相似度度量55-56
  • 5.5.3 評論信息抽取方法56
  • 5.6 實(shí)驗(yàn)結(jié)果分析56-59
  • 5.7 本章小結(jié)59-60
  • 第六章 總結(jié)與展望60-61
  • 參考文獻(xiàn)61-63
  • 致謝63-64
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄64

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前9條

1 柳佳剛;劉高嵩;賀令亞;陳山;;基于Web的信息抽取技術(shù)現(xiàn)狀與發(fā)展[J];福建電腦;2007年07期

2 李盛韜;余智華;程學(xué)旗;白碩;;Web信息采集研究進(jìn)展[J];計(jì)算機(jī)科學(xué);2003年02期

3 陳瓊,蘇文健;基于網(wǎng)頁結(jié)構(gòu)樹的Web信息抽取方法[J];計(jì)算機(jī)工程;2005年20期

4 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2005年04期

5 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期

6 孫承杰,關(guān)毅;基于統(tǒng)計(jì)的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學(xué)報(bào);2004年05期

7 王燦輝;張敏;馬少平;;自然語言處理在信息檢索中的應(yīng)用綜述[J];中文信息學(xué)報(bào);2007年02期

8 梅雪;程學(xué)旗;郭巖;張剛;丁國棟;;一種全自動生成網(wǎng)頁信息抽取Wrapper的方法[J];中文信息學(xué)報(bào);2008年01期

9 張鑫;陳梅;王翰虎;王嫣然;;基于視覺特征和領(lǐng)域本體的Web信息抽取[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年02期


  本文關(guān)鍵詞:web信息抽取技術(shù)研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。

,

本文編號:380167

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/380167.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5c5b6***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日韩欧美三级视频在线| 国内精品伊人久久久av高清| 性欧美唯美尤物另类视频 | 激情五月天免费在线观看| 亚洲精品成人福利在线| 色哟哟哟在线观看视频| 日韩人妻精品免费一区二区三区| 日本加勒比在线观看一区| 青青操日老女人的穴穴| 亚洲欧美国产精品一区二区| 欧美日韩亚洲国产av| 国产免费观看一区二区| 成人国产激情福利久久| 中文字幕人妻av不卡| 精品人妻少妇二区三区| 高跟丝袜av在线一区二区三区| 日韩一区二区三区四区乱码视频| 精品高清美女精品国产区| 美女黄色三级深夜福利| 日韩精品中文字幕在线视频| 一区中文字幕人妻少妇| 初尝人妻少妇中文字幕在线| 又黄又爽禁片视频在线观看| 国产传媒中文字幕东京热| 欧美黄色成人真人视频| 中文字幕乱子论一区二区三区| 欧美日韩高清不卡在线播放| 日韩在线中文字幕不卡| 日韩精品福利在线观看| 91精品国产综合久久精品 | 日韩精品视频一二三区| 中文字幕欧美视频二区| 日本欧美一区二区三区高清| 亚洲另类女同一二三区| 国产欧美日韩精品一区二区| 日本黄色录像韩国黄色录像| 国产综合欧美日韩在线精品| 久久99午夜福利视频| 免费精品国产日韩热久久| 狠狠做深爱婷婷久久综合| 久久久精品区二区三区|