天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

Web服務(wù)信息抓取與整合方案研究

發(fā)布時間:2017-05-25 10:08

  本文關(guān)鍵詞:Web服務(wù)信息抓取與整合方案研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著Web服務(wù)的廣泛應(yīng)用和數(shù)量的大量增長,如何從互聯(lián)網(wǎng)中快速準(zhǔn)確地發(fā)現(xiàn)滿足用戶需求的Web服務(wù)成為研究的焦點(diǎn)問題,而解決這一問題的一種有效方式就是抓取Web服務(wù)及相關(guān)描述信息,建立統(tǒng)一格式的Web服務(wù)信息庫。 本文以抓取互聯(lián)網(wǎng)上的Web服務(wù)及其相關(guān)描述信息為目標(biāo),,設(shè)計并實(shí)現(xiàn)了一種面向Web服務(wù)及其描述信息的抓取與整合方案。首先,調(diào)查、分析互聯(lián)網(wǎng)上的Web服務(wù)存在現(xiàn)狀,在此基礎(chǔ)上,設(shè)計基于通用搜索引擎的種子收集與篩選機(jī)制;其次,根據(jù)收集的種子信息抓取互聯(lián)網(wǎng)上的Web服務(wù)及其相關(guān)描述信息;最后,整合通過格式驗證的Web服務(wù)及其相關(guān)描述信息,補(bǔ)全不完整的Web服務(wù)的描述信息,建立統(tǒng)一格式的Web服務(wù)信息庫。本文共抓取了320個互聯(lián)網(wǎng)站點(diǎn),共8177個Web服務(wù),并且能夠保證76.6%以上的信息獲取的準(zhǔn)確率,和45%以上的文檔覆蓋率。 綜上,本文提出的Web服務(wù)信息抓取與整合方案能夠高效地抓取到互聯(lián)網(wǎng)上的Web服務(wù)并整合其相關(guān)描述信息,為Web服務(wù)的研究提供有質(zhì)量的數(shù)據(jù),并且通過整合Web服務(wù)的相關(guān)信息為后續(xù)的Web服務(wù)開發(fā)與管理提供依據(jù)。
【關(guān)鍵詞】:Web服務(wù) 抓取 整合
【學(xué)位授予單位】:天津大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.09
【目錄】:
  • 摘要4-5
  • ABSTRACT5-8
  • 第一章 緒論8-10
  • 1.1 研究背景8
  • 1.2 研究目標(biāo)和主要研究內(nèi)容8-9
  • 1.3 論文結(jié)構(gòu)9-10
  • 第二章 文獻(xiàn)綜述10-18
  • 2.1 Web 服務(wù)概述10-13
  • 2.1.1 Web 服務(wù)10-12
  • 2.1.2 Web 服務(wù)核心技術(shù)12
  • 2.1.3 Web 服務(wù)研究現(xiàn)狀12-13
  • 2.2 網(wǎng)絡(luò)爬蟲研究現(xiàn)狀13-14
  • 2.3 信息抽取相關(guān)技術(shù)14-16
  • 2.4 網(wǎng)頁去噪技術(shù)16-17
  • 2.4.1 基于網(wǎng)頁結(jié)構(gòu)的去噪技術(shù)16
  • 2.4.2 基于模板的網(wǎng)頁去噪技術(shù)16-17
  • 2.5 本章小結(jié)17-18
  • 第三章 Web 服務(wù)信息抓取與整合方案的設(shè)計18-31
  • 3.1 方案需求分析18-20
  • 3.2 方案的整體架構(gòu)與各個模塊的設(shè)計20-24
  • 3.2.1 種子收集部分的設(shè)計20-22
  • 3.2.2 過濾冗余信息部分的設(shè)計22-23
  • 3.2.3 服務(wù)信息整合與擴(kuò)充部分的設(shè)計23
  • 3.2.4 功能組件之間的數(shù)據(jù)流動23-24
  • 3.3 基于開源爬蟲框架的改進(jìn)設(shè)計24-30
  • 3.3.1 對于 Frontier 組件的改進(jìn)25-27
  • 3.3.2 對于 Processing chains 組件的改進(jìn)27-30
  • 3.4 本章小結(jié)30-31
  • 第四章 Web 服務(wù)信息抓取與整合方案的相關(guān)技術(shù)實(shí)現(xiàn)31-41
  • 4.1 面向 Web 服務(wù)的主題爬蟲搜索策略31-33
  • 4.2 URL 的調(diào)度策略33-34
  • 4.3 種子收集模塊的實(shí)現(xiàn)34-36
  • 4.4 爬取過程中信息的去“噪”36-39
  • 4.5 異構(gòu)信息的整合39-40
  • 4.6 Web 服務(wù)信息的擴(kuò)充40-41
  • 第五章 Web 服務(wù)信息抓取與整合方案的效果分析41-43
  • 5.1 實(shí)驗分析41
  • 5.1.1 數(shù)據(jù)來源41
  • 5.2 實(shí)驗結(jié)果與分析41-42
  • 5.3 本章小結(jié)42-43
  • 第六章 總結(jié)與展望43-44
  • 6.1 論文總結(jié)43
  • 6.2 工作展望43-44
  • 參考文獻(xiàn)44-47
  • 發(fā)表論文和參加科研情況說明47-48
  • 致謝48

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前8條

1 常育紅,姜哲,朱小燕;基于標(biāo)記樹表示方法的頁面結(jié)構(gòu)分析[J];計算機(jī)工程與應(yīng)用;2004年16期

2 李晶;陳恩紅;;Web信息抽取[J];計算機(jī)科學(xué);2003年06期

3 羅成;李弼程;張先飛;;一種有效的網(wǎng)頁噪聲消除的方法[J];計算機(jī)工程;2007年08期

4 丁寶瓊;謝遠(yuǎn)平;吳瓊;;基于改進(jìn)DOM樹的網(wǎng)頁去噪聲方法[J];計算機(jī)應(yīng)用;2009年S1期

5 龔秋艷;陳良育;曾振柄;;簡單高效的URL消重的方法[J];計算機(jī)應(yīng)用;2010年S1期

6 劉丹;程曉;侯德林;;一種基于RMI的分布式架構(gòu)設(shè)計[J];計算機(jī)應(yīng)用與軟件;2007年09期

7 劉書一;;基于文本相似度的網(wǎng)頁消重策略[J];計算機(jī)應(yīng)用與軟件;2011年11期

8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年S1期


  本文關(guān)鍵詞:Web服務(wù)信息抓取與整合方案研究,由筆耕文化傳播整理發(fā)布。



本文編號:393399

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/393399.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶92d2f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com