Web服務(wù)信息抓取與整合方案研究
本文關(guān)鍵詞:Web服務(wù)信息抓取與整合方案研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著Web服務(wù)的廣泛應(yīng)用和數(shù)量的大量增長(zhǎng),如何從互聯(lián)網(wǎng)中快速準(zhǔn)確地發(fā)現(xiàn)滿足用戶需求的Web服務(wù)成為研究的焦點(diǎn)問(wèn)題,而解決這一問(wèn)題的一種有效方式就是抓取Web服務(wù)及相關(guān)描述信息,建立統(tǒng)一格式的Web服務(wù)信息庫(kù)。 本文以抓取互聯(lián)網(wǎng)上的Web服務(wù)及其相關(guān)描述信息為目標(biāo),,設(shè)計(jì)并實(shí)現(xiàn)了一種面向Web服務(wù)及其描述信息的抓取與整合方案。首先,調(diào)查、分析互聯(lián)網(wǎng)上的Web服務(wù)存在現(xiàn)狀,在此基礎(chǔ)上,設(shè)計(jì)基于通用搜索引擎的種子收集與篩選機(jī)制;其次,根據(jù)收集的種子信息抓取互聯(lián)網(wǎng)上的Web服務(wù)及其相關(guān)描述信息;最后,整合通過(guò)格式驗(yàn)證的Web服務(wù)及其相關(guān)描述信息,補(bǔ)全不完整的Web服務(wù)的描述信息,建立統(tǒng)一格式的Web服務(wù)信息庫(kù)。本文共抓取了320個(gè)互聯(lián)網(wǎng)站點(diǎn),共8177個(gè)Web服務(wù),并且能夠保證76.6%以上的信息獲取的準(zhǔn)確率,和45%以上的文檔覆蓋率。 綜上,本文提出的Web服務(wù)信息抓取與整合方案能夠高效地抓取到互聯(lián)網(wǎng)上的Web服務(wù)并整合其相關(guān)描述信息,為Web服務(wù)的研究提供有質(zhì)量的數(shù)據(jù),并且通過(guò)整合Web服務(wù)的相關(guān)信息為后續(xù)的Web服務(wù)開(kāi)發(fā)與管理提供依據(jù)。
【關(guān)鍵詞】:Web服務(wù) 抓取 整合
【學(xué)位授予單位】:天津大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.09
【目錄】:
- 摘要4-5
- ABSTRACT5-8
- 第一章 緒論8-10
- 1.1 研究背景8
- 1.2 研究目標(biāo)和主要研究?jī)?nèi)容8-9
- 1.3 論文結(jié)構(gòu)9-10
- 第二章 文獻(xiàn)綜述10-18
- 2.1 Web 服務(wù)概述10-13
- 2.1.1 Web 服務(wù)10-12
- 2.1.2 Web 服務(wù)核心技術(shù)12
- 2.1.3 Web 服務(wù)研究現(xiàn)狀12-13
- 2.2 網(wǎng)絡(luò)爬蟲(chóng)研究現(xiàn)狀13-14
- 2.3 信息抽取相關(guān)技術(shù)14-16
- 2.4 網(wǎng)頁(yè)去噪技術(shù)16-17
- 2.4.1 基于網(wǎng)頁(yè)結(jié)構(gòu)的去噪技術(shù)16
- 2.4.2 基于模板的網(wǎng)頁(yè)去噪技術(shù)16-17
- 2.5 本章小結(jié)17-18
- 第三章 Web 服務(wù)信息抓取與整合方案的設(shè)計(jì)18-31
- 3.1 方案需求分析18-20
- 3.2 方案的整體架構(gòu)與各個(gè)模塊的設(shè)計(jì)20-24
- 3.2.1 種子收集部分的設(shè)計(jì)20-22
- 3.2.2 過(guò)濾冗余信息部分的設(shè)計(jì)22-23
- 3.2.3 服務(wù)信息整合與擴(kuò)充部分的設(shè)計(jì)23
- 3.2.4 功能組件之間的數(shù)據(jù)流動(dòng)23-24
- 3.3 基于開(kāi)源爬蟲(chóng)框架的改進(jìn)設(shè)計(jì)24-30
- 3.3.1 對(duì)于 Frontier 組件的改進(jìn)25-27
- 3.3.2 對(duì)于 Processing chains 組件的改進(jìn)27-30
- 3.4 本章小結(jié)30-31
- 第四章 Web 服務(wù)信息抓取與整合方案的相關(guān)技術(shù)實(shí)現(xiàn)31-41
- 4.1 面向 Web 服務(wù)的主題爬蟲(chóng)搜索策略31-33
- 4.2 URL 的調(diào)度策略33-34
- 4.3 種子收集模塊的實(shí)現(xiàn)34-36
- 4.4 爬取過(guò)程中信息的去“噪”36-39
- 4.5 異構(gòu)信息的整合39-40
- 4.6 Web 服務(wù)信息的擴(kuò)充40-41
- 第五章 Web 服務(wù)信息抓取與整合方案的效果分析41-43
- 5.1 實(shí)驗(yàn)分析41
- 5.1.1 數(shù)據(jù)來(lái)源41
- 5.2 實(shí)驗(yàn)結(jié)果與分析41-42
- 5.3 本章小結(jié)42-43
- 第六章 總結(jié)與展望43-44
- 6.1 論文總結(jié)43
- 6.2 工作展望43-44
- 參考文獻(xiàn)44-47
- 發(fā)表論文和參加科研情況說(shuō)明47-48
- 致謝48
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前8條
1 常育紅,姜哲,朱小燕;基于標(biāo)記樹(shù)表示方法的頁(yè)面結(jié)構(gòu)分析[J];計(jì)算機(jī)工程與應(yīng)用;2004年16期
2 李晶;陳恩紅;;Web信息抽取[J];計(jì)算機(jī)科學(xué);2003年06期
3 羅成;李弼程;張先飛;;一種有效的網(wǎng)頁(yè)噪聲消除的方法[J];計(jì)算機(jī)工程;2007年08期
4 丁寶瓊;謝遠(yuǎn)平;吳瓊;;基于改進(jìn)DOM樹(shù)的網(wǎng)頁(yè)去噪聲方法[J];計(jì)算機(jī)應(yīng)用;2009年S1期
5 龔秋艷;陳良育;曾振柄;;簡(jiǎn)單高效的URL消重的方法[J];計(jì)算機(jī)應(yīng)用;2010年S1期
6 劉丹;程曉;侯德林;;一種基于RMI的分布式架構(gòu)設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用與軟件;2007年09期
7 劉書(shū)一;;基于文本相似度的網(wǎng)頁(yè)消重策略[J];計(jì)算機(jī)應(yīng)用與軟件;2011年11期
8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
本文關(guān)鍵詞:Web服務(wù)信息抓取與整合方案研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):393399
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/393399.html