服務(wù)爬蟲引擎中服務(wù)識(shí)別與抓取功能的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-02-09 06:21
Web服務(wù)的松耦合架構(gòu)及其開發(fā)便捷性使得它的應(yīng)用范圍越來(lái)越廣‘,越來(lái)越多的企業(yè)和個(gè)人熱衷于開發(fā)新的Web服務(wù)并將其放在網(wǎng)絡(luò)上,如何對(duì)這些Web服務(wù)進(jìn)行識(shí)別成為Web服務(wù)研究中的一個(gè)重要的問(wèn)題,這也就是本文重點(diǎn)研究的問(wèn)題。目前Web服務(wù)可以分為以下兩大類:傳統(tǒng)的結(jié)構(gòu)化WSDL式Web服務(wù)以及非結(jié)構(gòu)化RESTful式Web服務(wù)。針對(duì)WSDL式的Web服務(wù),目前已有比較成熟的識(shí)別方法,但是針對(duì)RESTful式的Web服務(wù),國(guó)內(nèi)外仍沒(méi)有比較成熟可用的識(shí)別方法。本文正是在這樣一種背景下設(shè)計(jì)了一個(gè)針對(duì)Web服務(wù)的專用分布式爬蟲引擎,此爬蟲引擎能夠高效的識(shí)別并抓取WSDL服務(wù)以及RESTful服務(wù)。本文首先研究了針對(duì)Web服務(wù)的專用分布式爬蟲引擎中涉及到的相關(guān)理論知識(shí)及相關(guān)技術(shù)知識(shí),確定了本文的技術(shù)路線;然后從Web服務(wù)的專用分布式爬蟲引擎的需求出發(fā),分析了此爬蟲引擎的重點(diǎn)功能性需求及非功能性需求;隨后重點(diǎn)針對(duì)RESTful式服務(wù)的識(shí)別提出了一種基于改進(jìn)的樸素貝葉斯分類思想的識(shí)別算法,并對(duì)此算法的可行性及合理性進(jìn)行了理論分析及具體實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明此算法對(duì)于RESTful式服務(wù)的識(shí)別能夠達(dá)到很好的召...
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 引言
1.1 研究意義
1.2 研究現(xiàn)狀
1.2.1 國(guó)內(nèi)外研究現(xiàn)狀
1.2.2 論文主要工作
1.2.3 論文結(jié)構(gòu)
1.2.4 本章小結(jié)
第2章 相關(guān)技術(shù)
2.1 相關(guān)理論
2.1.1 服務(wù)的識(shí)別
2.1.2 服務(wù)的抓取
2.2 相關(guān)技術(shù)
2.3 本章小結(jié)
第3章 需求分析
3.1 服務(wù)搜索引擎WSSE的整體需求說(shuō)明
3.2 DWSCE的功能性需求分析
3.3 DWSCE的非功能性需求分析
3.4 本章小結(jié)
第4章 DWSCE的關(guān)鍵技術(shù)研究
4.1 樸素貝葉斯分類思想介結(jié)
4.1.1 樸素貝葉斯分類器
4.1.2 對(duì)樸素貝葉斯分類器的優(yōu)化及改進(jìn)
4.2 現(xiàn)今主流分類思想的對(duì)比理論分析
4.3 基于增量學(xué)習(xí)的樸素貝葉斯分類思想的服務(wù)識(shí)別算法
4.3.1 網(wǎng)頁(yè)去噪
4.3.2 分類器訓(xùn)練階段
4.3.3 基于改進(jìn)的樸素貝葉斯的非結(jié)構(gòu)化Web服務(wù)識(shí)別算法
4.3.4 實(shí)驗(yàn)結(jié)果及分析
4.4 本章小結(jié)
第5章 DWSCE的設(shè)計(jì)與實(shí)現(xiàn)
5.1 DWSCE總體設(shè)計(jì)
5.1.1 DWSCE的總體架構(gòu)
5.1.2 DWSCE關(guān)鍵模塊間交互流程
5.1.3 DWSCE的關(guān)鍵模塊內(nèi)部交互流程
5.2 DWSCE關(guān)鍵模塊的設(shè)計(jì)實(shí)現(xiàn)
5.2.1 中控節(jié)點(diǎn)關(guān)鍵模塊的設(shè)計(jì)實(shí)現(xiàn)
5.2.2 爬蟲節(jié)點(diǎn)關(guān)鍵模塊的設(shè)計(jì)實(shí)現(xiàn)
5.2.3 數(shù)據(jù)節(jié)點(diǎn)關(guān)鍵模塊的設(shè)計(jì)實(shí)現(xiàn)
5.3 本章小結(jié)
第6章 系統(tǒng)測(cè)試
6.1 測(cè)試環(huán)境說(shuō)明
6.2 測(cè)試內(nèi)容說(shuō)明
6.3 典型測(cè)試用例說(shuō)明
6.4 測(cè)試總結(jié)
第7章 結(jié)束語(yǔ)
7.1 論文工作總結(jié)
7.2 未來(lái)工作展望
參考文獻(xiàn)
附錄
致謝
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
攻讀碩士學(xué)位期間的主要工作
【參考文獻(xiàn)】:
期刊論文
[1]一種基于線性回歸的非結(jié)構(gòu)化WEB服務(wù)識(shí)別方法[J]. 帖晶,方慶安. 軟件. 2011(05)
[2]Web服務(wù)搜索引擎的WSRank方法研究[J]. 胡蓉,劉建勛. 計(jì)算機(jī)工程與科學(xué). 2011(04)
[3]網(wǎng)頁(yè)去噪:研究綜述[J]. 毛先領(lǐng),何靖,閆宏飛. 計(jì)算機(jī)研究與發(fā)展. 2010(12)
[4]分布式主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 池勇敏,郝泳濤. 計(jì)算機(jī)應(yīng)用與軟件. 2010(12)
[5]網(wǎng)絡(luò)爬蟲網(wǎng)頁(yè)庫(kù)智能更新策略分析與研究[J]. 周巍巍. 電腦知識(shí)與技術(shù). 2010(31)
[6]REST和RPC:兩種Web服務(wù)架構(gòu)風(fēng)格比較分析[J]. 馮新?lián)P,沈建京. 小型微型計(jì)算機(jī)系統(tǒng). 2010(07)
[7]節(jié)點(diǎn)對(duì)等Web Spider設(shè)計(jì)與實(shí)現(xiàn)[J]. 張林才,張燕,王紅霞. 計(jì)算機(jī)技術(shù)與發(fā)展. 2010(03)
[8]基于GNP算法的分布式爬蟲調(diào)度策略[J]. 劉爽,姜春祥,張偉哲,李東,張鴻. 計(jì)算機(jī)應(yīng)用研究. 2010(02)
[9]高性能網(wǎng)絡(luò)爬蟲:研究綜述[J]. 周德懋,李舟軍. 計(jì)算機(jī)科學(xué). 2009(08)
[10]一種基于內(nèi)容規(guī)則的網(wǎng)頁(yè)去噪算法[J]. 王建冬,王繼民,田飛佳. 現(xiàn)代圖書情報(bào)技術(shù). 2008(03)
本文編號(hào):3025194
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 引言
1.1 研究意義
1.2 研究現(xiàn)狀
1.2.1 國(guó)內(nèi)外研究現(xiàn)狀
1.2.2 論文主要工作
1.2.3 論文結(jié)構(gòu)
1.2.4 本章小結(jié)
第2章 相關(guān)技術(shù)
2.1 相關(guān)理論
2.1.1 服務(wù)的識(shí)別
2.1.2 服務(wù)的抓取
2.2 相關(guān)技術(shù)
2.3 本章小結(jié)
第3章 需求分析
3.1 服務(wù)搜索引擎WSSE的整體需求說(shuō)明
3.2 DWSCE的功能性需求分析
3.3 DWSCE的非功能性需求分析
3.4 本章小結(jié)
第4章 DWSCE的關(guān)鍵技術(shù)研究
4.1 樸素貝葉斯分類思想介結(jié)
4.1.1 樸素貝葉斯分類器
4.1.2 對(duì)樸素貝葉斯分類器的優(yōu)化及改進(jìn)
4.2 現(xiàn)今主流分類思想的對(duì)比理論分析
4.3 基于增量學(xué)習(xí)的樸素貝葉斯分類思想的服務(wù)識(shí)別算法
4.3.1 網(wǎng)頁(yè)去噪
4.3.2 分類器訓(xùn)練階段
4.3.3 基于改進(jìn)的樸素貝葉斯的非結(jié)構(gòu)化Web服務(wù)識(shí)別算法
4.3.4 實(shí)驗(yàn)結(jié)果及分析
4.4 本章小結(jié)
第5章 DWSCE的設(shè)計(jì)與實(shí)現(xiàn)
5.1 DWSCE總體設(shè)計(jì)
5.1.1 DWSCE的總體架構(gòu)
5.1.2 DWSCE關(guān)鍵模塊間交互流程
5.1.3 DWSCE的關(guān)鍵模塊內(nèi)部交互流程
5.2 DWSCE關(guān)鍵模塊的設(shè)計(jì)實(shí)現(xiàn)
5.2.1 中控節(jié)點(diǎn)關(guān)鍵模塊的設(shè)計(jì)實(shí)現(xiàn)
5.2.2 爬蟲節(jié)點(diǎn)關(guān)鍵模塊的設(shè)計(jì)實(shí)現(xiàn)
5.2.3 數(shù)據(jù)節(jié)點(diǎn)關(guān)鍵模塊的設(shè)計(jì)實(shí)現(xiàn)
5.3 本章小結(jié)
第6章 系統(tǒng)測(cè)試
6.1 測(cè)試環(huán)境說(shuō)明
6.2 測(cè)試內(nèi)容說(shuō)明
6.3 典型測(cè)試用例說(shuō)明
6.4 測(cè)試總結(jié)
第7章 結(jié)束語(yǔ)
7.1 論文工作總結(jié)
7.2 未來(lái)工作展望
參考文獻(xiàn)
附錄
致謝
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
攻讀碩士學(xué)位期間的主要工作
【參考文獻(xiàn)】:
期刊論文
[1]一種基于線性回歸的非結(jié)構(gòu)化WEB服務(wù)識(shí)別方法[J]. 帖晶,方慶安. 軟件. 2011(05)
[2]Web服務(wù)搜索引擎的WSRank方法研究[J]. 胡蓉,劉建勛. 計(jì)算機(jī)工程與科學(xué). 2011(04)
[3]網(wǎng)頁(yè)去噪:研究綜述[J]. 毛先領(lǐng),何靖,閆宏飛. 計(jì)算機(jī)研究與發(fā)展. 2010(12)
[4]分布式主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 池勇敏,郝泳濤. 計(jì)算機(jī)應(yīng)用與軟件. 2010(12)
[5]網(wǎng)絡(luò)爬蟲網(wǎng)頁(yè)庫(kù)智能更新策略分析與研究[J]. 周巍巍. 電腦知識(shí)與技術(shù). 2010(31)
[6]REST和RPC:兩種Web服務(wù)架構(gòu)風(fēng)格比較分析[J]. 馮新?lián)P,沈建京. 小型微型計(jì)算機(jī)系統(tǒng). 2010(07)
[7]節(jié)點(diǎn)對(duì)等Web Spider設(shè)計(jì)與實(shí)現(xiàn)[J]. 張林才,張燕,王紅霞. 計(jì)算機(jī)技術(shù)與發(fā)展. 2010(03)
[8]基于GNP算法的分布式爬蟲調(diào)度策略[J]. 劉爽,姜春祥,張偉哲,李東,張鴻. 計(jì)算機(jī)應(yīng)用研究. 2010(02)
[9]高性能網(wǎng)絡(luò)爬蟲:研究綜述[J]. 周德懋,李舟軍. 計(jì)算機(jī)科學(xué). 2009(08)
[10]一種基于內(nèi)容規(guī)則的網(wǎng)頁(yè)去噪算法[J]. 王建冬,王繼民,田飛佳. 現(xiàn)代圖書情報(bào)技術(shù). 2008(03)
本文編號(hào):3025194
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3025194.html
最近更新
教材專著