天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于主題模型的Web服務(wù)發(fā)現(xiàn)方法研究

發(fā)布時(shí)間:2019-06-28 19:16
【摘要】:Web服務(wù)作為一種自主而開放的應(yīng)用實(shí)體,具有松散耦合、平臺(tái)無關(guān)、互操作性強(qiáng)等特點(diǎn),特別適合在Internet環(huán)境中發(fā)布和使用。隨著互聯(lián)網(wǎng)上Web服務(wù)數(shù)量的快速增長(zhǎng),如何從中快速有效地獲取滿足需求功能的Web服務(wù),這是Web服務(wù)發(fā)現(xiàn)研究的內(nèi)容。目前常見的Web服務(wù)發(fā)現(xiàn)方法主要有基于關(guān)鍵字的方法和基于語義的方法。其中基于關(guān)鍵字的服務(wù)發(fā)現(xiàn)不能理解用戶語義信息,導(dǎo)致查全率不高,傳統(tǒng)的基于語義服務(wù)發(fā)現(xiàn)方法由于限制太多,推廣性不強(qiáng),基于主題模型的Web服務(wù)發(fā)現(xiàn)是一種特殊的語義發(fā)現(xiàn)方法,它相比于傳統(tǒng)的語義發(fā)現(xiàn)方法具有限制條件少,推廣性強(qiáng)等優(yōu)點(diǎn)。本文分析和研究了 Web服務(wù)發(fā)現(xiàn)及主題模型等相關(guān)技術(shù),對(duì)Web服務(wù)文檔特點(diǎn)、相似度計(jì)算方法以及聚類算法進(jìn)行了深入研究。首先根據(jù)WSDL描述文檔特點(diǎn),結(jié)合國(guó)內(nèi)外文本數(shù)據(jù)處理方法,對(duì)文檔進(jìn)行特征提取、去除停用詞與標(biāo)簽、連接詞分詞、大小寫字母轉(zhuǎn)換、詞干還原等,得到數(shù)據(jù)處理后的文檔詞匯集合。然后基于BTM對(duì)數(shù)據(jù)處理后的文檔詞匯集合進(jìn)行主題建模,使用Gibbs采樣對(duì)主題進(jìn)行訓(xùn)練,針對(duì)主題個(gè)數(shù)不確定問題,通過計(jì)算主題結(jié)構(gòu)相似度來確定主題數(shù)目,得到文檔主題信息。接下來對(duì)文本相似度度量方法進(jìn)行了研究,使用服務(wù)-主題向量與服務(wù)-特征詞權(quán)重向量線性結(jié)合的方式來計(jì)算服務(wù)之間相似度。對(duì)聚類算法進(jìn)行了研究,為了提高計(jì)算效率,使用基于最大距離法的k-means算法對(duì)Web服務(wù)進(jìn)行聚類,得到Web服務(wù)簇集合。最后,對(duì)Web服務(wù)進(jìn)行查詢時(shí),找到與查詢最相關(guān)的Web服務(wù)簇,把簇中相關(guān)度高的Web服務(wù)作為發(fā)現(xiàn)的結(jié)果。本文實(shí)現(xiàn)了方法中的具體模塊。最后利用測(cè)試集對(duì)該方法進(jìn)行實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,使用本文提出的方法進(jìn)行Web服務(wù)發(fā)現(xiàn)具有較高的查準(zhǔn)率。并且本文的研究對(duì)Web服務(wù)發(fā)現(xiàn)的相關(guān)處理過程具有借鑒意義。
[Abstract]:As an independent and open application entity, Web service has the characteristics of loose coupling, platform independence, strong interoperability and so on. It is especially suitable for publishing and using in Internet environment. With the rapid growth of the number of Web services on the Internet, how to obtain Web services that meet the requirements quickly and effectively is the content of Web service discovery. At present, the common methods of Web service discovery are keyword-based method and semantic-based method. Among them, keyword-based service discovery can not understand user semantic information, resulting in low recall. The traditional semantic service discovery method has too many limitations and low generalization. Web service discovery based on topic model is a special semantic discovery method, which has the advantages of less constraints and strong generalization compared with the traditional semantic discovery method. In this paper, Web service discovery and topic model are analyzed and studied, and the characteristics of Web service document, similarity calculation method and clustering algorithm are deeply studied. Firstly, according to the characteristics of WSDL description document, combined with domestic and foreign text data processing methods, the document feature extraction, removal of deactivated words and tags, conjunction word segmentation, case and lowercase letter conversion, word stem reduction and so on, to obtain the document vocabulary set after data processing. Then, based on BTM, the topic set of document vocabulary after data processing is modeled, and Gibbs sampling is used to train the topic. Aiming at the uncertain number of topics, the topic number is determined by calculating the similarity of topic structure, and the subject information of the document is obtained. Secondly, the measurement method of text similarity is studied, and the similarity between services is calculated by using the linear combination of service-topic vector and service-feature weight vector. The clustering algorithm is studied. In order to improve the computational efficiency, the k-means algorithm based on the maximum distance method is used to cluster the Web services, and the Web service cluster set is obtained. Finally, when querying the Web service, the Web service cluster which is most related to the query is found, and the Web service with high correlation in the cluster is taken as the result of the discovery. In this paper, the specific modules of the method are implemented. Finally, the test set is used to verify the method. The experimental results show that the proposed method has a high precision in Web service discovery. And the research of this paper has reference significance for the related processing process of Web service discovery.
【學(xué)位授予單位】:大連海事大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1;TP393.09

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 吳玲達(dá),謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動(dòng)收集與處理系統(tǒng)的研制[J];計(jì)算機(jī)應(yīng)用研究;2005年05期

2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期

3 周亦鵬;杜軍平;;基于時(shí)空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年08期

4 陳雄;都云程;李渝勤;施水才;;基于頁面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計(jì)算機(jī)信息;2010年27期

5 何利益;陸國(guó)鋒;羅鵬;;動(dòng)態(tài)新聞主題信息推薦系統(tǒng)設(shè)計(jì)[J];指揮信息系統(tǒng)與技術(shù);2013年04期

6 關(guān)慧芬;師軍;;基于本體的主題爬蟲技術(shù)研究[J];計(jì)算機(jī)仿真;2009年10期

7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期

8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期

9 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報(bào)技術(shù);2008年12期

10 朱夢(mèng)麟;李光耀;周毅敏;;基于樹比較的Web頁面主題信息抽取[J];微型機(jī)與應(yīng)用;2011年19期

相關(guān)會(huì)議論文 前6條

1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識(shí)別及表示[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動(dòng)提取[A];第二十一屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年

6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評(píng)論發(fā)現(xiàn)[A];中國(guó)計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

相關(guān)博士學(xué)位論文 前4條

1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學(xué);2014年

2 趙一鳴;基于多維尺度分析的潛在主題可視化研究[D];華中師范大學(xué);2013年

3 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測(cè)技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年

4 薛利;面向證券應(yīng)用的WEB主題觀點(diǎn)挖掘若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2013年

相關(guān)碩士學(xué)位論文 前10條

1 解琰;主題優(yōu)化過濾方法研究與應(yīng)用[D];大連海事大學(xué);2015年

2 楊春艷;基于語義和引用加權(quán)的文獻(xiàn)主題提取研究[D];浙江大學(xué);2015年

3 盧洋;基于主題模型的混合推薦算法研究[D];電子科技大學(xué);2014年

4 黃志;基于維基歧義頁的搜索結(jié)果聚類方法研究[D];北京理工大學(xué);2015年

5 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學(xué);2015年

6 任昱鳳;基于Hadoop的分布式主題爬蟲及其實(shí)現(xiàn)[D];陜西師范大學(xué);2015年

7 韓琳;基于貝葉斯主題爬蟲的研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2015年

8 黎楠;面向?qū)@闹黝}挖掘技術(shù)研究及應(yīng)用[D];北京工業(yè)大學(xué);2015年

9 劉學(xué)江;超大規(guī)模社交網(wǎng)絡(luò)中基于結(jié)構(gòu)與主題的社團(tuán)挖掘[D];電子科技大學(xué);2015年

10 黃文強(qiáng);安卓技術(shù)信息的主題爬蟲技術(shù)研究與實(shí)現(xiàn)[D];東南大學(xué);2015年

,

本文編號(hào):2507546

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2507546.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1e996***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com