天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于概率主題模型和神經(jīng)網(wǎng)絡(luò)的Web服務(wù)聚類

發(fā)布時間:2021-01-21 08:54
  隨著Web2.0技術(shù)的不斷發(fā)展,Web服務(wù)數(shù)量越來越多,將服務(wù)進行聚類是一種有效提高服務(wù)發(fā)現(xiàn)的手段。本文以Web服務(wù)為研究對象,基于Web服務(wù)的描述文檔,采用機器學習和人工神經(jīng)網(wǎng)絡(luò)中的相關(guān)模型、算法與技術(shù),針對“如何精準的對Web服務(wù)進行聚類”的問題進行研究。本文的主要工作分為以下三個部分:(1)本文提出一種基于Word2vec和LDA主題模型的Web服務(wù)聚類方法。該方法首先將Wikipedia語料庫作為擴充源,使用Word2vec對Web服務(wù)描述文檔內(nèi)容進行擴充,再將擴充后的描述文檔利用主題模型進行特征建模,將短文本主題建模轉(zhuǎn)化為長文本主題建模,更準確地實現(xiàn)服務(wù)內(nèi)容主題表達,最后根據(jù)文檔的主題分布矩陣尋找相似的服務(wù)并完成聚類。在真實數(shù)據(jù)集上進行實驗,結(jié)果表明:與TFIDF-K、LDA、WT-LDA、LDA-K等服務(wù)聚類方法相比,本方法在F值上分別有419.74%、20.11%、15.60%、27.80%的提升。進而,基于擴充后的Web服務(wù)描述文檔,利用Word2vec和LDA主題模型進行服務(wù)聚類的方法,能夠有效提高Web服務(wù)聚類的精度。(2)本文提出了一種基于HDP和SOM神經(jīng)網(wǎng)絡(luò)的... 

【文章來源】:湖南科技大學湖南省

【文章頁數(shù)】:55 頁

【學位級別】:碩士

【部分圖文】:

基于概率主題模型和神經(jīng)網(wǎng)絡(luò)的Web服務(wù)聚類


HDP模型圖

模型圖,模型圖,主題,文檔


第二章基礎(chǔ)理論概述-8-圖2.1LDA模型圖Fig.2.1PlatenotationofLDAmodel2.2.3HDP主題模型主題建模是從文檔中抽取出信息特征的一種方法,它能夠?qū)⑽谋局须[含的主題信息抽取出來。隱含狄利克雷分布(LDA)是一種典型的主題模型,但是由于該算法的主題個數(shù)需要人為地不斷設(shè)置,因此需要花費大量的時間調(diào)節(jié)參數(shù)才能獲得令人滿意的主題向量。HDP(HierarchicalDirichletProcessing)主題模型是一種多層狄利克雷分布,可以被認為是LDA主題模型的一種無參估計[24]。在HDP主題模型中,所有的文檔共享同一個主題集合[18],并且在該模型中,文檔語料庫中的主題數(shù)量不受限制,并且它可以自動學習最佳主題數(shù)。文檔生成過程如圖2.2所示,圖模型中D表示文檔的篇數(shù),N表示每篇文檔中單詞的個數(shù)。圖2.2HDP模型圖Fig.2.2PlatenotationofHDPmodel首先,從基分布H和Beta分布參數(shù)γ構(gòu)成的狄利克雷過程中,抽樣出所有文檔的主題集合分布0;然后從基分布0和參數(shù)構(gòu)成的狄利克雷過程中,為每篇文檔抽取主題分布,其中j表示文章的編號,DP代表狄利克雷過程[25]。指示了第j片文章中i個單詞主題的聯(lián)合分布,再從主題的聯(lián)合分布中抽樣產(chǎn)生單詞。0~(,)(2.5)|0~(,0)(2.6)~(2.7)~()(2.8)

框架圖,框架,方法,文檔


第三章基于Word2Vec和LDA主題模型的Web服務(wù)聚類方法-12-型(LatentDirichletAllocation)對擴充后的描述文檔進行主題建模。接著,對LDA生成的文檔-主題向量使用不同的聚類方法實現(xiàn)服務(wù)聚類。最后,采用準確率、召回率以及F值對實驗結(jié)果進行評價。本文使用從ProgrammableWeb收集的真實數(shù)據(jù)進行實驗,經(jīng)對比實驗表明:使用Word2Vec進行擴充后的描述文檔進行聚類的效果要優(yōu)于未擴充描述文檔的聚類。3.2技術(shù)框架本方法提出的方法總體框架如圖3.1所示。首先,對收集到的Web服務(wù)數(shù)據(jù)集進行預(yù)處理。之后,使用Word2Vec工具對Wikipedia語料庫進行訓(xùn)練,生成詞向量模型。在詞向量模型中尋找與Web服務(wù)的描述文檔相似的詞進行擴充,得到不同擴充程度的描述文檔,使原始文本有足夠的詞頻共現(xiàn),使主題模型更加有效地估計出服務(wù)的隱含主題。然后使用文本聚類領(lǐng)域常用的工具LDA模型對擴充后的描述文檔進行主題建模。接著,對LDA生成的文檔主題分布矩陣使用K-means聚類方法實現(xiàn)服務(wù)聚類。最后,采用準確率、召回率以及F值對實驗結(jié)果進行評價。圖3.1方法總體框架Fig.3.1Theframeworkofwebservicesclustering3.3基于Word2Vec和LDA主題模型的Web服務(wù)聚類方法3.3.1Wikipedia數(shù)據(jù)集以及詞向量訓(xùn)練過程Wikipedia是公認的互聯(lián)網(wǎng)上最全面權(quán)威的網(wǎng)絡(luò)百科全書,有豐富的語料庫。本文采用2017年4月的英文維基百科語料庫,下載地址為:https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2,大小約為11GB。其中每一個文件大約為1MB,包含了多個英文文檔。本文使用python中的gensim模塊對Wikipedia語料庫進行訓(xùn)練,生成了Wikipedia語料庫的詞向量模型,具體參數(shù)設(shè)置如表3.1所示。

【參考文獻】:
期刊論文
[1]基于LDA主題模型的移動應(yīng)用相似度構(gòu)建方法[J]. 褚征,于炯,王佳玉,王躍飛.  計算機應(yīng)用. 2017(04)
[2]基于Django的博客系統(tǒng)開發(fā)研究[J]. 江柳.  電腦編程技巧與維護. 2016(13)
[3]基于word2vec的互聯(lián)網(wǎng)商品評論情感傾向研究[J]. 黃仁,張衛(wèi).  計算機科學. 2016(S1)
[4]融合K-Means與Agnes的Mashup服務(wù)聚類方法[J]. 黃興,劉小青,曹步清,唐明董,劉建勛.  小型微型計算機系統(tǒng). 2015(11)
[5]基于MB-HDP模型的微博主題挖掘[J]. 劉少鵬,印鑒,歐陽佳,黃云,楊曉穎.  計算機學報. 2015(07)
[6]Word2vec的工作原理及應(yīng)用探究[J]. 周練.  科技情報開發(fā)與經(jīng)濟. 2015(02)
[7]聚類方法綜述[J]. 金建國.  計算機科學. 2014(S2)
[8]基于概率主題模型的物聯(lián)網(wǎng)服務(wù)發(fā)現(xiàn)[J]. 魏強,金芝,許焱.  軟件學報. 2014(08)
[9]一種面向主題的領(lǐng)域服務(wù)聚類方法[J]. 李征,王健,張能,李昭,何成萬,何克清.  計算機研究與發(fā)展. 2014(02)
[10]網(wǎng)頁設(shè)計中Bootstrap CSS框架的應(yīng)用與拓展[J]. 李淼,杜明晶,苗放.  電子技術(shù)與軟件工程. 2013(17)



本文編號:2990863

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2990863.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶078d3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com