天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于語義擴(kuò)展信息與詞三角的短文本主題模型研究

發(fā)布時(shí)間:2021-11-05 01:58
  隨著社會發(fā)展節(jié)奏的不斷加快以及智能移動(dòng)終端帶來的“短平快”的用戶體驗(yàn),人們在網(wǎng)絡(luò)上的交流越來越趨于碎片化。因此,短文本數(shù)據(jù)在如今的網(wǎng)絡(luò)信息交互中占據(jù)著越來越重要的地位,例如社交網(wǎng)絡(luò)狀態(tài)、微博文本消息、傳統(tǒng)新聞標(biāo)題、短視頻標(biāo)題和問答網(wǎng)站等都是以短文本的形式表達(dá)信息。并且隨著微博、知乎、FaceBook、Twitter等大體量公司的崛起,短文本數(shù)據(jù)也是以極大的速度產(chǎn)生并積累著。因此,針對短文本數(shù)據(jù)的主題模型具有十分重大的價(jià)值,例如輿情分析、信息檢索、個(gè)性化推薦、用戶興趣聚類等都是主題挖掘的應(yīng)用方向。而另一方面,使用傳統(tǒng)的文本挖掘方法來挖掘短文本的主題信息卻存在很大的困難,主要原因是短文本中詞共現(xiàn)信息十分稀疏。為了從短文本中得到更多的特征信息,學(xué)者們提出了各種各樣的改進(jìn)模型,但大部分忽略了詞語間的語義關(guān)系。針對這一問題,本文提出一種基于將語義信息與詞頻信息作為先驗(yàn)知識的詞對主題模型算法,并在此基礎(chǔ)上進(jìn)一步對主題單元的結(jié)構(gòu)展開研究,提出了語義詞三角主題模型。本文的主要工作如下:1)針對傳統(tǒng)的詞對主題模型對不同重要性的詞對都同等看待的問題,本文假設(shè)語義聯(lián)系越緊密的詞語屬于同一個(gè)主題的概率越大。在... 

【文章來源】:南京大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:73 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于語義擴(kuò)展信息與詞三角的短文本主題模型研究


圖2-1:?PLSA概率圖模型??

模型圖,概率圖,模型,訓(xùn)練集


?np??圖2-1:?PLSA概率圖模型??由此可知整個(gè)文檔集的生成概率為:??^?n(di,?Wj)P(zk\di)P(wj\zk)?(2-5)??D?W??將上式作為似然函數(shù),即可使用EM算法估算參數(shù)丨而和P(w;_|Z|〇的??值丨氣??相對于LSA而言,PLSA有著堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)基礎(chǔ),結(jié)果的可解釋性更好。??同時(shí)PLSA使用EM算法進(jìn)行參數(shù)估計(jì),相對于奇異值分解在計(jì)算復(fù)雜度上有??了很大程度的降低。但是隨著樣本數(shù)據(jù)的增大,模型參數(shù)仍然會線性增長。并??且由于PLSA完全依賴訓(xùn)練集數(shù)據(jù),面對新加入的文檔時(shí)只能擴(kuò)大訓(xùn)練集重新??訓(xùn)練,因此其泛化性能仍然較差。??2.2.3潛在狄利克雷分布??潛在狄利克雷分布(Latent?Dirichlet?Allocation

模型圖,概率圖,超參數(shù),模型


合-主題”分布對應(yīng)的狄利克雷分布的超參數(shù),P為“主題-詞語”分布對應(yīng)的??狄利克雷分布的超參數(shù)。則BTM模型的生成過程可表示如下,同時(shí)概率圖模??型如圖2-3所示。??1)


本文編號:3476841

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3476841.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b98c0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com