基于語義擴(kuò)展信息與詞三角的短文本主題模型研究
發(fā)布時(shí)間:2021-11-05 01:58
隨著社會發(fā)展節(jié)奏的不斷加快以及智能移動終端帶來的“短平快”的用戶體驗(yàn),人們在網(wǎng)絡(luò)上的交流越來越趨于碎片化。因此,短文本數(shù)據(jù)在如今的網(wǎng)絡(luò)信息交互中占據(jù)著越來越重要的地位,例如社交網(wǎng)絡(luò)狀態(tài)、微博文本消息、傳統(tǒng)新聞標(biāo)題、短視頻標(biāo)題和問答網(wǎng)站等都是以短文本的形式表達(dá)信息。并且隨著微博、知乎、FaceBook、Twitter等大體量公司的崛起,短文本數(shù)據(jù)也是以極大的速度產(chǎn)生并積累著。因此,針對短文本數(shù)據(jù)的主題模型具有十分重大的價(jià)值,例如輿情分析、信息檢索、個(gè)性化推薦、用戶興趣聚類等都是主題挖掘的應(yīng)用方向。而另一方面,使用傳統(tǒng)的文本挖掘方法來挖掘短文本的主題信息卻存在很大的困難,主要原因是短文本中詞共現(xiàn)信息十分稀疏。為了從短文本中得到更多的特征信息,學(xué)者們提出了各種各樣的改進(jìn)模型,但大部分忽略了詞語間的語義關(guān)系。針對這一問題,本文提出一種基于將語義信息與詞頻信息作為先驗(yàn)知識的詞對主題模型算法,并在此基礎(chǔ)上進(jìn)一步對主題單元的結(jié)構(gòu)展開研究,提出了語義詞三角主題模型。本文的主要工作如下:1)針對傳統(tǒng)的詞對主題模型對不同重要性的詞對都同等看待的問題,本文假設(shè)語義聯(lián)系越緊密的詞語屬于同一個(gè)主題的概率越大。在...
【文章來源】:南京大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1:?PLSA概率圖模型??
?np??圖2-1:?PLSA概率圖模型??由此可知整個(gè)文檔集的生成概率為:??^?n(di,?Wj)P(zk\di)P(wj\zk)?(2-5)??D?W??將上式作為似然函數(shù),即可使用EM算法估算參數(shù)丨而和P(w;_|Z|〇的??值丨氣??相對于LSA而言,PLSA有著堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)基礎(chǔ),結(jié)果的可解釋性更好。??同時(shí)PLSA使用EM算法進(jìn)行參數(shù)估計(jì),相對于奇異值分解在計(jì)算復(fù)雜度上有??了很大程度的降低。但是隨著樣本數(shù)據(jù)的增大,模型參數(shù)仍然會線性增長。并??且由于PLSA完全依賴訓(xùn)練集數(shù)據(jù),面對新加入的文檔時(shí)只能擴(kuò)大訓(xùn)練集重新??訓(xùn)練,因此其泛化性能仍然較差。??2.2.3潛在狄利克雷分布??潛在狄利克雷分布(Latent?Dirichlet?Allocation
合-主題”分布對應(yīng)的狄利克雷分布的超參數(shù),P為“主題-詞語”分布對應(yīng)的??狄利克雷分布的超參數(shù)。則BTM模型的生成過程可表示如下,同時(shí)概率圖模??型如圖2-3所示。??1)
本文編號:3476841
【文章來源】:南京大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1:?PLSA概率圖模型??
?np??圖2-1:?PLSA概率圖模型??由此可知整個(gè)文檔集的生成概率為:??^?n(di,?Wj)P(zk\di)P(wj\zk)?(2-5)??D?W??將上式作為似然函數(shù),即可使用EM算法估算參數(shù)丨而和P(w;_|Z|〇的??值丨氣??相對于LSA而言,PLSA有著堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)基礎(chǔ),結(jié)果的可解釋性更好。??同時(shí)PLSA使用EM算法進(jìn)行參數(shù)估計(jì),相對于奇異值分解在計(jì)算復(fù)雜度上有??了很大程度的降低。但是隨著樣本數(shù)據(jù)的增大,模型參數(shù)仍然會線性增長。并??且由于PLSA完全依賴訓(xùn)練集數(shù)據(jù),面對新加入的文檔時(shí)只能擴(kuò)大訓(xùn)練集重新??訓(xùn)練,因此其泛化性能仍然較差。??2.2.3潛在狄利克雷分布??潛在狄利克雷分布(Latent?Dirichlet?Allocation
合-主題”分布對應(yīng)的狄利克雷分布的超參數(shù),P為“主題-詞語”分布對應(yīng)的??狄利克雷分布的超參數(shù)。則BTM模型的生成過程可表示如下,同時(shí)概率圖模??型如圖2-3所示。??1)
本文編號:3476841
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3476841.html
最近更新
教材專著