基于語義擴(kuò)展信息與詞三角的短文本主題模型研究

發(fā)布時(shí)間：2021-11-05 01:58

　　隨著社會發(fā)展節(jié)奏的不斷加快以及智能移動(dòng)終端帶來的“短平快”的用戶體驗(yàn),人們在網(wǎng)絡(luò)上的交流越來越趨于碎片化。因此,短文本數(shù)據(jù)在如今的網(wǎng)絡(luò)信息交互中占據(jù)著越來越重要的地位,例如社交網(wǎng)絡(luò)狀態(tài)、微博文本消息、傳統(tǒng)新聞標(biāo)題、短視頻標(biāo)題和問答網(wǎng)站等都是以短文本的形式表達(dá)信息。并且隨著微博、知乎、FaceBook、Twitter等大體量公司的崛起,短文本數(shù)據(jù)也是以極大的速度產(chǎn)生并積累著。因此,針對短文本數(shù)據(jù)的主題模型具有十分重大的價(jià)值,例如輿情分析、信息檢索、個(gè)性化推薦、用戶興趣聚類等都是主題挖掘的應(yīng)用方向。而另一方面,使用傳統(tǒng)的文本挖掘方法來挖掘短文本的主題信息卻存在很大的困難,主要原因是短文本中詞共現(xiàn)信息十分稀疏。為了從短文本中得到更多的特征信息,學(xué)者們提出了各種各樣的改進(jìn)模型,但大部分忽略了詞語間的語義關(guān)系。針對這一問題,本文提出一種基于將語義信息與詞頻信息作為先驗(yàn)知識的詞對主題模型算法,并在此基礎(chǔ)上進(jìn)一步對主題單元的結(jié)構(gòu)展開研究,提出了語義詞三角主題模型。本文的主要工作如下:1)針對傳統(tǒng)的詞對主題模型對不同重要性的詞對都同等看待的問題,本文假設(shè)語義聯(lián)系越緊密的詞語屬于同一個(gè)主題的概率越大。在...

【文章來源】：南京大學(xué)江蘇省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：73 頁

【學(xué)位級別】：碩士

【部分圖文】：

圖２－１：?ＰＬＳＡ概率圖模型??

模型圖,概率圖,模型,訓(xùn)練集

?ｎｐ??圖２－１：?ＰＬＳＡ概率圖模型??由此可知整個(gè)文檔集的生成概率為：??＾?ｎ（ｄｉ，?Ｗｊ）Ｐ（ｚｋ＼ｄｉ）Ｐ（ｗｊ＼ｚｋ）?（２－５）??Ｄ?Ｗ??將上式作為似然函數(shù)，即可使用ＥＭ算法估算參數(shù)丨而和Ｐ（ｗ；＿｜Ｚ｜〇的??值丨氣??相對于ＬＳＡ而言，ＰＬＳＡ有著堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)基礎(chǔ)，結(jié)果的可解釋性更好。??同時(shí)ＰＬＳＡ使用ＥＭ算法進(jìn)行參數(shù)估計(jì)，相對于奇異值分解在計(jì)算復(fù)雜度上有??了很大程度的降低。但是隨著樣本數(shù)據(jù)的增大，模型參數(shù)仍然會線性增長。并??且由于ＰＬＳＡ完全依賴訓(xùn)練集數(shù)據(jù)，面對新加入的文檔時(shí)只能擴(kuò)大訓(xùn)練集重新??訓(xùn)練，因此其泛化性能仍然較差。??２．２．３潛在狄利克雷分布??潛在狄利克雷分布（Ｌａｔｅｎｔ?Ｄｉｒｉｃｈｌｅｔ?Ａｌｌｏｃａｔｉｏｎ

模型圖,概率圖,超參數(shù),模型

合－主題”分布對應(yīng)的狄利克雷分布的超參數(shù)，Ｐ為“主題－詞語”分布對應(yīng)的??狄利克雷分布的超參數(shù)。則ＢＴＭ模型的生成過程可表示如下，同時(shí)概率圖模??型如圖２－３所示。??１）

本文編號：3476841

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3476841.html

上一篇：基于Pro/E的三維布線設(shè)計(jì)關(guān)鍵技術(shù)及干涉檢查研究
下一篇：引力場優(yōu)化算法的并行及優(yōu)化研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于語義擴(kuò)展信息與詞三角的短文本主題模型研究