一種基于PL-LDA模型的主題文本網(wǎng)絡(luò)構(gòu)建方法
發(fā)布時間:2018-06-18 02:08
本文選題:主題模型 + 文本挖掘; 參考:《復(fù)雜系統(tǒng)與復(fù)雜性科學(xué)》2017年01期
【摘要】:Labeled LDA能挖掘出給定主題下的單詞概率分布,但卻無法分析主題詞之間的關(guān)聯(lián)關(guān)系。采用PMI雖可計算兩個單詞的相互關(guān)系,但卻和給定主題失去聯(lián)系。受PMI在窗口中統(tǒng)計詞對共現(xiàn)頻率的啟發(fā),提出了一種PL-LDA(Pointwise Labeled LDA)主題模型,可計算給定主題下詞對的聯(lián)合概率分布,在航空安全報告數(shù)據(jù)集上的實驗表明PL-LDA模型所得結(jié)果具有很好的解釋性。利用PL-LDA構(gòu)建了主題文本網(wǎng)絡(luò),該網(wǎng)絡(luò)除能反映主題詞分布外,還可展現(xiàn)它們之間的復(fù)雜關(guān)聯(lián)關(guān)系。
[Abstract]:Labeled LDA can mine the probability distribution of words under a given topic, but it can not analyze the relationship between the subject words. The PMI can be used to calculate the relationship between two words, but it is not related to a given subject. A PL-LDA-Pointwise Labeled LDA-topic model is proposed to calculate the joint probability distribution of word pairs under a given topic. Experiments on the data set of aviation safety report show that the results of PL-LDA model are well explained. PL-LDA is used to construct a topic text network, which can not only reflect the distribution of theme words, but also show the complex relationship between them.
【作者單位】: 中國民航大學(xué)計算機科學(xué)與技術(shù)學(xué)院;南京航空航天大學(xué)計算機科學(xué)與技術(shù)學(xué)院;
【基金】:國家自然科學(xué)基金(61201414,61301245,U1233113)
【分類號】:TP391.1
,
本文編號:2033531
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2033531.html
最近更新
教材專著