融合標(biāo)簽與短評(píng)的豆瓣圖書用戶標(biāo)注行為分析與主題挖掘
【文章頁(yè)數(shù)】:39 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1本文技術(shù)路線圖
本文的技術(shù)路線如圖1-1所示:1.6主要?jiǎng)?chuàng)新點(diǎn)
圖3-1情感傾向性分析結(jié)果(部分)
本文借助百度自然語(yǔ)言處理平臺(tái)中的情感傾向分析技術(shù)對(duì)清洗后的短評(píng)數(shù)據(jù)進(jìn)行情感傾向性分析。百度情感傾向分析技術(shù)可自動(dòng)判斷帶有主觀描述的中文文本的情感極性(分為積極、消極、中性)并給出相應(yīng)的置信度。如圖3-1是部分?jǐn)?shù)據(jù)的情感傾向性分析結(jié)果,其中“l(fā)og<sub>i</sub>d”為請(qǐng)求....
圖4-1不同主題數(shù)量平均主題余弦相似度
將127本圖書的特征詞作為數(shù)據(jù)源利用Python語(yǔ)言的scikit-learn機(jī)器學(xué)習(xí)工具中的LDA庫(kù)進(jìn)行主題抽取,LDA主題模型超參數(shù)設(shè)置為α=0.001,β=0.02,Gibbs采樣迭代次數(shù)為200次,對(duì)不同主題數(shù)量測(cè)試平均主題余弦相似度以找到最優(yōu)主題數(shù)目(圖4-1),一般認(rèn)....
圖4-2 PyLDAvis主題可視化
(3)主題之間的關(guān)系:LDAvis的作者通過(guò)計(jì)算主題之間的JS距離得到主題間距離矩陣,然后通過(guò)多維尺度分析,提取出主成分做維度,將主題分布到二維平面上,主題之間的位置遠(yuǎn)近就代表了主題之間的接近性[42],此外,氣泡有重疊表示這兩個(gè)主題里的主題詞有交叉。圖4-3主題1PyLDAvi....
本文編號(hào):4039594
本文鏈接:http://sikaile.net/tushudanganlunwen/4039594.html
下一篇:沒(méi)有了