融合標簽與短評的豆瓣圖書用戶標注行為分析與主題挖掘
發(fā)布時間:2025-04-11 05:40
目的隨著互聯(lián)網(wǎng)的快速發(fā)展與普及,社會化標注系統(tǒng)中積累了大量的用戶生成內(nèi)容,為充分利用這些資源,本文融合標簽與評論文本數(shù)據(jù)對用戶標注行為進行分析并對健康類圖書主題進行挖掘,旨在幫助用戶快速了解健康圖書領(lǐng)域,從而準確篩選與定位所需資源,并為社會化標注系統(tǒng)平臺優(yōu)化系統(tǒng)結(jié)構(gòu)與服務(wù)功能提供參考。方法本文運用文獻調(diào)研法在整理相關(guān)文獻資料的基礎(chǔ)上提出本文的研究思路,運用自然語言處理方法對抓取到的社會化標注系統(tǒng)“豆瓣讀書”健康類目下的圖書標簽與短評數(shù)據(jù)進行處理,然后運用統(tǒng)計學(xué)方法對用戶的標簽標注行為與評論標注行為進行分析,并運用LDA主題模型方法對健康類圖書主題進行挖掘。結(jié)果通過分析發(fā)現(xiàn):1.用戶傾向于用字符長度為2~5與名詞、動詞、形容詞這三種詞性的標簽對健康類圖書進行標注。其中名詞使用最多,動詞次之,然后是形容詞;2.短評的情感傾向性與星級評分相關(guān)性顯著,情感傾向性與支持度、星級評分與支持度呈極弱相關(guān);3.健康類圖書主題主要分為12個。結(jié)論通過分析主要得出以下結(jié)論:1.用戶更傾向于使用名詞、動詞詞性標簽標注圖書的書名、作者、主題內(nèi)容、類別以及個人感悟等信息,更傾向于使用形容詞性標簽標注對圖書的評價信...
【文章頁數(shù)】:39 頁
【學(xué)位級別】:碩士
【部分圖文】:
本文編號:4039594
【文章頁數(shù)】:39 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1本文技術(shù)路線圖
本文的技術(shù)路線如圖1-1所示:1.6主要創(chuàng)新點
圖3-1情感傾向性分析結(jié)果(部分)
本文借助百度自然語言處理平臺中的情感傾向分析技術(shù)對清洗后的短評數(shù)據(jù)進行情感傾向性分析。百度情感傾向分析技術(shù)可自動判斷帶有主觀描述的中文文本的情感極性(分為積極、消極、中性)并給出相應(yīng)的置信度。如圖3-1是部分數(shù)據(jù)的情感傾向性分析結(jié)果,其中“l(fā)og<sub>i</sub>d”為請求....
圖4-1不同主題數(shù)量平均主題余弦相似度
將127本圖書的特征詞作為數(shù)據(jù)源利用Python語言的scikit-learn機器學(xué)習(xí)工具中的LDA庫進行主題抽取,LDA主題模型超參數(shù)設(shè)置為α=0.001,β=0.02,Gibbs采樣迭代次數(shù)為200次,對不同主題數(shù)量測試平均主題余弦相似度以找到最優(yōu)主題數(shù)目(圖4-1),一般認....
圖4-2 PyLDAvis主題可視化
(3)主題之間的關(guān)系:LDAvis的作者通過計算主題之間的JS距離得到主題間距離矩陣,然后通過多維尺度分析,提取出主成分做維度,將主題分布到二維平面上,主題之間的位置遠近就代表了主題之間的接近性[42],此外,氣泡有重疊表示這兩個主題里的主題詞有交叉。圖4-3主題1PyLDAvi....
本文編號:4039594
本文鏈接:http://sikaile.net/tushudanganlunwen/4039594.html
上一篇:大學(xué)生信息素養(yǎng)現(xiàn)狀調(diào)查分析與研究
下一篇:沒有了
下一篇:沒有了
教材專著