天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

融合標簽與短評的豆瓣圖書用戶標注行為分析與主題挖掘

發(fā)布時間:2025-04-11 05:40
  目的隨著互聯(lián)網(wǎng)的快速發(fā)展與普及,社會化標注系統(tǒng)中積累了大量的用戶生成內(nèi)容,為充分利用這些資源,本文融合標簽與評論文本數(shù)據(jù)對用戶標注行為進行分析并對健康類圖書主題進行挖掘,旨在幫助用戶快速了解健康圖書領(lǐng)域,從而準確篩選與定位所需資源,并為社會化標注系統(tǒng)平臺優(yōu)化系統(tǒng)結(jié)構(gòu)與服務(wù)功能提供參考。方法本文運用文獻調(diào)研法在整理相關(guān)文獻資料的基礎(chǔ)上提出本文的研究思路,運用自然語言處理方法對抓取到的社會化標注系統(tǒng)“豆瓣讀書”健康類目下的圖書標簽與短評數(shù)據(jù)進行處理,然后運用統(tǒng)計學(xué)方法對用戶的標簽標注行為與評論標注行為進行分析,并運用LDA主題模型方法對健康類圖書主題進行挖掘。結(jié)果通過分析發(fā)現(xiàn):1.用戶傾向于用字符長度為2~5與名詞、動詞、形容詞這三種詞性的標簽對健康類圖書進行標注。其中名詞使用最多,動詞次之,然后是形容詞;2.短評的情感傾向性與星級評分相關(guān)性顯著,情感傾向性與支持度、星級評分與支持度呈極弱相關(guān);3.健康類圖書主題主要分為12個。結(jié)論通過分析主要得出以下結(jié)論:1.用戶更傾向于使用名詞、動詞詞性標簽標注圖書的書名、作者、主題內(nèi)容、類別以及個人感悟等信息,更傾向于使用形容詞性標簽標注對圖書的評價信...

【文章頁數(shù)】:39 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖1-1本文技術(shù)路線圖

圖1-1本文技術(shù)路線圖

本文的技術(shù)路線如圖1-1所示:1.6主要創(chuàng)新點


圖3-1情感傾向性分析結(jié)果(部分)

圖3-1情感傾向性分析結(jié)果(部分)

本文借助百度自然語言處理平臺中的情感傾向分析技術(shù)對清洗后的短評數(shù)據(jù)進行情感傾向性分析。百度情感傾向分析技術(shù)可自動判斷帶有主觀描述的中文文本的情感極性(分為積極、消極、中性)并給出相應(yīng)的置信度。如圖3-1是部分數(shù)據(jù)的情感傾向性分析結(jié)果,其中“l(fā)og<sub>i</sub>d”為請求....


圖4-1不同主題數(shù)量平均主題余弦相似度

圖4-1不同主題數(shù)量平均主題余弦相似度

將127本圖書的特征詞作為數(shù)據(jù)源利用Python語言的scikit-learn機器學(xué)習(xí)工具中的LDA庫進行主題抽取,LDA主題模型超參數(shù)設(shè)置為α=0.001,β=0.02,Gibbs采樣迭代次數(shù)為200次,對不同主題數(shù)量測試平均主題余弦相似度以找到最優(yōu)主題數(shù)目(圖4-1),一般認....


圖4-2 PyLDAvis主題可視化

圖4-2 PyLDAvis主題可視化

(3)主題之間的關(guān)系:LDAvis的作者通過計算主題之間的JS距離得到主題間距離矩陣,然后通過多維尺度分析,提取出主成分做維度,將主題分布到二維平面上,主題之間的位置遠近就代表了主題之間的接近性[42],此外,氣泡有重疊表示這兩個主題里的主題詞有交叉。圖4-3主題1PyLDAvi....



本文編號:4039594

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/4039594.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7f1b4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com