基于短文本聚類的網(wǎng)絡(luò)輿情數(shù)據(jù)分析
【文章頁數(shù)】:53 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1移動互聯(lián)網(wǎng)接入流量在Web1.0時代,公眾通過兩種方式獲取信息:靜態(tài)瀏覽和單向閱讀
1.1研究背景及意義輿論在互聯(lián)網(wǎng)中的含義是指,人們對于社會中的各種現(xiàn)象和問題所持有的信念、態(tài)度、觀點和情感,通過網(wǎng)絡(luò)表達(dá)的總和。它可以對社會發(fā)展和相關(guān)過程產(chǎn)生影響,并與理性和非理性因素相結(jié)合。武漢大學(xué)媒體發(fā)展研究中心與社會科學(xué)文獻(xiàn)出版社共同發(fā)布“傳播創(chuàng)新藍(lán)皮書”,中國傳播創(chuàng)新研....
圖4-2本次實驗生成的voca.txt的部分截圖
2w3……N-1wn表4-2doc_wids.txt的輸入格式dWW……WndWW……WndWW……Wn……dmWmWm……Wmnm利用VS2015開發(fā)工具編寫代碼處理數(shù)據(jù)集,生成的兩個文檔:voca.txt、doc_wids.....
圖4-3本次實驗生成的docwids.txt的部分截圖
圖4-3本次實驗生成的doc_wids.txt的部分截圖4.3.2改進(jìn)的TF-IDF算法TF-IDF權(quán)重算法作為一種無監(jiān)督的統(tǒng)計方法[44],它雖然可以發(fā)現(xiàn)文本中某一詞語的重要性,但是由于沒有考慮權(quán)重以及詞語歧義的影響,理論支撐不夠。因此,科研學(xué)者們?yōu)榱俗孴F-....
圖4-4實驗項目圖
圖4-4實驗項目圖4.4.4實驗結(jié)果.4.4.1改進(jìn)的TF-IDF與TF-IDF的F值本實驗采用的聚類評價指標(biāo)是F-measure值,其值越大,聚類效果越好。通過圖4-可知,改進(jìn)的TF-IDF算法相較于傳統(tǒng)的方法而言,話題聚類效果的F值有明顯的....
本文編號:3958968
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3958968.html