基于k-means聚類和TF-IDF的新浪微博輿情分析
本文關(guān)鍵詞:基于k-means聚類和TF-IDF的新浪微博輿情分析 出處:《遼寧科技大學(xué)》2016年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲 輿情 聚類 自然語言處理
【摘要】:現(xiàn)如今的人們正處在一個信息爆炸的時代,人是信息的傳播者更是信息的制造者。過去,主要的信息傳播工具是報紙、電視等,但是在今天,人們已經(jīng)被新媒體所包圍。新媒體的新不僅僅是通信手段的新,更重要的是,它改變了普通群眾在社會輿論中的位置。人們可以通過在貼吧、論壇、微博的方式提出觀點、發(fā)表意見。傳統(tǒng)的信息獲取渠道通常是報紙或者是社會的一些主流媒體。這些媒體有很好的客觀性,但是卻不能在第一時間將信息傳遞給大眾。對于貼吧、論壇或微博來說,它既可以相對保證客觀性的同時又有很好的實時性。為此輿情系統(tǒng)應(yīng)運而生。它以Web信息作為輸入,信息處理后的結(jié)果反映了大眾對各種事件的態(tài)度,是政府和企業(yè)了解民意的重要渠道。微博輿情系統(tǒng)是現(xiàn)如今比較流行也是比較實用的系統(tǒng)。它以微博數(shù)據(jù)為基礎(chǔ),利用接口或者自行開發(fā)的爬蟲程序抓取信息。通過自然語言處理以及機器學(xué)習(xí)技術(shù)對數(shù)據(jù)處理,得到數(shù)據(jù)中隱藏的信息。最終分析得到的信息,獲取大眾的輿情觀點。本系統(tǒng)實現(xiàn)步驟大致如下。(1)通過自行編寫網(wǎng)絡(luò)爬蟲程序,完成微博數(shù)據(jù)的實時采集。(2)通過simhash算法對原始文本進行去重操作。(3)利用中文分詞、去停用詞操作對文本進行粗加工。(4)使用改進后的k-means聚類算法為文本集合進行聚類操作。(5)利用特征抽取的方式抽取關(guān)鍵詞。(6)結(jié)合情感詞典完成微博輿情操作。本系統(tǒng)提出了:(1)通過懲罰值改進的k-means聚類算法。(2)利用聚類劃分微博話題,通過特征抽取方式在話題中得到關(guān)鍵詞。通過實驗得到了比較理想的效果,表明了本方法的有效性。
[Abstract]:The present system is based on micro blog data , and it changes the position of public opinion .
【學(xué)位授予單位】:遼寧科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1;TP393.092
【相似文獻】
相關(guān)期刊論文 前10條
1 梁麗雯;;網(wǎng)絡(luò)輿情分析師或成就業(yè)香餑餑[J];金融科技時代;2014年01期
2 ;做好輿情分析是有效引導(dǎo)的前提[J];中國記者;2001年03期
3 楊玫;;輿情分析:圖書館為領(lǐng)導(dǎo)決策服務(wù)的新探索[J];圖書館論壇;2006年05期
4 宋占茹;;圖書館開展網(wǎng)絡(luò)輿情分析工作初探[J];情報探索;2010年08期
5 何順蘭;王興起;胡宏宇;姜明;;多媒體輿情分析系統(tǒng)設(shè)計與研究[J];杭州電子科技大學(xué)學(xué)報;2010年05期
6 顏建華;劉巖;傅黎犁;劉亞民;;基于網(wǎng)絡(luò)的輿情分析系統(tǒng)及其應(yīng)用研究[J];醫(yī)學(xué)信息學(xué)雜志;2011年08期
7 侯文昌;;傳媒新角色—輿情分析師的專業(yè)素養(yǎng) “朝陽職業(yè)”四年成長史[J];中國記者;2011年09期
8 劉鵬飛;;“尋路”輿情分析師:一些心得,幾點忠告[J];中國記者;2011年09期
9 劉巖;傅黎犁;顏建華;;醫(yī)學(xué)情報研究機構(gòu)開展輿情分析服務(wù)的實踐[J];中華醫(yī)學(xué)圖書情報雜志;2012年01期
10 曹勁松;;政府形象傳播的輿情分析[J];江海學(xué)刊;2012年03期
相關(guān)會議論文 前4條
1 宋占茹;;圖書館網(wǎng)絡(luò)輿情分析工作新探[A];華北地區(qū)高校圖協(xié)第二十四屆學(xué)術(shù)年會論文(文章)匯編[C];2010年
2 何順蘭;王興起;胡宏宇;姜明;;多媒體輿情分析系統(tǒng)設(shè)計與研究[A];浙江省電子學(xué)會2010學(xué)術(shù)年會論文集[C];2010年
3 孫江;;天津薊縣萊德商廈火災(zāi)信息發(fā)布、媒體報道及網(wǎng)絡(luò)輿情分析[A];2013中國消防協(xié)會科學(xué)技術(shù)年會論文集[C];2013年
4 梁飛;呂洪波;姚錦峰;;輿情分析中語料庫降維[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
相關(guān)重要報紙文章 前10條
1 本報記者 降蘊彰;輿情分析師來了[N];經(jīng)濟觀察報;2013年
2 福建三明學(xué)院 鄭祥專;教育輿情分析須堅持“四性”[N];中國教育報;2009年
3 記者 王慶華;克旗全面啟動法律援助輿情分析工作[N];赤峰日報;2010年
4 本報記者 傅江平;輿情分析為食品安全監(jiān)管提供支撐[N];中國質(zhì)量報;2012年
5 記者 馬獻忠;“段子文化的輿情分析”課題結(jié)項[N];中國社會科學(xué)報;2011年
6 本報記者 孫艷敏;網(wǎng)絡(luò)輿情分析師:不只是替領(lǐng)導(dǎo)看看網(wǎng)[N];檢察日報;2013年
7 記者 魏志強 通訊員 杜勝輝;青工的心情 團委的事情[N];中國石油報;2010年
8 楊麗娟 張音;走近網(wǎng)絡(luò)輿情分析師[N];人民日報;2011年
9 于雅倩 本報記者 王寧;身邊煩惱有地兒說[N];丹東日報;2009年
10 趙強;回應(yīng)輿論關(guān)切 怎能語焉不詳[N];人民日報;2014年
相關(guān)博士學(xué)位論文 前1條
1 馮時;面向網(wǎng)絡(luò)輿情分析的觀點挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 姜朋;山東大學(xué)輿情分析系統(tǒng)的設(shè)計與實現(xiàn)[D];山東大學(xué);2015年
2 唐霞;Hadoop調(diào)度器優(yōu)化及其在輿情分析中的應(yīng)用[D];北京化工大學(xué);2015年
3 馮佳明;深度詞匯網(wǎng)絡(luò)學(xué)習(xí)輿情監(jiān)測關(guān)鍵技術(shù)的研究[D];北京化工大學(xué);2015年
4 王曄;面向輿情分析的skyline查詢技術(shù)研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2013年
5 馬梅;基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型研究[D];西安電子科技大學(xué);2014年
6 高衛(wèi)民;城市公安網(wǎng)絡(luò)輿情分析系統(tǒng)的設(shè)計與開發(fā)[D];天津大學(xué);2014年
7 黃斯琪;基于微博平臺的社交網(wǎng)絡(luò)輿情分析方法[D];南京郵電大學(xué);2015年
8 羅晶;校園輿情分析中的意見挖掘技術(shù)研究[D];東南大學(xué);2015年
9 梁超君;大數(shù)據(jù)背景下G政府輿情分析應(yīng)用研究[D];廣東工業(yè)大學(xué);2016年
10 譚造樂;基于Spark的輿情分析架構(gòu)研究[D];廣東工業(yè)大學(xué);2016年
,本文編號:1369997
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1369997.html