基于微博的輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:基于網(wǎng)站內(nèi)容框架的聚焦爬蟲算法的優(yōu)化和實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
《河北科技大學(xué)》 2015年
基于微博的輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
范新梅
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,越來越多的人愿意通過網(wǎng)絡(luò)來表達(dá)自己的思想、情緒和態(tài)度。微博作為網(wǎng)絡(luò)新媒體的代表之一,逐漸成為網(wǎng)民信息分享、傳播以及獲取的平臺(tái);ヂ(lián)網(wǎng)上每天都會(huì)產(chǎn)生數(shù)以億計(jì)的博文,博文實(shí)時(shí)性強(qiáng)、內(nèi)容豐富,其蘊(yùn)含知識(shí)的發(fā)現(xiàn)、分析和處理越發(fā)重要和困難。如何及時(shí)獲取并有效分析和挖掘其中的信息,成為一個(gè)重要的研究課題。本論文結(jié)合新浪微博的文本特點(diǎn),設(shè)計(jì)了新浪微博輿情分析系統(tǒng)。首先從互聯(lián)網(wǎng)上抓取微博數(shù)據(jù)并進(jìn)行預(yù)處理,然后進(jìn)行了基于主題的微博文本分類算法的研究,最后進(jìn)行了微博文本聚類算法研究。主要研究工作如下:1)基于主題的微博數(shù)據(jù)采集與預(yù)處理。通過面向新浪微博的主題爬蟲程序,從互聯(lián)網(wǎng)上抓取特定主題的微博數(shù)據(jù),進(jìn)行相應(yīng)處理后存儲(chǔ)到數(shù)據(jù)庫(kù)中。然后使用數(shù)據(jù)處理工具對(duì)微博數(shù)據(jù)進(jìn)行預(yù)處理,其中包括特定主題微博的數(shù)據(jù)采樣、中文文本處理、中文分詞、詞頻矩陣降維處理。2)基于主題的微博文本分類算法分析。通過中文文本自動(dòng)分類算法對(duì)微博數(shù)據(jù)進(jìn)行分類,實(shí)驗(yàn)采用目前流行的幾種分類算法(KNN,決策樹,隨機(jī)森林)對(duì)微博數(shù)據(jù)進(jìn)行分類效果評(píng)估與分析。3)基于K-Means的微博文本聚類算法分析。實(shí)驗(yàn)采用K-Means算法對(duì)微博數(shù)據(jù)進(jìn)行了聚類并對(duì)聚類結(jié)果進(jìn)行評(píng)估與分析。實(shí)驗(yàn)證明微博文本分析算法的研究在科學(xué)研究以及社會(huì)應(yīng)用領(lǐng)域都具有一定的價(jià)值。論文最后也對(duì)存在的問題及下一步的研發(fā)工作進(jìn)行了說明。
【關(guān)鍵詞】:
【學(xué)位授予單位】:河北科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 羅洋;;一種基于雙哈希二叉樹的中文分詞詞典機(jī)制[J];計(jì)算機(jī)應(yīng)用與軟件;2013年05期
2 鄭曉剛;韓立新;白書奎;曾曉勤;;一種組合型中文分詞方法[J];計(jì)算機(jī)應(yīng)用與軟件;2012年07期
3 金春霞;周海巖;;位置加權(quán)文本聚類算法[J];計(jì)算機(jī)工程與科學(xué);2011年06期
4 魏博誠(chéng);王愛平;沙先軍;王永;;一種消除中文分詞中交集型歧義的方法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年05期
5 奉國(guó)和;鄭偉;;國(guó)內(nèi)中文自動(dòng)分詞技術(shù)研究綜述[J];圖書情報(bào)工作;2011年02期
6 趙妍妍;秦兵;劉挺;;文本情感分析[J];軟件學(xué)報(bào);2010年08期
7 黃德根;焦世斗;周惠巍;;基于子詞的雙層CRFs中文分詞[J];計(jì)算機(jī)研究與發(fā)展;2010年05期
8 張敏;王春紅;;基于統(tǒng)計(jì)方法的Web新詞分詞方法研究[J];計(jì)算機(jī)工程與科學(xué);2010年05期
9 朱會(huì)峰;左萬利;赫楓齡;彭濤;紀(jì)文彥;;一種基于本體的文本聚類方法[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2010年02期
10 朱聰慧;趙鐵軍;鄭德權(quán);;基于無向圖序列標(biāo)注模型的中文分詞詞性標(biāo)注一體化系統(tǒng)[J];電子與信息學(xué)報(bào);2010年03期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 安歡;中文文本自動(dòng)分類技術(shù)的研究與改進(jìn)[D];北京交通大學(xué);2014年
2 沈琳;基于微博文本的話題聚類研究與實(shí)現(xiàn)[D];河北科技大學(xué);2014年
3 周二亮;微博短文本情感分析關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];河北科技大學(xué);2014年
4 胡璇;基于文本聚類的微博信息分析的研究[D];武漢理工大學(xué);2014年
5 李妍;微博數(shù)據(jù)預(yù)處理及話題檢測(cè)方法研究[D];河北師范大學(xué);2014年
6 紀(jì)偉;微博數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];河北科技大學(xué);2013年
7 單月光;基于微博的網(wǎng)絡(luò)輿情關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2013年
8 王艷閣;主題微博爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[D];中原工學(xué)院;2013年
9 王政霄;基于微博的熱點(diǎn)事件挖掘與情感分析[D];上海交通大學(xué);2013年
10 董晨曦;基于網(wǎng)站內(nèi)容框架的聚焦爬蟲算法的優(yōu)化和實(shí)現(xiàn)[D];北京交通大學(xué);2012年
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 胡芳;冷伏海;;評(píng)論挖掘在情報(bào)分析中的應(yīng)用框架研究[J];情報(bào)科學(xué);2016年05期
2 王新宇;;基于情感詞典與機(jī)器學(xué)習(xí)的旅游網(wǎng)絡(luò)評(píng)價(jià)情感分析研究[J];計(jì)算機(jī)與數(shù)字工程;2016年04期
3 張建華;肖中正;;結(jié)合詞性規(guī)則和依存句法分析的評(píng)價(jià)對(duì)象抽取方法[J];計(jì)算機(jī)與現(xiàn)代化;2016年04期
4 楊進(jìn)才;陳忠忠;謝芳;胡金柱;;基于漢語拼音首字母索引的混合分詞算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2016年04期
5 伊馬木·達(dá)吾提;何炎祥;劉續(xù)樂;;基于主謂情感差異性句法分析框架的跨語言情感分析[J];小型微型計(jì)算機(jī)系統(tǒng);2016年03期
6 薛益定;;中文情感分析研究綜述[J];電腦編程技巧與維護(hù);2016年05期
7 楊躍東;魯欣正;;國(guó)家教育考試網(wǎng)上有害信息自動(dòng)監(jiān)測(cè)模型研究[J];中國(guó)考試;2016年03期
8 楊宇婷;王名揚(yáng);田憲允;李鵬宇;;基于文檔分布式表達(dá)的新浪微博情感分類研究[J];情報(bào)雜志;2016年02期
9 鄭誠(chéng);沈磊;代寧;;基于類序列規(guī)則的中文微博情感分類[J];計(jì)算機(jī)工程;2016年02期
10 張寧;朱禮軍;;中文問答系統(tǒng)問句分析研究綜述[J];情報(bào)工程;2016年01期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 李思雨;微博熱點(diǎn)話題情感計(jì)算技術(shù)研究與實(shí)現(xiàn)[D];河北科技大學(xué);2015年
2 范新梅;基于微博的輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];河北科技大學(xué);2015年
3 靳旭東;基于社會(huì)網(wǎng)絡(luò)分析下文本挖掘的微博營(yíng)銷[D];蘭州財(cái)經(jīng)大學(xué);2015年
4 王偉;基于Hadoop的微博熱點(diǎn)信息的聚類提取應(yīng)用研究[D];內(nèi)蒙古農(nóng)業(yè)大學(xué);2015年
5 謝黎黎;基于主題模型的微博話題檢測(cè)與跟蹤研究[D];中南林業(yè)科技大學(xué);2015年
6 趙秀秀;微博事件的實(shí)時(shí)監(jiān)控及早期擴(kuò)散預(yù)測(cè)模型研究[D];山東財(cái)經(jīng)大學(xué);2015年
7 占桓;社交網(wǎng)絡(luò)營(yíng)銷效果追蹤研究[D];福建師范大學(xué);2015年
8 李璀;網(wǎng)絡(luò)輿情檢索分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];河南師范大學(xué);2015年
9 蘇增才;基于word2vec和SVMperf的網(wǎng)絡(luò)中文文本評(píng)論信息情感分類研究[D];河北科技大學(xué);2015年
10 付志鴻;基于Storm云平臺(tái)的分布式網(wǎng)絡(luò)爬蟲技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 姚繼偉;趙東范;;基于短語匹配的中文分詞消歧方法[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2010年03期
2 許厚金;劉永炎;鄧成玉;劉永山;;基于相似中心的k-cmeans文本聚類算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年08期
3 唐果;陳宏剛;;基于BBS熱點(diǎn)主題發(fā)現(xiàn)的文本聚類方法[J];計(jì)算機(jī)工程;2010年07期
4 王小芳;王瑞芳;張樹功;;一種無監(jiān)督文本特征計(jì)算模型[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2010年01期
5 張長(zhǎng)勝;孫吉貴;崔妍;楊鳳芹;;一種基于PSO的分割聚類算法[J];吉林大學(xué)學(xué)報(bào)(工學(xué)版);2008年06期
6 周立柱;賀宇凱;王建勇;;情感分析研究綜述[J];計(jì)算機(jī)應(yīng)用;2008年11期
7 劉海峰;王元元;張學(xué)仁;姚澤清;;文本分類中基于位置和類別信息的一種特征降維方法[J];計(jì)算機(jī)應(yīng)用研究;2008年08期
8 姚天昉;程希文;徐飛玉;漢思·烏思克爾特;王睿;;文本意見挖掘綜述[J];中文信息學(xué)報(bào);2008年03期
9 陳平;劉曉霞;李亞軍;;基于字典和統(tǒng)計(jì)的分詞方法[J];計(jì)算機(jī)工程與應(yīng)用;2008年10期
10 姚興山;;基于Hash算法的中文分詞研究[J];現(xiàn)代圖書情報(bào)技術(shù);2008年03期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 劉邵博;社會(huì)網(wǎng)絡(luò)新媒體的信息獲取與情感分類關(guān)鍵技術(shù)研究及實(shí)現(xiàn)[D];河北科技大學(xué);2013年
2 邱洋;微博數(shù)據(jù)提取及話題檢測(cè)方法研究[D];大連理工大學(xué);2013年
3 劉潔;基于GeM模型的微博語篇結(jié)構(gòu)研究[D];杭州師范大學(xué);2013年
4 王鴻飛;基于條件隨機(jī)場(chǎng)的中文微博情感分析研究[D];廣東工業(yè)大學(xué);2013年
5 尹杰;基于用戶分析的微博信息過濾研究[D];大連理工大學(xué);2013年
6 王廣新;基于微博的用戶興趣分析與個(gè)性化信息推薦[D];上海交通大學(xué);2013年
7 王政霄;基于微博的熱點(diǎn)事件挖掘與情感分析[D];上海交通大學(xué);2013年
8 尹子斌;基于微博用戶行為的數(shù)學(xué)建模和數(shù)據(jù)分析[D];上海交通大學(xué);2013年
9 羅熹;基于新浪微博的移動(dòng)社交網(wǎng)絡(luò)復(fù)雜特性研究[D];武漢理工大學(xué);2012年
10 董晨曦;基于網(wǎng)站內(nèi)容框架的聚焦爬蟲算法的優(yōu)化和實(shí)現(xiàn)[D];北京交通大學(xué);2012年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 龔靜;李英杰;;文本聚類算法的分析與比較[J];湖南環(huán)境生物職業(yè)技術(shù)學(xué)院學(xué)報(bào);2006年03期
2 李眾;梁志劍;;一種改進(jìn)的文本聚類算法[J];陜西科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年06期
3 甘克勤;叢超;張寶林;孫旭凱;;基于劃分的文本聚類算法在標(biāo)準(zhǔn)文獻(xiàn)中的試驗(yàn)與對(duì)比研究[J];標(biāo)準(zhǔn)科學(xué);2013年10期
4 莫紫娟;;試論短文本聚類算法在微博的應(yīng)用[J];科技致富向?qū)?2014年09期
5 史夢(mèng)潔;;文本聚類算法綜述[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2014年03期
6 張書敏;;短文本聚類算法研究[J];科技致富向?qū)?2013年09期
7 朱君;曲超;湯庸;;利用單詞超團(tuán)的二分圖文本聚類算法[J];電子科技大學(xué)學(xué)報(bào);2008年03期
8 石曉敬;韓燮;;文本聚類算法的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年09期
9 殷風(fēng)景;肖衛(wèi)東;葛斌;李芳芳;;一種面向網(wǎng)絡(luò)話題發(fā)現(xiàn)的增量文本聚類算法[J];計(jì)算機(jī)應(yīng)用研究;2011年01期
10 李巖;婁云;;文本聚類算法在輿情監(jiān)控中的應(yīng)用分析[J];電子設(shè)計(jì)工程;2013年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 蔡嘉榮;印鑒;劉玉葆;黃志蘭;;一種有效的文本聚類算法[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 范新梅;基于微博的輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];河北科技大學(xué);2015年
2 馬文超;基于2度頻繁詞序列的文本聚類算法研究[D];河南大學(xué);2009年
3 劉龍海;基于成對(duì)約束的半監(jiān)督文本聚類算法研究[D];重慶大學(xué);2011年
4 黃文江;中文文本聚類算法分析與研究[D];上海交通大學(xué);2010年
5 潘啟蒙;文本聚類算法的研究與實(shí)現(xiàn)[D];吉林大學(xué);2008年
6 郭增新;基于語義的文本聚類算法研究[D];西安電子科技大學(xué);2012年
7 高利波;文本聚類算法的研究及應(yīng)用[D];電子科技大學(xué);2013年
8 馬素琴;基于相似度的文本聚類算法研究及應(yīng)用[D];江蘇大學(xué);2010年
9 翟獻(xiàn)民;維吾爾語文本聚類算法研究[D];新疆大學(xué);2013年
10 馮曉云;基于云計(jì)算的文本聚類算法研究[D];南京理工大學(xué);2014年
本文關(guān)鍵詞:基于網(wǎng)站內(nèi)容框架的聚焦爬蟲算法的優(yōu)化和實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):130170
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/130170.html