基于大數(shù)據(jù)的熱點輿情發(fā)現(xiàn)與分析系統(tǒng)的設(shè)計與實現(xiàn)
本文選題:大數(shù)據(jù) + Hadoop; 參考:《哈爾濱工業(yè)大學》2017年碩士論文
【摘要】:現(xiàn)實新聞內(nèi)容生產(chǎn)環(huán)境中存在很多瓶頸,制約著新聞內(nèi)容的生產(chǎn)。比如:短期熱點無法捕捉、編輯人力有限、相關(guān)素材難以搜集、對已發(fā)表的報道缺乏合理的反饋機制。媒體需要一個能為他們及時發(fā)現(xiàn)熱點,提供素材支持,追蹤熱點的工具。互聯(lián)網(wǎng)已成為思想文化信息的集散地和社會輿論的放大器,這就使得輿情監(jiān)控對企業(yè)、組織、機構(gòu)而言非常重要。熱點輿情發(fā)現(xiàn)與分析系統(tǒng)使用Hadoop計算平臺分析大數(shù)據(jù)。Hadoop計算平臺主要進行熱點挖據(jù)和輿情分析。熱點挖掘通過對一段時間內(nèi)新聞數(shù)據(jù)進行挖掘,發(fā)現(xiàn)熱點話題。輿情分析,對已挖掘的熱點話題,將評論數(shù)據(jù)和社交數(shù)據(jù)與熱點進行關(guān)聯(lián),通過情感分析、觀點計算和用戶畫像進行輿情分析。所有數(shù)據(jù)使用Hadoop存儲平臺進行存儲,對新聞數(shù)據(jù)建立索引,使用檢索系統(tǒng)提供素材檢索服務(wù)。最終,整個以網(wǎng)頁形式程序呈現(xiàn),為媒體寫作提供熱點發(fā)現(xiàn)與線索管理功能,為企業(yè)、組織、機構(gòu)提供輿情分析和報警功能。系統(tǒng)通過下載平臺從外網(wǎng)進行新聞與評論數(shù)據(jù)和新浪微博數(shù)據(jù)采集,通過內(nèi)網(wǎng)內(nèi)部推送流程進行社交和搜索數(shù)據(jù)采集。然后,系統(tǒng)對新聞數(shù)據(jù)和評論數(shù)據(jù)進行預處理,預處理主要包含地域分類、領(lǐng)域分類、低質(zhì)量過濾、情感分析、站點識別和權(quán)威媒體認證。之后,一份數(shù)據(jù)將存儲到Hadoop集群中被熱點挖據(jù)流程使用,另一份將建立索引存儲,索引數(shù)據(jù)可以被用作輿情分析也可以進行素材檢索。之后,使用算法組件進行熱點挖據(jù)和輿情分析,得到熱點話題和輿情相關(guān)數(shù)據(jù)。算法組件主要包含熱點挖據(jù)、熱詞發(fā)現(xiàn)、情感分析、觀點計算和用戶畫像。前后臺使用Hadoop文件和MySQL數(shù)據(jù)庫,進行數(shù)據(jù)交互。最終,利用網(wǎng)頁形式,根據(jù)不同的業(yè)務(wù)需求呈現(xiàn)數(shù)據(jù)。熱點輿情發(fā)現(xiàn)與分析系統(tǒng)1.0版本已經(jīng)完成人民日報的驗收并獲得肯定。當然,系統(tǒng)還有需要完善的地方。
[Abstract]:There are many bottlenecks in the production environment of news content, which restricts the production of news content. For example, short-term hot spots can not be captured, editors have limited manpower, relevant materials are difficult to collect, and there is no reasonable feedback mechanism for published reports. The media needs a tool to spot hot spots, provide material support, and track hot spots in time. The Internet has become the center of ideological and cultural information and the amplifier of public opinion, which makes monitoring of public opinion very important for enterprises, organizations and institutions. The hot spot public opinion discovery and analysis system uses the Hadoop computing platform to analyze the big data. Hadoop computing platform mainly carries on the hot spot digging and the public opinion analysis. Hot spot mining finds hot topics by mining news data for a period of time. Based on the analysis of public opinion, the comment data and social data are associated with the hot spots, and the public opinion is analyzed through emotional analysis, viewpoint calculation and user portrait. All the data are stored on the Hadoop storage platform, the news data is indexed, and the material retrieval service is provided by the retrieval system. Finally, the whole program is presented in the form of web pages, which provides hot spot discovery and clue management function for media writing, and provides public opinion analysis and alarm function for enterprises, organizations and institutions. The system collects news and comment data and Sina Weibo data from outside network through downloading platform, and social and search data collection through internal push flow of intranet. Then, the system preprocesses the news data and comment data. The preprocessing mainly includes regional classification, domain classification, low-quality filtering, emotional analysis, site identification and authoritative media authentication. After that, one piece of data will be stored in the Hadoop cluster and used by the hot spot collection process, and the other will be indexed. The index data can be used for public opinion analysis or for material retrieval. After that, the algorithm component is used to analyze hot spot and public opinion, and the data of hot topic and public opinion are obtained. The algorithm component mainly includes hot spot data, hot word discovery, emotion analysis, viewpoint calculation and user portrait. The front and back uses the Hadoop file and the MySQL database, carries on the data interaction. Finally, using the form of web pages, according to different business requirements to present the data. Hot public opinion discovery and analysis system version 1. 0 has completed the acceptance of People's Daily and has been confirmed. Of course, the system needs to be improved.
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:G252.7;TP311.13
【參考文獻】
相關(guān)期刊論文 前10條
1 李金海;何有世;熊強;;基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)輿情文本挖掘研究[J];情報雜志;2014年10期
2 蘭月新;董希琳;蘇國強;;公共危機事件網(wǎng)絡(luò)輿情預測問題研究[J];情報科學;2014年04期
3 宮夏屹;李伯虎;柴旭東;谷牧;;大數(shù)據(jù)平臺技術(shù)綜述[J];系統(tǒng)仿真學報;2014年03期
4 唐濤;;基于情報學方法的網(wǎng)絡(luò)輿情監(jiān)測研究[J];情報科學;2014年01期
5 王元卓;靳小龍;程學旗;;網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J];計算機學報;2013年06期
6 劉建;;大數(shù)據(jù)時代的輿情版圖——訪武漢大學信息管理學院教授、輿情研究學者 沈陽[J];人民論壇;2013年15期
7 溫優(yōu)華;;媒介融合背景下學術(shù)期刊信息傳播策略探討[J];編輯之友;2013年05期
8 周白瑜;段春波;于普林;;科技期刊在媒體融合時代面臨的機遇與挑戰(zhàn)[J];編輯之友;2013年04期
9 馮芷艷;郭迅華;曾大軍;陳煜波;陳國青;;大數(shù)據(jù)背景下商務(wù)管理研究若干前沿課題[J];管理科學學報;2013年01期
10 孟小峰;慈祥;;大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J];計算機研究與發(fā)展;2013年01期
相關(guān)博士學位論文 前1條
1 方付建;突發(fā)事件網(wǎng)絡(luò)輿情演變研究[D];華中科技大學;2011年
相關(guān)碩士學位論文 前5條
1 王樹辰;基于海量輿情信息的話題檢測系統(tǒng)的設(shè)計與實現(xiàn)[D];中山大學;2013年
2 宋文婷;中國期刊在三網(wǎng)融合背景下的發(fā)展研究[D];南昌大學;2012年
3 夏虹;“三網(wǎng)融合”背景下的媒介融合研究[D];南昌大學;2012年
4 楊冠超;微博客熱點話題發(fā)現(xiàn)策略研究[D];浙江大學;2011年
5 桑翔;中國媒體融合的現(xiàn)狀、模式和趨勢研究[D];華東師范大學;2009年
,本文編號:1972549
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1972549.html