天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于校園網(wǎng)流量的輿情熱詞提取及分類研究

發(fā)布時(shí)間:2020-07-22 02:55
【摘要】:隨著校園網(wǎng)的迅猛發(fā)展,高校校園網(wǎng)絡(luò)輿情逐漸成為人們關(guān)注的熱點(diǎn)。普通的社會輿情關(guān)注公眾對社會事件的態(tài)度和意見,很難定位到具體的比如高校這樣一個(gè)具體的物理區(qū)域。基于校園網(wǎng)流量的輿情熱詞提取可在海量的網(wǎng)絡(luò)信息中及時(shí)發(fā)現(xiàn)校園輿論熱點(diǎn)和師生對公眾事件的情緒、態(tài)度,對提升高校管理,建設(shè)和諧校園具有重要意義。基于校園網(wǎng)流量的輿情熱詞提取及分類需要解決網(wǎng)絡(luò)流量采集歸檔,基于網(wǎng)絡(luò)流量的輿情原始數(shù)據(jù)的恢復(fù)和重構(gòu),輿情熱詞提取和分類等問題。本文的主要研究內(nèi)容有以下幾個(gè)方面:(1)網(wǎng)絡(luò)流量采集歸檔方面,使用開源網(wǎng)絡(luò)流量采集工具Bro實(shí)現(xiàn)了對湖北大學(xué)校園網(wǎng)流量的采集,解決了高速實(shí)時(shí)IPv4IPv6網(wǎng)絡(luò)數(shù)據(jù)流量采集問題,并實(shí)現(xiàn)了對海量網(wǎng)絡(luò)流量大數(shù)據(jù)的存儲歸檔。(2)輿情原始數(shù)據(jù)的恢復(fù)和重構(gòu)方面,HTTP頁面根據(jù)Bro端直接恢復(fù),HTTPS頁面數(shù)據(jù)采用通用的爬蟲應(yīng)用框架Scrapy實(shí)現(xiàn)了對HTTPS網(wǎng)頁的恢復(fù)和爬取,對HTTPS頁面和HTTP頁面的進(jìn)行了統(tǒng)一的合并和重建。(3)輿情熱詞提取及分類方面,對網(wǎng)頁正文進(jìn)行了提取、去重、分詞、關(guān)鍵詞提取、分類等處理,并改進(jìn)了正文提取算法,最后通過校園網(wǎng)流量分析系統(tǒng)進(jìn)行展示。(4)參與設(shè)計(jì)并實(shí)現(xiàn)了一套校園網(wǎng)流量分析系統(tǒng),并對采集的網(wǎng)絡(luò)流量進(jìn)行了分類、輿情數(shù)據(jù)重構(gòu)、輿情熱詞提取。
【學(xué)位授予單位】:湖北大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP391.1;TP393.18
【圖文】:

流量采集系統(tǒng),流量,核心交換機(jī),采集系統(tǒng)


流敦析展充逡逑圖2-3流量采集系統(tǒng)部署逡逑如圖2-3所示,IPv4和IPv6的流量通過核心交換機(jī)以端口鏡像的方式采集到流量逡逑采集系統(tǒng)。采集系統(tǒng)提供數(shù)據(jù)接口,經(jīng)過IPv4網(wǎng)絡(luò)向上層相關(guān)應(yīng)用提供服務(wù)。逡逑11逡逑

校園網(wǎng),網(wǎng)絡(luò)流量,流量,湖北大學(xué)


:邋A邋.邋”邋_邋:逡逑圖2-4校園網(wǎng)流量采集實(shí)際部署逡逑如圖2-4所示為校園網(wǎng)流量采集在湖北大學(xué)校園網(wǎng)網(wǎng)絡(luò)中心的實(shí)際部署,目前采集逡逑了邋8個(gè)千兆接口的鏡像流量,日均2.8Glog文件,上下行網(wǎng)絡(luò)流量約800G,月平局80G逡逑log文件,上下行總網(wǎng)絡(luò)流量約10T。逡逑2.5本章小結(jié)逡逑本章首先對開源網(wǎng)絡(luò)流量采集工具Bro進(jìn)行了介紹,并對其系統(tǒng)結(jié)構(gòu)和采集原理進(jìn)逡逑行了描述,最后介紹了其在湖北大學(xué)校園網(wǎng)的采集系統(tǒng)的部署。基于Bro工具的采集技逡逑術(shù)的實(shí)現(xiàn)有效解決了對高速實(shí)時(shí)IPv4&IPv6網(wǎng)絡(luò)數(shù)據(jù)流量的采集問題和海量網(wǎng)絡(luò)流量逡逑大數(shù)據(jù)的存儲歸檔問題,對校園網(wǎng)流量的采集是后續(xù)對其進(jìn)行分析研宄的基礎(chǔ)。逡逑12逡逑

工作流程圖,工作流程圖,頁面,網(wǎng)頁下載


于收集特定主題的頁面,從而減少網(wǎng)頁下載量。聚焦爬蟲的目的是有選擇地找出與預(yù)先逡逑定義的主題相關(guān)的頁面,從而大大節(jié)省了硬件和網(wǎng)絡(luò)資源[22]。逡逑兩種典型的網(wǎng)絡(luò)爬蟲工作流程如圖3-1所示[23]。逡逑(邋開始逡逑邐3T邐逡逑廣邐、邐!邋初始URL逡逑(邋開始邋)邐L邐邐邐逡逑——E3Z逡逑初始URL邐|邋獲取網(wǎng)頁逡逑i頁邋:士邋I邋L提士。骸卞义希猓颍颍颍颉澹暹姡海蔬姡у澹ⅲⅲⅲⅲⅲe义线姡捱婂义希尢崛。旱暮蓿姡鶕(jù)需求提取信息1逡逑X’邐入逡逑是邐是逡逑一——±邋邐,邋?逡逑f結(jié)束)邐c曑J逡逑A通用爬蟲工作流程圖邐B聚焦爬蟲工作流程圖逡逑圖3-1通用爬蟲和聚焦爬蟲工作流程圖逡逑13逡逑

【參考文獻(xiàn)】

相關(guān)期刊論文 前7條

1 馬海兵;畢久陽;郭新順;;文本分類方法在網(wǎng)絡(luò)輿情分析系統(tǒng)中的應(yīng)用研究[J];情報(bào)科學(xué);2015年05期

2 侯圣巒;劉磊;曹存根;;基于語義文法的網(wǎng)絡(luò)輿情精準(zhǔn)分析方法研究[J];計(jì)算機(jī)科學(xué);2014年10期

3 盧體廣;劉新;劉任任;;微博數(shù)據(jù)通用抓取算法[J];計(jì)算機(jī)工程;2014年05期

4 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期

5 劉燕;劉穎;;高校網(wǎng)絡(luò)輿情的特點(diǎn)及管理對策[J];思想教育研究;2009年04期

6 桑華;;高校輿情研究探析[J];兵團(tuán)教育學(xué)院學(xué)報(bào);2007年04期

7 劉毅;;略論網(wǎng)絡(luò)輿情的概念、特點(diǎn)、表達(dá)與傳播[J];理論界;2007年01期

相關(guān)碩士學(xué)位論文 前5條

1 束玨;微博特定話題檢測與跟蹤研究及實(shí)現(xiàn)[D];南京郵電大學(xué);2016年

2 吳春華;基于HTML5的網(wǎng)頁轉(zhuǎn)換系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年

3 熊祖濤;基于Web文本信息抽取的微博輿情分析[D];西安科技大學(xué);2013年

4 王靜;基于Scrapy的電子商務(wù)網(wǎng)絡(luò)測量與網(wǎng)絡(luò)特征分析[D];北京交通大學(xué);2012年

5 馮晶晶;面向軟件測試領(lǐng)域的自動(dòng)問答系統(tǒng)[D];河南理工大學(xué);2010年



本文編號:2765218

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2765218.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶33f40***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com