基于搜索引擎的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計與實現(xiàn)

發(fā)布時間：2016-07-22 02:06

本文關(guān)鍵詞：基于搜索引擎的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計與實現(xiàn)，由筆耕文化傳播整理發(fā)布。

增刊1葉昭暉等：基于搜索引擎的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計與實現(xiàn)303息，能快速形成網(wǎng)絡(luò)輿論，進(jìn)而產(chǎn)生巨大的輿論壓力影響相關(guān)部門。可以說，互聯(lián)網(wǎng)已成為社會輿論的放大器。

如何對網(wǎng)上言論進(jìn)行有效及時的監(jiān)控，快速定位不良信息的源頭，已經(jīng)成為一些部門和機構(gòu)必須面對的重要課題。本文利用搜索引擎（searchengine）的基本原理，在充分分析、綜合應(yīng)用網(wǎng)絡(luò)監(jiān)控、頁面

信息挖掘（webmining）等技術(shù)的基礎(chǔ)之上，設(shè)計實現(xiàn)了個性化網(wǎng)絡(luò)輿論自動監(jiān)控與分析系統(tǒng)，通采集、

過對搜索引擎、熱門論壇、門戶網(wǎng)站、博客等主流網(wǎng)絡(luò)信息來源進(jìn)行監(jiān)控，采集用戶關(guān)心的信息，并根據(jù)

分析和整理，最終將分析結(jié)果推送給相關(guān)部門。不同來源歸類、

1.1相關(guān)原理及分析輿情監(jiān)控系統(tǒng)概念及現(xiàn)狀

網(wǎng)絡(luò)輿情監(jiān)控是指通過對網(wǎng)絡(luò)各類信息匯集、分類、整合、篩選等技術(shù)處理，再形成對網(wǎng)絡(luò)熱點、動

［3］態(tài)、網(wǎng)民意見等實時統(tǒng)計報表的一個過程。

傳統(tǒng)輿情監(jiān)控系統(tǒng)使用流量鏡像的方法監(jiān)控信息源，并結(jié)合一系列的統(tǒng)計和分析手段分析來源數(shù)據(jù)。這種方法能較為全面地收集各種網(wǎng)絡(luò)信息，包括即時通訊、論壇、博客等，信息源頭的追查也較為準(zhǔn)確，但亦存在以下問題：

①實施成本高。其系統(tǒng)一般都由軟、硬件兩個部分組成，價格昂貴，硬件負(fù)責(zé)流量采集，軟件負(fù)責(zé)流量分析。

②實施難度大。其系統(tǒng)需要在主干鏈路中架設(shè)分流設(shè)備，一方面需要協(xié)調(diào)ISP網(wǎng)絡(luò)管理部門，另一方面需要有專業(yè)的人員對設(shè)備進(jìn)行調(diào)試和安裝，實施難度比較大。

③缺乏針對性。通過鏡像流量的方法收集的全網(wǎng)的數(shù)據(jù)，由于信息量龐雜，很難提取有針對性的信息，數(shù)據(jù)的整理和篩選時間周期也比較長。

④監(jiān)控范圍不全。互聯(lián)網(wǎng)的海量數(shù)據(jù)，需要監(jiān)控的信息可能分布在互聯(lián)網(wǎng)的任意角落，通過鏡像流量的方式無法監(jiān)控所有的信息源。

在網(wǎng)絡(luò)空間中，輿情有自己的載體，主要為新聞、評論、發(fā)帖、回復(fù)等，這些內(nèi)容在網(wǎng)絡(luò)上發(fā)布和

［4］會留下各種蹤跡，比如頁面相互之間的超鏈接等等。根據(jù)這個特點，使用開源的搜索引擎?zhèn)鞑r，

系統(tǒng)作為信息監(jiān)控的基本手段，通過定制網(wǎng)頁、論壇、博客等不同信息源的采集模型，將用戶自定義帶有敏感關(guān)鍵詞的信息實時采集到數(shù)據(jù)庫中，并通過知識庫整理和分析的方法，實現(xiàn)網(wǎng)絡(luò)輿論監(jiān)控和分析系統(tǒng)。該系統(tǒng)對有輿情監(jiān)控需求的部門和機構(gòu)來說，低成本、易部署的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)有廣泛的市場需求。

1.2搜索引擎原理

搜索引擎是指根據(jù)一定的策略，，運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息，在對信息進(jìn)行組織和處理后，為用戶提供檢索服務(wù)，將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。搜索引擎一般由搜索器、索

［5］引器、檢索器和用戶接口四個部分組成（圖1），其各部分作用如下：

①搜索器。搜索引擎派出能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并抓取網(wǎng)頁信息的程序，該程序通常稱為網(wǎng)絡(luò)蜘

［6］模仿用戶通過瀏覽器訪問網(wǎng)頁的模式蛛（spider）或網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)蜘蛛從已知的網(wǎng)址（URL）出發(fā)，

抓取網(wǎng)頁的全文信息，在該過程中，網(wǎng)絡(luò)蜘蛛會自動分析、搜索并跟蹤網(wǎng)頁中的鏈接，通過超鏈接關(guān)系訪問其他網(wǎng)頁信息，把新發(fā)現(xiàn)的URL的網(wǎng)頁信息抓取并存儲至原始數(shù)據(jù)庫。

②索引器。索引器將抓取回來的頁面文件進(jìn)行分解和分析，以表格的形式存入數(shù)據(jù)庫，這個過程稱之為索引（index）。在索引數(shù)據(jù)庫中，網(wǎng)頁文字內(nèi)容以及關(guān)鍵詞出現(xiàn)的位置、字體、顏色、加粗、斜體等相關(guān)信息都被相應(yīng)記錄。

③檢索器。根據(jù)用戶的查詢請求，在索引庫中檢索文檔，進(jìn)行相關(guān)度評價，對檢索結(jié)果排序，按照用戶的查詢需求反饋信息。

④用戶接口。接收用戶提交的查詢條件，顯示查詢結(jié)果并提供個性化查詢選項。

本文關(guān)鍵詞：基于搜索引擎的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計與實現(xiàn)，由筆耕文化傳播整理發(fā)布。

本文編號：74729

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/74729.html

上一篇：主題網(wǎng)絡(luò)爬蟲的定義_網(wǎng)絡(luò)爬蟲有什么_《北京郵電大學(xué)》2013年碩士論文
下一篇：搜索引擎關(guān)鍵字廣告點擊率與保留價研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于搜索引擎的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計與實現(xiàn)