基于搜索引擎的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計與實現(xiàn)
本文關(guān)鍵詞:基于搜索引擎的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
增刊1葉昭暉等:基于搜索引擎的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計與實現(xiàn)303息,能快速形成網(wǎng)絡(luò)輿論,進而產(chǎn)生巨大的輿論壓力影響相關(guān)部門?梢哉f,互聯(lián)網(wǎng)已成為社會輿論的放大器。
如何對網(wǎng)上言論進行有效及時的監(jiān)控,快速定位不良信息的源頭,已經(jīng)成為一些部門和機構(gòu)必須面對的重要課題。本文利用搜索引擎(searchengine)的基本原理,在充分分析、綜合應(yīng)用網(wǎng)絡(luò)監(jiān)控、頁面
信息挖掘(webmining)等技術(shù)的基礎(chǔ)之上,設(shè)計實現(xiàn)了個性化網(wǎng)絡(luò)輿論自動監(jiān)控與分析系統(tǒng),通采集、
過對搜索引擎、熱門論壇、門戶網(wǎng)站、博客等主流網(wǎng)絡(luò)信息來源進行監(jiān)控,采集用戶關(guān)心的信息,并根據(jù)
分析和整理,最終將分析結(jié)果推送給相關(guān)部門。不同來源歸類、
1
1.1相關(guān)原理及分析輿情監(jiān)控系統(tǒng)概念及現(xiàn)狀
網(wǎng)絡(luò)輿情監(jiān)控是指通過對網(wǎng)絡(luò)各類信息匯集、分類、整合、篩選等技術(shù)處理,再形成對網(wǎng)絡(luò)熱點、動
[3]態(tài)、網(wǎng)民意見等實時統(tǒng)計報表的一個過程。
傳統(tǒng)輿情監(jiān)控系統(tǒng)使用流量鏡像的方法監(jiān)控信息源,并結(jié)合一系列的統(tǒng)計和分析手段分析來源數(shù)據(jù)。這種方法能較為全面地收集各種網(wǎng)絡(luò)信息,包括即時通訊、論壇、博客等,信息源頭的追查也較為準確,但亦存在以下問題:
①實施成本高。其系統(tǒng)一般都由軟、硬件兩個部分組成,價格昂貴,硬件負責流量采集,軟件負責流量分析。
②實施難度大。其系統(tǒng)需要在主干鏈路中架設(shè)分流設(shè)備,一方面需要協(xié)調(diào)ISP網(wǎng)絡(luò)管理部門,另一方面需要有專業(yè)的人員對設(shè)備進行調(diào)試和安裝,實施難度比較大。
③缺乏針對性。通過鏡像流量的方法收集的全網(wǎng)的數(shù)據(jù),由于信息量龐雜,很難提取有針對性的信息,數(shù)據(jù)的整理和篩選時間周期也比較長。
④監(jiān)控范圍不全;ヂ(lián)網(wǎng)的海量數(shù)據(jù),需要監(jiān)控的信息可能分布在互聯(lián)網(wǎng)的任意角落,通過鏡像流量的方式無法監(jiān)控所有的信息源。
在網(wǎng)絡(luò)空間中,輿情有自己的載體,主要為新聞、評論、發(fā)帖、回復(fù)等,這些內(nèi)容在網(wǎng)絡(luò)上發(fā)布和
[4]會留下各種蹤跡,比如頁面相互之間的超鏈接等等。根據(jù)這個特點,使用開源的搜索引擎?zhèn)鞑r,
系統(tǒng)作為信息監(jiān)控的基本手段,通過定制網(wǎng)頁、論壇、博客等不同信息源的采集模型,將用戶自定義帶有敏感關(guān)鍵詞的信息實時采集到數(shù)據(jù)庫中,并通過知識庫整理和分析的方法,實現(xiàn)網(wǎng)絡(luò)輿論監(jiān)控和分析系統(tǒng)。該系統(tǒng)對有輿情監(jiān)控需求的部門和機構(gòu)來說,低成本、易部署的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)有廣泛的市場需求。
1.2搜索引擎原理
搜索引擎是指根據(jù)一定的策略,,運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。搜索引擎一般由搜索器、索
[5]引器、檢索器和用戶接口四個部分組成(圖1),其各部分作用如下:
①搜索器。搜索引擎派出能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并抓取網(wǎng)頁信息的程序,該程序通常稱為網(wǎng)絡(luò)蜘
[6]模仿用戶通過瀏覽器訪問網(wǎng)頁的模式蛛(spider)或網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)蜘蛛從已知的網(wǎng)址(URL)出發(fā),
抓取網(wǎng)頁的全文信息,在該過程中,網(wǎng)絡(luò)蜘蛛會自動分析、搜索并跟蹤網(wǎng)頁中的鏈接,通過超鏈接關(guān)系訪問其他網(wǎng)頁信息,把新發(fā)現(xiàn)的URL的網(wǎng)頁信息抓取并存儲至原始數(shù)據(jù)庫。
②索引器。索引器將抓取回來的頁面文件進行分解和分析,以表格的形式存入數(shù)據(jù)庫,這個過程稱之為索引(index)。在索引數(shù)據(jù)庫中,網(wǎng)頁文字內(nèi)容以及關(guān)鍵詞出現(xiàn)的位置、字體、顏色、加粗、斜體等相關(guān)信息都被相應(yīng)記錄。
③檢索器。根據(jù)用戶的查詢請求,在索引庫中檢索文檔,進行相關(guān)度評價,對檢索結(jié)果排序,按照用戶的查詢需求反饋信息。
④用戶接口。接收用戶提交的查詢條件,顯示查詢結(jié)果并提供個性化查詢選項。
本文關(guān)鍵詞:基于搜索引擎的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:74729
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/74729.html