網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)中主題網(wǎng)絡(luò)爬蟲的研究
本文關(guān)鍵詞:基于搜索引擎的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
當前所在位置:中國論文網(wǎng) > 科技論文發(fā)表 > 網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)中主題網(wǎng)絡(luò)爬蟲的研究
網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)中主題網(wǎng)絡(luò)爬蟲的研究
發(fā)布日期: 2015-06-30 發(fā)布:
2015年2期目錄 本期共收錄文章20篇
摘要:目前,網(wǎng)絡(luò)已成反映社會輿情的重要載體。而隨著網(wǎng)絡(luò)輿情的快速發(fā)展,其對社會的影響是巨大的,已受到各個部門的重點關(guān)注,F(xiàn)階段,網(wǎng)絡(luò)輿情的監(jiān)控系統(tǒng)的分析一般是通過人工方式實現(xiàn)。因為需要實時跟蹤與監(jiān)控的網(wǎng)站數(shù)據(jù)量比較多,而且模式復(fù)雜,人工方式已經(jīng)難以滿足相關(guān)要求。因此,應(yīng)該加強網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)主題網(wǎng)絡(luò)爬蟲功能研究,從而有效滿足面向特定范圍內(nèi)的信息采集和監(jiān)測有關(guān)要求。
中國論文網(wǎng)
關(guān)鍵詞:網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng);主題網(wǎng)絡(luò)爬蟲;信息收集
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2015)02-0046-02
網(wǎng)絡(luò)輿情主要是利用互聯(lián)網(wǎng)傳播具備的公眾性,針對實際生活中一些熱點與焦點問題所具備的影響力和傾向性言論以及觀點的等,通過社會輿論所表達的一個方式。因為網(wǎng)絡(luò)輿情擁有傳播速度快和影響力大等特點,所以應(yīng)該創(chuàng)建自動化與現(xiàn)代化網(wǎng)絡(luò)輿情的監(jiān)控系統(tǒng),從而確保網(wǎng)絡(luò)輿情相關(guān)信息的及時、有效采集和分析以及監(jiān)控等。另外,網(wǎng)絡(luò)輿情的監(jiān)控系統(tǒng)一般包含信息采集模塊和預(yù)處理模塊以及分析模塊等,其中采集模塊作為輿情分析和處理工作的前提,該核心內(nèi)容就是利用一個或是多個并行采集設(shè)備從互聯(lián)網(wǎng)中有效收集相關(guān)網(wǎng)頁數(shù)據(jù),而采集設(shè)備一般稱之為網(wǎng)絡(luò)爬蟲或是網(wǎng)絡(luò)蜘蛛。本文主要對網(wǎng)絡(luò)爬蟲與主題網(wǎng)絡(luò)爬蟲相關(guān)處理流程進行了分析,從而針對主題網(wǎng)絡(luò)爬蟲的相應(yīng)設(shè)計模塊結(jié)構(gòu)完成優(yōu)化,實現(xiàn)更為簡單與有效的主體網(wǎng)絡(luò)輿情相關(guān)信息采集系統(tǒng)的合理設(shè)計,并為網(wǎng)絡(luò)輿情的采集與分析提供幫助。
1 網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)
現(xiàn)階段,國內(nèi)對于輿情并未形成相對統(tǒng)一的認識,有關(guān)教授針對輿情進行了定義,也就是輿情為輿論狀況的簡稱,主要是指在一定社會空間中,人們對于社會事件與社會管理人員產(chǎn)生與持有的社會政治態(tài)度。而網(wǎng)絡(luò)輿情可以有效、直接反映出社會輿情,其還是實現(xiàn)網(wǎng)上相關(guān)信息交流的主體,同時人們對于部分突發(fā)事件與社會所持有的態(tài)度以及發(fā)表的言論可能會在一定的時間內(nèi)對社會造成嚴重影響,因此一定要及時采用有效對策,針對輿情實施嚴格監(jiān)控,從而有效控制與引導(dǎo)事態(tài)良性發(fā)展。另外,輿情監(jiān)控一般是利用網(wǎng)頁自動選擇輿情信息,然后利用文本挖掘等相關(guān)技術(shù)針對輿情信息完成有效分析與處理,并把處理過戶獲取的熱點信息進行上報與跟蹤,科學(xué)、合理的輿情監(jiān)控可以實現(xiàn)輿情信息從被動防堵過度至主動疏導(dǎo)。
2 普通網(wǎng)絡(luò)爬蟲與主題網(wǎng)絡(luò)爬蟲分析
網(wǎng)絡(luò)爬蟲作為網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)中采集系統(tǒng)的核心與基礎(chǔ),其直接影響著網(wǎng)絡(luò)輿情數(shù)據(jù)采集覆蓋率與查準率等。依據(jù)采集內(nèi)容和目標的差異,網(wǎng)絡(luò)爬蟲一般分成普通網(wǎng)絡(luò)爬蟲與主題網(wǎng)絡(luò)爬蟲。其中普通網(wǎng)絡(luò)爬蟲主要目標就是大量采集信息頁面,在采集的過程中僅僅注重網(wǎng)頁采集的數(shù)量以及質(zhì)量,從不深入考慮網(wǎng)頁采集相關(guān)順序與被采集頁面有關(guān)主題。近些年來,網(wǎng)絡(luò)信息的不斷增長,普通網(wǎng)絡(luò)爬蟲面臨著嚴峻的網(wǎng)頁規(guī)模和更新速度以及個性化等諸多方面的挑戰(zhàn)。為了能夠有效改進網(wǎng)絡(luò)爬蟲的工作效率,使其可以滿足相關(guān)人群深層次和面向特定領(lǐng)域的信息要求,一定要充分應(yīng)用主體網(wǎng)絡(luò)爬蟲。該目標是在大量采集和主體有關(guān)的網(wǎng)頁基礎(chǔ)上,在進行采集的過程中要時刻關(guān)注互聯(lián)網(wǎng)頁內(nèi)容和主體相關(guān)度。
1)普通網(wǎng)絡(luò)爬蟲分析
普通網(wǎng)絡(luò)爬蟲是利用網(wǎng)頁間存在的超鏈接關(guān)系有效采集網(wǎng)頁,需要創(chuàng)建一個初始化的URL集合,其為一個有序的等待抽取的URL隊列,然后從此隊列中某一個URL開始,有效提取相應(yīng)頁面中的HTML內(nèi)容,同時分析與提取在此頁面中其他相關(guān)的全部超鏈接,把其分別加入至URL隊列里,對之前的URL隊列完成更新,然后依據(jù)圖表中廣度或是深度優(yōu)先選擇策略有效訪問下一個URL連接,這樣依次循環(huán),不斷重復(fù)上述過程,一直到全部網(wǎng)頁都被提取完成或是依據(jù)Web爬取方案停止采集位置,該爬取流程圖如圖1所示。
2)主題網(wǎng)絡(luò)爬蟲分析
主題網(wǎng)絡(luò)爬蟲主要指有選擇性的收集和目標主題存在關(guān)聯(lián)的網(wǎng)頁。應(yīng)該針對主題完成向量表示,依據(jù)內(nèi)容相關(guān)度有效計算出相應(yīng)網(wǎng)頁內(nèi)容與主題的相關(guān)度,同時針對鏈接完成相關(guān)度評價,從而決定選擇哪種網(wǎng)頁。在進行采集時并不需求采集全部的網(wǎng)頁,對此主題網(wǎng)絡(luò)爬蟲所需要保存的頁面相對較少,能夠在很大程度上節(jié)約相關(guān)硬件與網(wǎng)絡(luò)資源,并且可以有效滿足特定人們對查找特定主題的相關(guān)需求。另外,主題爬蟲主要是在普通網(wǎng)絡(luò)爬蟲基礎(chǔ)上實現(xiàn)相關(guān)功能的擴充,主要設(shè)置了針對URL與網(wǎng)頁主題相關(guān)度的評價,主題網(wǎng)絡(luò)爬蟲工作流程如圖2所示。
3 主題網(wǎng)絡(luò)爬蟲設(shè)計研究
主題網(wǎng)絡(luò)爬蟲只針對與主題有關(guān)的網(wǎng)頁完成采集,并不是覆蓋全部網(wǎng)頁。應(yīng)該先對主題完成向量表示,依據(jù)內(nèi)容的相關(guān)度有效計算出所要訪問的頁面內(nèi)容以及主題相關(guān)度,同時針對鏈接完成預(yù)測和分析,有效識別相關(guān)鏈接是否與主題有關(guān),最后決定選擇相應(yīng)鏈接所指向的網(wǎng)頁,同時設(shè)置提取鏈接的合理順序。另外,主題網(wǎng)絡(luò)爬蟲整體運行流程比較復(fù)雜,首先要啟動爬蟲程序,然后輸出主題和種子站點,完成主題的向量表示。其次獲取網(wǎng)頁的HTMT正文內(nèi)容,并把網(wǎng)頁輸入至頁面相關(guān)度的分析模塊,有效計算出此頁面和主題的相關(guān)度,并且把所提取到的相關(guān)頁面鏈接和鏈接錨文本等多種有關(guān)信息輸入至鏈接的評價模塊中,通過測算相關(guān)度超過閥值的鏈接輸入至鏈接的優(yōu)先權(quán)隊列中。然后依據(jù)鏈接選取對策,選取下一個進行訪問的鏈接輸入至爬行模塊。最后,反復(fù)重復(fù)上述步驟,一直到滿足相關(guān)結(jié)束條件為止。主題網(wǎng)絡(luò)爬蟲更為關(guān)注發(fā)現(xiàn)用戶需求的信息資源,怎樣更多獲取和主題存在密切關(guān)系的網(wǎng)頁,怎樣在一定程度上提升采集效率都是主題網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計的重要內(nèi)容。另外,主題網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計應(yīng)該以普通爬蟲系統(tǒng)作為基礎(chǔ),然后在此基礎(chǔ)上進行部分功能的擴充,依據(jù)主體網(wǎng)絡(luò)爬蟲相關(guān)功能需求與運行流程,設(shè)計的系統(tǒng)如圖3所示。
4 主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)分析
主題爬蟲比較重視網(wǎng)頁相關(guān)度,依據(jù)相應(yīng)的網(wǎng)頁分析算法有效過濾和主題并無關(guān)聯(lián)的網(wǎng)頁,并且保留和主題有關(guān)的網(wǎng)頁和鏈接,從而更多的采集和主題有關(guān)的網(wǎng)頁內(nèi)容。對此,就應(yīng)該科學(xué)、有效設(shè)計主題網(wǎng)絡(luò)爬蟲算法。 主題向量表示和關(guān)鍵詞權(quán)值計算方式。主題一般利用一組關(guān)鍵詞進行表示,同時主題關(guān)鍵詞通常要在種子文檔中獲取。而種子文檔主要由用戶所指定的樣例文檔和種子頁面相應(yīng)文章以及種子頁面實現(xiàn)相鄰近區(qū)域擴展之后產(chǎn)生的文章等構(gòu)成。另外,種子文檔的產(chǎn)生過程比較復(fù)雜,增加種子頁面所指向的頁面,指向種子頁面的頁面實現(xiàn)種子頁面的有效擴展,在擴展至一定條件過后停止,然后將用戶輸入至樣例文檔和種子頁面文檔以及擴展種子文檔構(gòu)成一個種子文檔集,最后利用統(tǒng)計詞頻與逆文檔頻率(TF-IDF)手段針對種子文檔集完成詞頻統(tǒng)計,同時還要實現(xiàn)權(quán)值計算,,將權(quán)值最高的n個值構(gòu)成主題關(guān)鍵詞集,有效表示所給定的相應(yīng)任務(wù)主題。
5 結(jié)束語
近些年來,主題爬蟲技術(shù)在信息采集與數(shù)據(jù)挖掘方面的關(guān)鍵性日益突出,而且主題網(wǎng)絡(luò)爬蟲的研究和分析已經(jīng)受到人們的高度重視。通過分析與研究普通網(wǎng)絡(luò)爬蟲與主題網(wǎng)絡(luò)爬蟲技術(shù)的特點以及處理流程,在滿足相關(guān)功能要求的前提下,重點分析與研究了主題網(wǎng)絡(luò)爬蟲相關(guān)功能模塊的設(shè)計以及所有模塊的具備的作用。另外,還針對主題網(wǎng)絡(luò)爬蟲的相關(guān)度計算和主題向量表示進行了分析。但是對于怎樣發(fā)現(xiàn)更多網(wǎng)頁,怎樣獲取相關(guān)度更高的有關(guān)頁面和提升主題網(wǎng)絡(luò)爬蟲工作效率,依然需要深入研究。
參考文獻:
[1] 宋海洋,劉曉然,錢?,等.一種新的主題網(wǎng)絡(luò)爬蟲爬行策略[J].計算機應(yīng)用與軟件,2011,28(11):264-267.
[2] 魏晶晶,楊定達,廖祥文.基于網(wǎng)頁內(nèi)容相似度改進算法的主題網(wǎng)絡(luò)爬蟲[J].計算機與現(xiàn)代化,2011(9):1-4.
[3] 葉昭暉,曾瓊,李強.基于搜索引擎的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計與實現(xiàn)[J].廣西大學(xué)學(xué)報:自然科學(xué)版,2011,36(10):302-307.
[4] 謝飛,吳信東,胡學(xué)鋼,等.基于語義聯(lián)系的新聞網(wǎng)頁關(guān)鍵詞提取[J].廣西師范大學(xué)學(xué)報:自然科學(xué)版,2012,27(1):145-146.
[5] 劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計算機應(yīng)用研究,2010,24(10):26-29.
[6] 何佳,周長勝,石顯峰.網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實現(xiàn)方法[J].鄭州大學(xué)學(xué)報:理學(xué)版,2010,42(3):82-85.
[7] 錢愛兵.基于主題的網(wǎng)絡(luò)輿情分析模型及其實現(xiàn)[J].現(xiàn)代圖書情報技術(shù),2011(4):51-52.
在線服務(wù)
本文關(guān)鍵詞:基于搜索引擎的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:242405
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/242405.html