基于網(wǎng)絡(luò)爬蟲和Lucene索引的互聯(lián)網(wǎng)輿情監(jiān)測系統(tǒng)設(shè)計與實現(xiàn)
本文關(guān)鍵詞:軍事文獻(xiàn)搜索引擎架構(gòu)的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
《吉林大學(xué)》 2013年
基于網(wǎng)絡(luò)爬蟲和Lucene索引的互聯(lián)網(wǎng)輿情監(jiān)測系統(tǒng)設(shè)計與實現(xiàn)
周小麗
【摘要】:隨著計算機(jī)技術(shù)的不斷發(fā)展,使用IT技術(shù)實現(xiàn)虛擬網(wǎng)絡(luò)輿情監(jiān)控越來越受到政府、企業(yè)的重視。網(wǎng)絡(luò)突發(fā)事件應(yīng)急管理是公共安全保障的核心問題,應(yīng)急管理與網(wǎng)絡(luò)輿情有著密切的關(guān)系,近十多年來,隨著信息化的普及,信息內(nèi)容的爆炸式增長,使得從海量的網(wǎng)絡(luò)數(shù)據(jù)發(fā)現(xiàn)和處理突發(fā)事件信息越來越重要和困難。而應(yīng)急處理的時效性要求很高,往往要求采取即時措施,傳統(tǒng)的采集和分析方式已很難滿足這種實時性的需求,因此建立一個互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)是很有必要的,該系統(tǒng)不僅要能發(fā)現(xiàn)事件,還要能夠“發(fā)現(xiàn)早”,“發(fā)現(xiàn)全”。 根據(jù)權(quán)威機(jī)構(gòu)調(diào)查,到2012年我國網(wǎng)民數(shù)量已經(jīng)突破5億關(guān)口,國內(nèi)互聯(lián)網(wǎng)普及率達(dá)到38.3%,其中,移動上網(wǎng)用戶達(dá)到3.5億;ヂ(lián)網(wǎng)活動參與者數(shù)量增長明顯。如今,互聯(lián)網(wǎng)被稱為繼電視、廣播、紙媒之后的“第四媒體”。隨著源源不斷的網(wǎng)民參與,互聯(lián)網(wǎng)取而代之,成為了社會輿論的晴雨表。主要體現(xiàn)在新聞網(wǎng)站、知名論壇、貼吧、博客等平臺上,這類媒體也被統(tǒng)稱為虛擬社會。由于網(wǎng)絡(luò)的監(jiān)管不嚴(yán)格,甚至漏洞百出,網(wǎng)民參與其中基本沒有門檻,活動成本基本為零,但其影響卻較現(xiàn)實更廣泛、滲透更深,造成的社會影響不容忽視。如果任由其發(fā)展、不加以引導(dǎo),那么,大量的負(fù)面互聯(lián)網(wǎng)輿情信息充斥到虛擬社會中,無疑會給社會的長治久安造成不良影響,埋下社會隱患。對于政府機(jī)構(gòu),加強(qiáng)虛擬社會輿情監(jiān)管、應(yīng)對,積極化解危機(jī),對維護(hù)社會穩(wěn)定,實現(xiàn)我國的現(xiàn)代化建設(shè),經(jīng)濟(jì)建設(shè)不斷向前有著很重要的現(xiàn)實意義。 互聯(lián)網(wǎng)是一個寶庫,尤其是在互聯(lián)網(wǎng)大數(shù)據(jù)時代,借助IT技術(shù),實現(xiàn)對虛擬網(wǎng)絡(luò)輿情的及時、全面的監(jiān)控已經(jīng)迫在眉睫。本文將主要介紹互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)的設(shè)計與實現(xiàn),以及網(wǎng)絡(luò)爬蟲(Web Crawler)和Lucene索引的優(yōu)點(diǎn)和在互聯(lián)網(wǎng)輿情監(jiān)測系統(tǒng)中的應(yīng)用。 本文設(shè)計的互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)主要分為信息采集模塊、信息檢索模塊、數(shù)據(jù)分析模塊和數(shù)據(jù)展示模塊。信息采集模塊的核心是網(wǎng)絡(luò)爬蟲,采集范圍覆蓋整個互聯(lián)網(wǎng),包括新聞媒體、論壇、博客、微博客及視頻類網(wǎng)站。信息檢索模塊的核心功能是實現(xiàn)大數(shù)據(jù)的快速、精確的檢索,這里將用到支持Lucene索引的Mongo數(shù)據(jù)庫,它將檢索速度提高到5秒以內(nèi)。還有數(shù)據(jù)分析模塊和數(shù)據(jù)展示模塊,分別用來對文本的語義進(jìn)行分析和最終數(shù)據(jù)的展示。 網(wǎng)絡(luò)爬蟲,又被稱為蜘蛛Spider,或是網(wǎng)絡(luò)機(jī)器人、BOT等,這些都無關(guān)緊要,最重要的是:由于爬蟲的存在,才使得搜索引擎有了豐富的資源。使用搜索引擎,使我們檢索信息的能力獲得了空前的提高,成本有效地降低,可以說,搜索引擎是現(xiàn)代的計算機(jī)技術(shù)、因特網(wǎng)技術(shù)與傳統(tǒng)的索引理論相結(jié)合的成功典范。隨著網(wǎng)絡(luò)的普及,其影響力不斷擴(kuò)大,信息急速增長,網(wǎng)絡(luò)毋庸置疑,已經(jīng)成為了當(dāng)今信息最大的載體。搜索引擎幫助我們實現(xiàn)了從海量的互聯(lián)網(wǎng)獲取信息提過了有效的途徑。但是,網(wǎng)絡(luò)世界是復(fù)雜的,多元化的,而用戶對數(shù)據(jù)的獲取是有方向性的,有目的性的,如Google、百度等面向整個虛擬社會的通用型的搜索引擎越來越凸顯出其局限性,搜索引擎如何提供用戶基于主題的快速、準(zhǔn)確和深入的查詢,是擺在我們面前的一個難題。網(wǎng)絡(luò)爬蟲作為搜索引擎的核心部件,就自然成為了我們研究攻克的主要方向,無論多么強(qiáng)大的搜素引擎,在后面,都有一個高效的網(wǎng)絡(luò)爬蟲為它服務(wù)。 本文還要介紹另外一個關(guān)鍵技術(shù),Lucene索引,,一個高效的數(shù)據(jù)檢索工具,在我要提到的輿情監(jiān)控系統(tǒng)中,將起到不可或缺的作用。
【關(guān)鍵詞】:
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前5條
1 梅中玲;;基于Web信息挖掘的網(wǎng)絡(luò)輿情分析技術(shù)[J];中國人民公安大學(xué)學(xué)報(自然科學(xué)版);2007年04期
2 于琨;孫新領(lǐng);;基于信息挖掘的高校網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)開發(fā)[J];河南機(jī)電高等?茖W(xué)校學(xué)報;2012年01期
3 陳瓊,蘇文健;基于網(wǎng)頁結(jié)構(gòu)樹的Web信息抽取方法[J];計算機(jī)工程;2005年20期
4 郎小偉;王申康;;基于Lucene的全文檢索系統(tǒng)研究與開發(fā)[J];計算機(jī)工程;2006年04期
5 羅婷;李成;;如何開發(fā)輿情監(jiān)測產(chǎn)品?——人民網(wǎng)輿情監(jiān)測室的運(yùn)作模式[J];中國記者;2010年06期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 周翊超;軍事文獻(xiàn)搜索引擎架構(gòu)的研究與實現(xiàn)[D];南京理工大學(xué);2008年
2 張書江;基于Java的垂直搜索引擎的設(shè)計與實現(xiàn)[D];安徽理工大學(xué);2009年
3 張楠;面向汽車主題的垂直搜索引擎研究與實現(xiàn)[D];西南交通大學(xué);2010年
4 王寶龍;面向新聞領(lǐng)域的文本數(shù)據(jù)獲取系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2010年
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張敏;;基于確定性樹自動機(jī)技術(shù)的信息抽取研究[J];才智;2011年36期
2 陶鎮(zhèn)威;周雨程;;基于Compass框架的高級搜索系統(tǒng)的設(shè)計與實現(xiàn)[J];重慶理工大學(xué)學(xué)報(自然科學(xué));2011年08期
3 蔡兵;胡敏;;基于Lucene2.0的書目搜索引擎設(shè)計[J];重慶圖情研究;2009年01期
4 張淑華;;圖書館參考咨詢系統(tǒng)新技術(shù)探析[J];黑龍江檔案;2011年05期
5 王楠;;一種實現(xiàn)Web數(shù)據(jù)到XML文檔的轉(zhuǎn)換算法[J];大連海事大學(xué)學(xué)報;2010年03期
6 周楊;;基于Lucene的小型搜索引擎系統(tǒng)的架構(gòu)與實現(xiàn)[J];電腦編程技巧與維護(hù);2010年11期
7 謝峰;劉洪星;;基于Lucene的Web站內(nèi)搜索引擎的研究[J];電腦知識與技術(shù);2008年04期
8 林晶;;全文檢索模型的檢索性能研究[J];電腦知識與技術(shù);2010年04期
9 陶榮;陳燕;;基于Lucene小型搜索引擎的研究與實現(xiàn)[J];大眾科技;2010年02期
10 劉劍宇;;Web信息挖掘在涉警輿情監(jiān)控分析系統(tǒng)建設(shè)中的應(yīng)用研究[J];貴州警官職業(yè)學(xué)院學(xué)報;2010年05期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 朱曉東;楊國俊;;聚類分析在網(wǎng)絡(luò)輿情監(jiān)測中的應(yīng)用[A];全國第20屆計算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(上冊)[C];2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 胡燕;基于Web信息抽取的專業(yè)知識獲取方法研究[D];武漢理工大學(xué);2007年
2 黃健斌;基于條件概率圖模型的Deep Web數(shù)據(jù)抽取與集成研究[D];西安電子科技大學(xué);2007年
3 張一文;突發(fā)性公共危機(jī)事件與網(wǎng)絡(luò)輿情作用機(jī)制研究[D];北京郵電大學(xué);2012年
4 王根生;面向群體極化的網(wǎng)絡(luò)輿情演化研究[D];江西財經(jīng)大學(xué);2011年
5 鄭文良;基于簡單本體的農(nóng)業(yè)P2P搜索引擎關(guān)鍵技術(shù)研究[D];沈陽農(nóng)業(yè)大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 陳繼祥;基于J2EE的網(wǎng)絡(luò)考試系統(tǒng)的研究與實現(xiàn)[D];南昌大學(xué);2010年
2 樊春雷;基于語義分析的糖尿病健康教育系統(tǒng)研究與實現(xiàn)[D];華東理工大學(xué);2011年
3 梁越嶺;互聯(lián)網(wǎng)輿情信息挖掘與群體行為分析[D];武漢理工大學(xué);2010年
4 李海林;網(wǎng)絡(luò)輿情熱點(diǎn)信息發(fā)現(xiàn)及其傾向性研究[D];武漢理工大學(xué);2010年
5 趙彥勝;基于web的無線電監(jiān)測站遠(yuǎn)程故障診斷系統(tǒng)分析與設(shè)計[D];西安電子科技大學(xué);2009年
6 馬靜;基于web的數(shù)字化資源全文檢索系統(tǒng)的設(shè)計與實現(xiàn)[D];西安電子科技大學(xué);2010年
7 劉照然;遠(yuǎn)程教育中智能答疑系統(tǒng)的研究與實現(xiàn)[D];西安電子科技大學(xué);2010年
8 席敏;基于單漢字索引的全文檢索系統(tǒng)的研究與實現(xiàn)[D];西安電子科技大學(xué);2010年
9 吳代文;基于Lucene的二次全文檢索系統(tǒng)設(shè)計與實現(xiàn)[D];西安電子科技大學(xué);2009年
10 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 岐世峰;;MIS系統(tǒng)中權(quán)限管理的研究與實現(xiàn)[J];電腦開發(fā)與應(yīng)用;2008年12期
2 侯漢清,薛鵬軍;基于知識庫的網(wǎng)頁自動標(biāo)引和自動分類系統(tǒng)的設(shè)計[J];大學(xué)圖書館學(xué)報;2004年01期
3 楊堅爭;李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期
4 張南平;程鳴;;基于模式識別視頻搜索技術(shù)的研究[J];福建電腦;2007年08期
5 吳紹忠;;WEB信息挖掘與公安情報收集[J];中國人民公安大學(xué)學(xué)報(自然科學(xué)版);2006年04期
6 梅中玲;;基于Web信息挖掘的網(wǎng)絡(luò)輿情分析技術(shù)[J];中國人民公安大學(xué)學(xué)報(自然科學(xué)版);2007年04期
7 董素玲;陳駿;;現(xiàn)代企業(yè)管理信息系統(tǒng)MIS的建設(shè)[J];廣西輕工業(yè);2009年01期
8 馮少麗;;管理信息系統(tǒng)在企業(yè)中的應(yīng)用現(xiàn)狀及存在問題淺析[J];華章;2009年01期
9 林亮景;試析網(wǎng)絡(luò)犯罪[J];長治學(xué)院學(xué)報;2005年04期
10 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計算機(jī)研究與發(fā)展;2000年05期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 宋楓溪;自動文本分類若干基本問題研究[D];南京理工大學(xué);2004年
2 劉永丹;文檔數(shù)據(jù)庫若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2004年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李振;網(wǎng)絡(luò)輿情預(yù)測關(guān)鍵技術(shù)研究[D];鄭州大學(xué);2010年
2 羅強(qiáng);基于粗糙集理論的知識發(fā)現(xiàn)在web文本挖掘上的應(yīng)用研究[D];廣西大學(xué);2003年
3 常曉燕;基于Java的新聞搜索引擎的設(shè)計與實現(xiàn)[D];西南交通大學(xué);2004年
4 張濱;中文文檔分類技術(shù)研究[D];武漢大學(xué);2004年
5 彭雅;文本分類算法及其應(yīng)用研究[D];湖南大學(xué);2004年
6 張治平;Web信息精確獲取技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2004年
7 何賢平;基于J2EE架構(gòu)的管理信息系統(tǒng)的研究[D];武漢理工大學(xué);2006年
8 柯慧燕;Web文本分類研究及應(yīng)用[D];武漢理工大學(xué);2006年
9 王曉偉;垂直搜索引擎若干關(guān)鍵技術(shù)的研究[D];浙江大學(xué);2007年
10 姜華;基于Lucene面向主題搜索引擎的研究與設(shè)計[D];華東師范大學(xué);2007年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄭力明;易平;;基于HTMLParser信息提取的網(wǎng)絡(luò)爬蟲設(shè)計[J];微計算機(jī)信息;2009年15期
2 陳麗君;;深層網(wǎng)網(wǎng)絡(luò)爬蟲設(shè)計[J];計算機(jī)與信息技術(shù);2009年Z2期
3 陳哲;;垂直搜索中網(wǎng)頁抓取技術(shù)的研究[J];科技信息;2009年22期
4 賀財平;覃事剛;劉建勛;;Web服務(wù)搜索引擎的設(shè)計與實現(xiàn)[J];計算機(jī)應(yīng)用與軟件;2011年01期
5 劉明輝;張志平;張新民;;網(wǎng)絡(luò)資源聚合方法探析[J];機(jī)械管理開發(fā);2008年05期
6 王舜燕;李蕾;吳兵華;;基于ID3分類算法的深度網(wǎng)絡(luò)爬蟲設(shè)計[J];現(xiàn)代圖書情報技術(shù);2008年06期
7 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J];計算機(jī)科學(xué)與探索;2011年01期
8 王芳;陳海建;;深入解析Web主題爬蟲的關(guān)鍵性原理[J];微型電腦應(yīng)用;2011年07期
9 陳汶濱;夏學(xué)梅;;基于聚焦爬蟲的手機(jī)天氣預(yù)報系統(tǒng)[J];今日科苑;2009年02期
10 劉磊安;符志強(qiáng);;基于Lucene.net網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2010年08期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年
2 彭亮;卓新建;黃瑋;范文慶;;基于網(wǎng)絡(luò)爬蟲的XSS漏洞掃描系統(tǒng)的設(shè)計與實現(xiàn)[A];第十三屆中國科協(xié)年會第11分會場-中國智慧城市論壇論文集[C];2011年
3 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2010年
4 鄒永斌;陳興蜀;王文賢;;一個高性能Web資源收集系統(tǒng)的設(shè)計與實現(xiàn)[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
5 侯丹青;李舟軍;鄒蘊(yùn)珂;;一種跨站腳本漏洞檢測系統(tǒng)的設(shè)計與實現(xiàn)[A];全國計算機(jī)安全學(xué)術(shù)交流會論文集(第二十四卷)[C];2009年
6 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
7 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實現(xiàn)[A];2010年全國開放式分布與并行計算機(jī)學(xué)術(shù)會議論文集[C];2010年
8 王勇;劉奕群;張敏;馬少平;茹立云;;基于用戶興趣分析的網(wǎng)頁生命周期建模(英文)[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
9 樸星海;趙鐵軍;鄭德權(quán);張迪;;面向Blog的網(wǎng)絡(luò)爬行器設(shè)計與實現(xiàn)[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
10 劉祥濤;龔才春;曾依靈;白碩;鮑旭華;;Kad網(wǎng)絡(luò)節(jié)點(diǎn)共享資源探測分析[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
中國重要報紙全文數(shù)據(jù)庫 前9條
1 Victor;[N];人民郵電;2004年
2 伍裕標(biāo);[N];中國電腦教育報;2003年
3 王猛祥 徐明華;[N];中國計算機(jī)報;2004年
4 商建剛;[N];中國計算機(jī)報;2001年
5 記者 郭麗君;[N];光明日報;2010年
6 記者 邵素宏;[N];人民郵電;2010年
7 馬季;[N];人民日報海外版;2010年
8 記者 曹莉;[N];中國建設(shè)報;2011年
9 上海 陳曦;[N];電腦報;2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 趙茉莉;網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[D];電子科技大學(xué);2013年
2 金梅;網(wǎng)絡(luò)爬蟲性能提升與功能拓展的研究與實現(xiàn)[D];吉林大學(xué);2012年
3 芮虎;比價購物平臺中網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D];華東理工大學(xué);2013年
4 龔秋艷;并行網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D];華東師范大學(xué);2010年
5 趙鵬程;分布式書籍網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[D];西南交通大學(xué);2014年
6 段兵營;搜索引擎中網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)[D];西安電子科技大學(xué);2014年
7 張大偉;基于動態(tài)概念圖的主題網(wǎng)絡(luò)爬蟲的設(shè)計與分析[D];遼寧科技大學(xué);2013年
8 王毅桐;分布式網(wǎng)絡(luò)爬蟲技術(shù)研究與實現(xiàn)[D];電子科技大學(xué);2012年
9 黃曉鵬;基于網(wǎng)絡(luò)爬蟲技術(shù)的內(nèi)容探測系統(tǒng)設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2010年
10 么士宇;基于分布式計算的網(wǎng)絡(luò)爬蟲技術(shù)研究[D];大連海事大學(xué);2011年
本文關(guān)鍵詞:軍事文獻(xiàn)搜索引擎架構(gòu)的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:127091
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/127091.html