基于元搜索引擎的主題導(dǎo)向網(wǎng)絡(luò)輿情采集系統(tǒng)研究與設(shè)計(jì)
發(fā)布時(shí)間:2017-08-05 17:16
本文關(guān)鍵詞:基于元搜索引擎的主題導(dǎo)向網(wǎng)絡(luò)輿情采集系統(tǒng)研究與設(shè)計(jì)
更多相關(guān)文章: 輿情監(jiān)控 輿情采集 爬行策略 網(wǎng)頁解析 SSH框架
【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,“以用戶為中心,用戶參與”的開放式構(gòu)架理念已深入人心,互聯(lián)網(wǎng)用戶逐漸由被動(dòng)地接收網(wǎng)絡(luò)信息向主動(dòng)創(chuàng)造網(wǎng)絡(luò)信息轉(zhuǎn)變。門戶網(wǎng)站、論壇、微博等網(wǎng)絡(luò)媒介已經(jīng)成為人們發(fā)布、傳播和獲取評(píng)論信息、表達(dá)情感、發(fā)表觀點(diǎn)的重要平臺(tái)。同時(shí),互聯(lián)網(wǎng)也逐漸成為輿情信息傳播的重要渠道。網(wǎng)絡(luò)媒介中的大量評(píng)論和觀點(diǎn)等主觀性文本,蘊(yùn)藏著重要的經(jīng)濟(jì)價(jià)值和社會(huì)價(jià)值,同時(shí)也引導(dǎo)著社會(huì)輿論的方向。它是民眾對(duì)網(wǎng)絡(luò)事件的刺激所產(chǎn)生的情感、認(rèn)知、態(tài)度以及行為傾向性的集合,并通過互聯(lián)網(wǎng)傳播。網(wǎng)絡(luò)輿情的采集、監(jiān)控對(duì)社會(huì)安全部門及時(shí)獲取用戶情感傾向、發(fā)掘、跟蹤網(wǎng)絡(luò)熱點(diǎn)事件等方面具有重大的研究意義和現(xiàn)實(shí)意義。因此,眾多研究機(jī)構(gòu)、社會(huì)企業(yè)甚至政府單位都針對(duì)網(wǎng)絡(luò)輿情進(jìn)行了大量研究分析,欲對(duì)其進(jìn)行監(jiān)控、利用。本文主要以南華大學(xué)高校網(wǎng)絡(luò)輿情監(jiān)控平臺(tái)為基礎(chǔ),對(duì)網(wǎng)絡(luò)輿情信息采集策略進(jìn)行研究,并以此設(shè)計(jì)采集系統(tǒng)。采取以理論研究指導(dǎo)實(shí)踐的方法進(jìn)行系統(tǒng)設(shè)計(jì),首先研究了網(wǎng)絡(luò)輿情的結(jié)構(gòu)和特征,對(duì)主要的輿情采集空間和來源進(jìn)行分析,結(jié)合當(dāng)前國內(nèi)外輿情研究的發(fā)展現(xiàn)狀,針對(duì)當(dāng)前輿情采集廣泛存在的采集效率不高、目標(biāo)局限性強(qiáng)的問題,提出一種可用戶個(gè)性化主題設(shè)置的基于元搜索引擎的輿情采集策略。通過主題關(guān)鍵字匹配、正則表達(dá)式過濾和基于域名限定爬取的策略,保證系統(tǒng)爬取數(shù)據(jù)的主題相關(guān)性,過濾冗余數(shù)據(jù),提高系統(tǒng)運(yùn)行效率。將輿情信息的來源設(shè)定為公眾集中反映意見、態(tài)度和觀點(diǎn)、傾向的各大新聞門戶網(wǎng)站、博客論壇、網(wǎng)絡(luò)社區(qū)、以及微博等新興媒介。本文研究旨在設(shè)計(jì)出一套適應(yīng)高校的網(wǎng)絡(luò)輿情監(jiān)控的輿情信息采集系統(tǒng),做到實(shí)時(shí)高效地挖掘出互聯(lián)網(wǎng)中相對(duì)于高校敏感的輿論信息,對(duì)獲取的數(shù)據(jù)進(jìn)行清理和結(jié)構(gòu)化處理,為輿情數(shù)據(jù)的傾向性分析、熱點(diǎn)事件的發(fā)現(xiàn)與事件跟蹤做準(zhǔn)備。實(shí)現(xiàn)的主要成果有:(1)對(duì)網(wǎng)絡(luò)輿情結(jié)構(gòu)特征、采集來源進(jìn)行具體研究,結(jié)合國內(nèi)外輿情采集系統(tǒng)研究的現(xiàn)有技術(shù)和模式,根據(jù)南華大學(xué)網(wǎng)絡(luò)輿情監(jiān)控平臺(tái)的實(shí)際需求,進(jìn)行系統(tǒng)分析、設(shè)計(jì);(2)分別實(shí)現(xiàn)對(duì)不同輿情采集來源的網(wǎng)頁進(jìn)行解析,對(duì)網(wǎng)頁不同標(biāo)簽重要程度進(jìn)行分析,提取相關(guān)輿情要素;(3)實(shí)現(xiàn)用戶對(duì)輿情主題和輿情采集來源的可配置性,用戶可基于主題關(guān)鍵字和域名對(duì)輿情信息來源進(jìn)行爬取URL源設(shè)置,實(shí)現(xiàn)個(gè)性化輿情采集;(4)對(duì)網(wǎng)絡(luò)輿情的爬行策略進(jìn)行分析,基于元搜索引擎進(jìn)行數(shù)據(jù)爬取,采用多線程并行爬取實(shí)現(xiàn)實(shí)時(shí)高效爬取;(5)基于JAVA開源SSH框架實(shí)現(xiàn)系統(tǒng)整體架構(gòu),將應(yīng)用分為表現(xiàn)層、控制層、業(yè)務(wù)邏輯層和數(shù)據(jù)訪問層,降低各層之間的耦合度。實(shí)現(xiàn)了系統(tǒng)的開發(fā)和測試,為整個(gè)監(jiān)控系統(tǒng)的后續(xù)工作做好準(zhǔn)備。
【關(guān)鍵詞】:輿情監(jiān)控 輿情采集 爬行策略 網(wǎng)頁解析 SSH框架
【學(xué)位授予單位】:南華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1
【目錄】:
- 摘要9-11
- Abstract11-13
- 第一章 緒論13-19
- 1.1 項(xiàng)目背景與意義13-14
- 1.2 國內(nèi)外研究現(xiàn)狀14-16
- 1.3 研究目的與主要內(nèi)容16-17
- 1.4 論文的組織結(jié)構(gòu)17-19
- 第二章 相關(guān)理論和關(guān)鍵技術(shù)19-28
- 2.1 網(wǎng)絡(luò)輿情的要素和特征19
- 2.2 網(wǎng)絡(luò)輿情的采集來源19-20
- 2.3 主題網(wǎng)絡(luò)爬蟲的基本概念20-22
- 2.4 網(wǎng)絡(luò)爬蟲的爬行策略和技術(shù)22-25
- 2.4.1 網(wǎng)頁搜索策略22-23
- 2.4.2 重新訪問策略23
- 2.4.3 平衡禮貌策略23-24
- 2.4.4 主題設(shè)置的采集策略24
- 2.4.5 網(wǎng)絡(luò)爬蟲技術(shù)24-25
- 2.5 元搜索引擎技術(shù)25-26
- 2.6 個(gè)性化搜索技術(shù)26-27
- 2.6.1 個(gè)性化技術(shù)的研究現(xiàn)狀27
- 2.6.2 個(gè)性化搜索的主要方法27
- 2.7 本章小結(jié)27-28
- 第三章 系統(tǒng)的需求分析28-34
- 3.1 元搜索引擎需求分析28
- 3.2 主題導(dǎo)向搜索引擎需求分析28-29
- 3.3 系統(tǒng)需求分析29-30
- 3.3.1 系統(tǒng)需求目標(biāo)29
- 3.3.2 系統(tǒng)的最終用戶29-30
- 3.4 系統(tǒng)用例模型30-33
- 3.5 本章小結(jié)33-34
- 第四章 系統(tǒng)的研究和設(shè)計(jì)34-54
- 4.1 系統(tǒng)架構(gòu)設(shè)計(jì)34-35
- 4.2 系統(tǒng)功能實(shí)現(xiàn)方案35-36
- 4.3 系統(tǒng)后臺(tái)結(jié)構(gòu)設(shè)計(jì)36-49
- 4.3.1 后臺(tái)整體數(shù)據(jù)流37-38
- 4.3.2 下載線程與下載控制線程38-41
- 4.3.3 URL解析線程與控制線程41-43
- 4.3.4 文檔結(jié)構(gòu)解析線程與控制線程43-45
- 4.3.5 分詞索引線程和控制線程45-47
- 4.3.6 查詢過濾線程和控制線程47-49
- 4.4 系統(tǒng)前臺(tái)結(jié)構(gòu)設(shè)計(jì)49
- 4.5 元搜索引擎設(shè)計(jì)49-52
- 4.5.1 元搜索引擎模型49-50
- 4.5.2 元搜索引擎的提取算法50-51
- 4.5.3 元搜索引擎主題導(dǎo)向爬行器設(shè)計(jì)51-52
- 4.6 系統(tǒng)數(shù)據(jù)庫設(shè)計(jì)52-53
- 4.7 本章小結(jié)53-54
- 第五章 實(shí)驗(yàn)與結(jié)果分析54-63
- 5.1 實(shí)驗(yàn)設(shè)置54-55
- 5.1.1 實(shí)驗(yàn)環(huán)境設(shè)置54
- 5.1.2 實(shí)驗(yàn)數(shù)據(jù)設(shè)置54-55
- 5.1.3 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)55
- 5.2 主題爬蟲實(shí)驗(yàn)55-60
- 5.2.1 實(shí)驗(yàn)?zāi)康?/span>55
- 5.2.2 實(shí)驗(yàn)內(nèi)容55-58
- 5.2.3 實(shí)驗(yàn)結(jié)果分析58-60
- 5.3 元搜索實(shí)驗(yàn)60-62
- 5.3.1 實(shí)驗(yàn)?zāi)康?/span>60
- 5.3.2 實(shí)驗(yàn)內(nèi)容60-62
- 5.3.3 實(shí)驗(yàn)結(jié)果分析62
- 5.4 本章小結(jié)62-63
- 第六章 總結(jié)與展望63-65
- 6.1 系統(tǒng)主要功能實(shí)現(xiàn)63
- 6.2 工作總結(jié)63-64
- 6.3 工作展望64-65
- 參考文獻(xiàn)65-68
- 致謝68
【參考文獻(xiàn)】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 黃仲清;互聯(lián)網(wǎng)主題信息定向采集研究[D];華東師范大學(xué);2010年
,本文編號(hào):626012
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/626012.html
最近更新
教材專著