天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于元搜索引擎的主題導(dǎo)向網(wǎng)絡(luò)輿情采集系統(tǒng)研究與設(shè)計(jì)

發(fā)布時(shí)間:2017-08-05 17:16

  本文關(guān)鍵詞:基于元搜索引擎的主題導(dǎo)向網(wǎng)絡(luò)輿情采集系統(tǒng)研究與設(shè)計(jì)


  更多相關(guān)文章: 輿情監(jiān)控 輿情采集 爬行策略 網(wǎng)頁解析 SSH框架


【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,“以用戶為中心,用戶參與”的開放式構(gòu)架理念已深入人心,互聯(lián)網(wǎng)用戶逐漸由被動(dòng)地接收網(wǎng)絡(luò)信息向主動(dòng)創(chuàng)造網(wǎng)絡(luò)信息轉(zhuǎn)變。門戶網(wǎng)站、論壇、微博等網(wǎng)絡(luò)媒介已經(jīng)成為人們發(fā)布、傳播和獲取評(píng)論信息、表達(dá)情感、發(fā)表觀點(diǎn)的重要平臺(tái)。同時(shí),互聯(lián)網(wǎng)也逐漸成為輿情信息傳播的重要渠道。網(wǎng)絡(luò)媒介中的大量評(píng)論和觀點(diǎn)等主觀性文本,蘊(yùn)藏著重要的經(jīng)濟(jì)價(jià)值和社會(huì)價(jià)值,同時(shí)也引導(dǎo)著社會(huì)輿論的方向。它是民眾對(duì)網(wǎng)絡(luò)事件的刺激所產(chǎn)生的情感、認(rèn)知、態(tài)度以及行為傾向性的集合,并通過互聯(lián)網(wǎng)傳播。網(wǎng)絡(luò)輿情的采集、監(jiān)控對(duì)社會(huì)安全部門及時(shí)獲取用戶情感傾向、發(fā)掘、跟蹤網(wǎng)絡(luò)熱點(diǎn)事件等方面具有重大的研究意義和現(xiàn)實(shí)意義。因此,眾多研究機(jī)構(gòu)、社會(huì)企業(yè)甚至政府單位都針對(duì)網(wǎng)絡(luò)輿情進(jìn)行了大量研究分析,欲對(duì)其進(jìn)行監(jiān)控、利用。本文主要以南華大學(xué)高校網(wǎng)絡(luò)輿情監(jiān)控平臺(tái)為基礎(chǔ),對(duì)網(wǎng)絡(luò)輿情信息采集策略進(jìn)行研究,并以此設(shè)計(jì)采集系統(tǒng)。采取以理論研究指導(dǎo)實(shí)踐的方法進(jìn)行系統(tǒng)設(shè)計(jì),首先研究了網(wǎng)絡(luò)輿情的結(jié)構(gòu)和特征,對(duì)主要的輿情采集空間和來源進(jìn)行分析,結(jié)合當(dāng)前國內(nèi)外輿情研究的發(fā)展現(xiàn)狀,針對(duì)當(dāng)前輿情采集廣泛存在的采集效率不高、目標(biāo)局限性強(qiáng)的問題,提出一種可用戶個(gè)性化主題設(shè)置的基于元搜索引擎的輿情采集策略。通過主題關(guān)鍵字匹配、正則表達(dá)式過濾和基于域名限定爬取的策略,保證系統(tǒng)爬取數(shù)據(jù)的主題相關(guān)性,過濾冗余數(shù)據(jù),提高系統(tǒng)運(yùn)行效率。將輿情信息的來源設(shè)定為公眾集中反映意見、態(tài)度和觀點(diǎn)、傾向的各大新聞門戶網(wǎng)站、博客論壇、網(wǎng)絡(luò)社區(qū)、以及微博等新興媒介。本文研究旨在設(shè)計(jì)出一套適應(yīng)高校的網(wǎng)絡(luò)輿情監(jiān)控的輿情信息采集系統(tǒng),做到實(shí)時(shí)高效地挖掘出互聯(lián)網(wǎng)中相對(duì)于高校敏感的輿論信息,對(duì)獲取的數(shù)據(jù)進(jìn)行清理和結(jié)構(gòu)化處理,為輿情數(shù)據(jù)的傾向性分析、熱點(diǎn)事件的發(fā)現(xiàn)與事件跟蹤做準(zhǔn)備。實(shí)現(xiàn)的主要成果有:(1)對(duì)網(wǎng)絡(luò)輿情結(jié)構(gòu)特征、采集來源進(jìn)行具體研究,結(jié)合國內(nèi)外輿情采集系統(tǒng)研究的現(xiàn)有技術(shù)和模式,根據(jù)南華大學(xué)網(wǎng)絡(luò)輿情監(jiān)控平臺(tái)的實(shí)際需求,進(jìn)行系統(tǒng)分析、設(shè)計(jì);(2)分別實(shí)現(xiàn)對(duì)不同輿情采集來源的網(wǎng)頁進(jìn)行解析,對(duì)網(wǎng)頁不同標(biāo)簽重要程度進(jìn)行分析,提取相關(guān)輿情要素;(3)實(shí)現(xiàn)用戶對(duì)輿情主題和輿情采集來源的可配置性,用戶可基于主題關(guān)鍵字和域名對(duì)輿情信息來源進(jìn)行爬取URL源設(shè)置,實(shí)現(xiàn)個(gè)性化輿情采集;(4)對(duì)網(wǎng)絡(luò)輿情的爬行策略進(jìn)行分析,基于元搜索引擎進(jìn)行數(shù)據(jù)爬取,采用多線程并行爬取實(shí)現(xiàn)實(shí)時(shí)高效爬取;(5)基于JAVA開源SSH框架實(shí)現(xiàn)系統(tǒng)整體架構(gòu),將應(yīng)用分為表現(xiàn)層、控制層、業(yè)務(wù)邏輯層和數(shù)據(jù)訪問層,降低各層之間的耦合度。實(shí)現(xiàn)了系統(tǒng)的開發(fā)和測試,為整個(gè)監(jiān)控系統(tǒng)的后續(xù)工作做好準(zhǔn)備。
【關(guān)鍵詞】:輿情監(jiān)控 輿情采集 爬行策略 網(wǎng)頁解析 SSH框架
【學(xué)位授予單位】:南華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要9-11
  • Abstract11-13
  • 第一章 緒論13-19
  • 1.1 項(xiàng)目背景與意義13-14
  • 1.2 國內(nèi)外研究現(xiàn)狀14-16
  • 1.3 研究目的與主要內(nèi)容16-17
  • 1.4 論文的組織結(jié)構(gòu)17-19
  • 第二章 相關(guān)理論和關(guān)鍵技術(shù)19-28
  • 2.1 網(wǎng)絡(luò)輿情的要素和特征19
  • 2.2 網(wǎng)絡(luò)輿情的采集來源19-20
  • 2.3 主題網(wǎng)絡(luò)爬蟲的基本概念20-22
  • 2.4 網(wǎng)絡(luò)爬蟲的爬行策略和技術(shù)22-25
  • 2.4.1 網(wǎng)頁搜索策略22-23
  • 2.4.2 重新訪問策略23
  • 2.4.3 平衡禮貌策略23-24
  • 2.4.4 主題設(shè)置的采集策略24
  • 2.4.5 網(wǎng)絡(luò)爬蟲技術(shù)24-25
  • 2.5 元搜索引擎技術(shù)25-26
  • 2.6 個(gè)性化搜索技術(shù)26-27
  • 2.6.1 個(gè)性化技術(shù)的研究現(xiàn)狀27
  • 2.6.2 個(gè)性化搜索的主要方法27
  • 2.7 本章小結(jié)27-28
  • 第三章 系統(tǒng)的需求分析28-34
  • 3.1 元搜索引擎需求分析28
  • 3.2 主題導(dǎo)向搜索引擎需求分析28-29
  • 3.3 系統(tǒng)需求分析29-30
  • 3.3.1 系統(tǒng)需求目標(biāo)29
  • 3.3.2 系統(tǒng)的最終用戶29-30
  • 3.4 系統(tǒng)用例模型30-33
  • 3.5 本章小結(jié)33-34
  • 第四章 系統(tǒng)的研究和設(shè)計(jì)34-54
  • 4.1 系統(tǒng)架構(gòu)設(shè)計(jì)34-35
  • 4.2 系統(tǒng)功能實(shí)現(xiàn)方案35-36
  • 4.3 系統(tǒng)后臺(tái)結(jié)構(gòu)設(shè)計(jì)36-49
  • 4.3.1 后臺(tái)整體數(shù)據(jù)流37-38
  • 4.3.2 下載線程與下載控制線程38-41
  • 4.3.3 URL解析線程與控制線程41-43
  • 4.3.4 文檔結(jié)構(gòu)解析線程與控制線程43-45
  • 4.3.5 分詞索引線程和控制線程45-47
  • 4.3.6 查詢過濾線程和控制線程47-49
  • 4.4 系統(tǒng)前臺(tái)結(jié)構(gòu)設(shè)計(jì)49
  • 4.5 元搜索引擎設(shè)計(jì)49-52
  • 4.5.1 元搜索引擎模型49-50
  • 4.5.2 元搜索引擎的提取算法50-51
  • 4.5.3 元搜索引擎主題導(dǎo)向爬行器設(shè)計(jì)51-52
  • 4.6 系統(tǒng)數(shù)據(jù)庫設(shè)計(jì)52-53
  • 4.7 本章小結(jié)53-54
  • 第五章 實(shí)驗(yàn)與結(jié)果分析54-63
  • 5.1 實(shí)驗(yàn)設(shè)置54-55
  • 5.1.1 實(shí)驗(yàn)環(huán)境設(shè)置54
  • 5.1.2 實(shí)驗(yàn)數(shù)據(jù)設(shè)置54-55
  • 5.1.3 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)55
  • 5.2 主題爬蟲實(shí)驗(yàn)55-60
  • 5.2.1 實(shí)驗(yàn)?zāi)康?/span>55
  • 5.2.2 實(shí)驗(yàn)內(nèi)容55-58
  • 5.2.3 實(shí)驗(yàn)結(jié)果分析58-60
  • 5.3 元搜索實(shí)驗(yàn)60-62
  • 5.3.1 實(shí)驗(yàn)?zāi)康?/span>60
  • 5.3.2 實(shí)驗(yàn)內(nèi)容60-62
  • 5.3.3 實(shí)驗(yàn)結(jié)果分析62
  • 5.4 本章小結(jié)62-63
  • 第六章 總結(jié)與展望63-65
  • 6.1 系統(tǒng)主要功能實(shí)現(xiàn)63
  • 6.2 工作總結(jié)63-64
  • 6.3 工作展望64-65
  • 參考文獻(xiàn)65-68
  • 致謝68

【參考文獻(xiàn)】

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 黃仲清;互聯(lián)網(wǎng)主題信息定向采集研究[D];華東師范大學(xué);2010年



本文編號(hào):626012

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/626012.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3a543***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com