企業(yè)輿情監(jiān)控系統(tǒng)POMS的設計與實現
發(fā)布時間:2024-04-12 18:53
隨著互聯網的飛速發(fā)展,各類企業(yè)相關的輿情信息和行業(yè)動態(tài)信息呈爆炸式增長,輿情信息對企業(yè)發(fā)展起著重要作用。因此,如何在海量信息中獲取對企業(yè)有價值的信息,具有一定的研究價值。企業(yè)輿情監(jiān)控系統(tǒng)經過多年的發(fā)展,在幫助企業(yè)獲取、搜索、分析和監(jiān)控與企業(yè)相關的輿情信息方面取得了一定的進展,得到了較廣泛的應用。但面對越來越多的各類網站、論壇、微博和微信等自媒體數據,如何有效地獲取相關信息,并在數據預處理的正文提取過程中,兼顧速度和質量,快速有效地提取企業(yè)相關的信息;如何面向企業(yè)用戶個性化地推薦他們感興趣的信息依然是一個沒有解決好的問題;谏鲜鰡栴},本文設計并實現了企業(yè)輿情系統(tǒng)POMS,其主要工作包括如下幾個方面:1.構建了輿情監(jiān)控系統(tǒng)框架,設計并實現了輿情監(jiān)控系統(tǒng)POMS的數據采集模塊、事件分析模塊、全文檢索模塊、文章推薦模塊和用戶管理模塊。2.針對數據預處理中正文提取方法難以兼顧速度和質量的問題,研究網頁正文提取算法,分析了基于標簽路徑比率的網頁新聞提取算法和基于行塊分布的正文提取算法的優(yōu)缺點,提出并實現了先探測網頁正文位置并將正文位置入庫,再提取正文的方法。3.針對輿情監(jiān)控系統(tǒng)中全文檢索模塊中檢...
【文章頁數】:75 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3951820
【文章頁數】:75 頁
【學位級別】:碩士
【部分圖文】:
圖2-1Scrapy主要模塊之間的協同工作圖
圖2-1Scrapy主要模塊之間的協同工作圖Fig.2-1Scrapyworkflowpicture圖2-1為Scrapy主要模塊之間的協同工作圖。每個模塊的功能如下:1)Scrapy引擎:爬蟲的核心部分,是程序的入口和主要工作單元,負責與調度器、數據結構化....
圖3-1搜狗微信接口Fig.3-1WebAPIofsogouweixin
圖3-1搜狗微信接口Fig.3-1WebAPIofsogouweixin在輿情監(jiān)控系統(tǒng)中提供了對新聞網站、論壇網站、新浪微博以及微信等網站上所發(fā)布的信息進行爬取監(jiān)控的功能。本章主要介紹了輿情監(jiān)控系統(tǒng)中數據采集模塊如何對微信公眾號上的文章進行爬取。數據采集模塊通過騰訊提....
圖3-2搜狗微信搜索結果圖
圖右邊為查詢結果列表在網頁中的XPATH信息。由于搜狗微信接口的網頁頁面時常會進行更新,所以需要定期更新查詢結果列表的XPATH信息。本文將XPATH信息存儲于MySql關系型數據庫中,通過外部配置XPATH信息的方式定期更新XPATH信息。搜狗微信關鍵詞....
圖3-3采集文章示例
-25-圖3-3采集文章示例Fig.3-3Exampleofcrawlcontentresult
本文編號:3951820
本文鏈接:http://sikaile.net/jingjilunwen/xmjj/3951820.html
最近更新
教材專著