微博信息可視化系統(tǒng)的設計與實現(xiàn)
發(fā)布時間:2020-12-08 20:43
隨著移動互聯(lián)網的發(fā)展,參與微博類社交平臺的用戶數(shù)呈指數(shù)級增長。據(jù)新浪微博去年第二季度財報統(tǒng)計,微博用戶月活躍規(guī)模己達4.31億。面對浩瀚如海的微博文本集,如何根據(jù)關鍵字、話題等查詢需求,對檢索結果集精確高效分析、可視化處理,是目前亟需的功能。而當前各微博平臺的檢索功能,只能返回文檔形式的結果集。如何根據(jù)查詢需求,對所有查詢結果集做更有效的可視化處理,是微博信息平臺目前面臨的最大挑戰(zhàn)。針對該挑戰(zhàn),本文構建了微博信息可視化系統(tǒng),主要研究工作包括以下兩個部分:第一,話題趨勢與地域分析:首先使用WebCollector爬蟲下載微博原始帖子,并根據(jù)規(guī)則預處理;然后再利用中文IK分詞器插件和自定義擴展詞典,對語料庫中每篇短文本做分詞、消歧、去停用詞等處理,并生成對應的倒排記錄表和詞典;之后再利用ELK技術棧搭建分布式索引庫和搜索引擎平臺,將倒排記錄表和詞典中所有數(shù)據(jù)存儲在該平臺中;最后根據(jù)信息檢索模型查詢結果集,利用可視化組件Kibana對查詢結果集做數(shù)據(jù)統(tǒng)計分析與可視化處理。通過該功能,可以幫助用戶快速從結果集中獲取與其相關的用戶地域分布、話題發(fā)展趨勢以及關注程度。第二,話題聚類:首先利用檢索功...
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
圖2.1通用型網絡爬蟲系統(tǒng)結構圖??
??圖2.1通用型網絡爬蟲系統(tǒng)結構圖??2.?1.?2深層網絡爬蟲??根據(jù)訪問網站中網頁的方式,可將網頁分為深層與表層網頁。表層網頁是指??不需用戶經過注冊登錄、權限驗證可直接落地訪問,或可通過URL鏈接直接落地??訪問,或由靜態(tài)網頁構成的Web頁面。同時,也包括那些能被搜索引擎直接索引??的網頁。對于深層頁面,則指哪些隱藏在表單后面,或需要登錄后才能訪問的??Web頁面;另外,它也是互聯(lián)網環(huán)境中訪問量最大、發(fā)展最快的資源。這里著重??介紹爬取深層網頁的網絡爬蟲——深層網絡爬蟲,從系統(tǒng)功能角度來看,其主要??由表單處理器、表單填充與提交、主題分類器、URL隊列、響應結果分析、頁面??分析器、主題詞庫組成[9],系統(tǒng)結構設計如圖2.2所示。涉及到的數(shù)據(jù)結構主要包??括URL隊列、填充表單數(shù)據(jù)源的主題詞庫
妒墾?宦畚模崳姡停粒櫻裕牛遙В櫻牐裕齲牛櫻桑櫻崳?過濾模塊、內容分析器、倒排索引庫、評價模塊、頁面內容數(shù)據(jù)庫、搜索策略處??理器、URL緩存共九個模塊組成[12],對應的系統(tǒng)結構設計如圖2.3所示。??^?頁面?(??I?Tv?????I頁面內容數(shù)據(jù)庫??頁面陡取橫塊??搜索策略處理器??內容分析器? ̄|?URL緩存?f?狐隊列?f?r—??主歴詞????IR1.過濾挨塊?種子陳??i??f?索引庫?Q???評價模塊????圖2.3主題型網絡爬蟲結構圖??2.1.4增量式網絡爬蟲??增量式爬蟲是一種以抓取保存的網頁內容和鏈接為基礎,只爬取網頁內容發(fā)??生改變或新增的爬蟲。其目標就是保證當前存儲內容的質量,以及與網絡頁面內??容的一致性。為了實現(xiàn)內容一致性,通常使用這三種策略,第一是所有爬蟲以相??同的周期,訪問URL消費隊列中所有資源;第二是根據(jù)頁面內容更新周期的大小,??分為不同區(qū)域的子集URL隊列,用不同的周期訪問各個子集;第三是根據(jù)每個網??頁的更新周期,重新抓取各個頁面。為了提聞內容的質量,則需根據(jù)業(yè)務需求選??擇恰當?shù)呐廊〔呗,對網頁爬取順序做出排序。與其它類爬蟲相比,增量式網絡??爬蟲以相應的爬行策略實現(xiàn)了內容去重
【參考文獻】:
期刊論文
[1]基于搜索引擎的中文歧義詞收集系統(tǒng)研究[J]. 吉向東. 現(xiàn)代情報. 2010(06)
[2]基于統(tǒng)計語言模型的信息檢索[J]. 李曉光,王大玲,于戈. 計算機科學. 2005(08)
[3]文本信息檢索中的概率模型[J]. 張文進. 情報雜志. 2005(03)
[4]信息檢索的概率模型[J]. 邢永康,馬少平. 計算機科學. 2003(08)
碩士論文
[1]微博輿情可視化系統(tǒng)的研究與實現(xiàn)[D]. 黃冠華.江蘇大學 2016
[2]基于微博用戶行為的興趣模型構建和可視化方法研究[D]. 何苾菲.哈爾濱工業(yè)大學 2013
[3]社會標注中標簽語義分析研究[D]. 吳曉芳.大連理工大學 2011
本文編號:2905659
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
圖2.1通用型網絡爬蟲系統(tǒng)結構圖??
??圖2.1通用型網絡爬蟲系統(tǒng)結構圖??2.?1.?2深層網絡爬蟲??根據(jù)訪問網站中網頁的方式,可將網頁分為深層與表層網頁。表層網頁是指??不需用戶經過注冊登錄、權限驗證可直接落地訪問,或可通過URL鏈接直接落地??訪問,或由靜態(tài)網頁構成的Web頁面。同時,也包括那些能被搜索引擎直接索引??的網頁。對于深層頁面,則指哪些隱藏在表單后面,或需要登錄后才能訪問的??Web頁面;另外,它也是互聯(lián)網環(huán)境中訪問量最大、發(fā)展最快的資源。這里著重??介紹爬取深層網頁的網絡爬蟲——深層網絡爬蟲,從系統(tǒng)功能角度來看,其主要??由表單處理器、表單填充與提交、主題分類器、URL隊列、響應結果分析、頁面??分析器、主題詞庫組成[9],系統(tǒng)結構設計如圖2.2所示。涉及到的數(shù)據(jù)結構主要包??括URL隊列、填充表單數(shù)據(jù)源的主題詞庫
妒墾?宦畚模崳姡停粒櫻裕牛遙В櫻牐裕齲牛櫻桑櫻崳?過濾模塊、內容分析器、倒排索引庫、評價模塊、頁面內容數(shù)據(jù)庫、搜索策略處??理器、URL緩存共九個模塊組成[12],對應的系統(tǒng)結構設計如圖2.3所示。??^?頁面?(??I?Tv?????I頁面內容數(shù)據(jù)庫??頁面陡取橫塊??搜索策略處理器??內容分析器? ̄|?URL緩存?f?狐隊列?f?r—??主歴詞????IR1.過濾挨塊?種子陳??i??f?索引庫?Q???評價模塊????圖2.3主題型網絡爬蟲結構圖??2.1.4增量式網絡爬蟲??增量式爬蟲是一種以抓取保存的網頁內容和鏈接為基礎,只爬取網頁內容發(fā)??生改變或新增的爬蟲。其目標就是保證當前存儲內容的質量,以及與網絡頁面內??容的一致性。為了實現(xiàn)內容一致性,通常使用這三種策略,第一是所有爬蟲以相??同的周期,訪問URL消費隊列中所有資源;第二是根據(jù)頁面內容更新周期的大小,??分為不同區(qū)域的子集URL隊列,用不同的周期訪問各個子集;第三是根據(jù)每個網??頁的更新周期,重新抓取各個頁面。為了提聞內容的質量,則需根據(jù)業(yè)務需求選??擇恰當?shù)呐廊〔呗,對網頁爬取順序做出排序。與其它類爬蟲相比,增量式網絡??爬蟲以相應的爬行策略實現(xiàn)了內容去重
【參考文獻】:
期刊論文
[1]基于搜索引擎的中文歧義詞收集系統(tǒng)研究[J]. 吉向東. 現(xiàn)代情報. 2010(06)
[2]基于統(tǒng)計語言模型的信息檢索[J]. 李曉光,王大玲,于戈. 計算機科學. 2005(08)
[3]文本信息檢索中的概率模型[J]. 張文進. 情報雜志. 2005(03)
[4]信息檢索的概率模型[J]. 邢永康,馬少平. 計算機科學. 2003(08)
碩士論文
[1]微博輿情可視化系統(tǒng)的研究與實現(xiàn)[D]. 黃冠華.江蘇大學 2016
[2]基于微博用戶行為的興趣模型構建和可視化方法研究[D]. 何苾菲.哈爾濱工業(yè)大學 2013
[3]社會標注中標簽語義分析研究[D]. 吳曉芳.大連理工大學 2011
本文編號:2905659
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2905659.html
最近更新
教材專著