博客媒體分析系統(tǒng)設計與實現(xiàn)
發(fā)布時間:2024-05-22 02:21
隨著網(wǎng)絡的發(fā)展,博客已經(jīng)被越來越多的人用來分享信息和討論熱門話題,截止到2015年上半年,博客用戶規(guī)模就已經(jīng)達到47,457萬人。在面對海量且繁雜的博客數(shù)據(jù)時,用戶需要得到自己感興趣并且有一定價值的信息,也想要了解近段時間內(nèi)的熱門話題。博客分析,成為了一種十分有必要的輿論監(jiān)測手段。但是,這其中也存在著一些問題有待解決,比如博客每天都有更新,怎樣讓分析做到實時,保證分析的博客語料是當下最新發(fā)布的;如何更好地利用博客數(shù)據(jù),做到有針對性,更全面地分析博客等等。本文的主要工作有:(1)設計并實現(xiàn)了博客媒體分析系統(tǒng)。系統(tǒng)主要分為前期的語料預處理模塊以及后期的分析模塊。語料預處理模塊是對博客語料進行爬取和抽取,首先對博客語料進行詳細分析,得出實現(xiàn)系統(tǒng)功能所需要屬性方便后期爬蟲爬取語料,爬取完畢后將博客語料的每一個屬性抽取出來,對其進行索引的構建,索引構建是檢索的前提,后期的分析模塊需要以檢索這些語料為基礎。分析模塊需要對構建的索引進行檢索調(diào)用,完成相應分析。分析功能主要有時間檢索,關鍵字檢索,趨勢分析、聚類分析以及用戶分析等功能。設計好之后,確定系統(tǒng)框架以及所使用的技術并加以實現(xiàn)。(2)在實現(xiàn)系統(tǒng)...
【文章頁數(shù)】:54 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3980255
【文章頁數(shù)】:54 頁
【學位級別】:碩士
【部分圖文】:
圖2.2主題網(wǎng)絡爬蟲體系結構??2.1.3增量式網(wǎng)絡爬蟲??
生了變化的頁面。和之前的策略相比,可以有效減少無用數(shù)據(jù)的下載,但是由于??需要判斷頁面是否更新,該頁面是否己經(jīng)被爬取過,會需要額外的算法去計算,??增加了其復雜度[6]。其體系結構如圖2.3所示。??6??
圖2.3增量式爬蟲體系結構??2.1.4深度網(wǎng)絡爬蟲??
表單分析和頁面保持。在爬取過程中會首先判斷網(wǎng)頁是普通網(wǎng)頁還是深度頁面,??如果是深度頁面,則提交合適的表單參數(shù)來訪問該頁面,獲取更多信息[7]。其體??系結構如圖2.4所示。??7??
圖2.4深度網(wǎng)絡爬蟲體系結構??2.2?Lucene??
計成了抽象類[12],所有的索引以及搜索操作均由相應類調(diào)用方法完成,這樣,可??以很方便進行二次開發(fā)。接下來討論Lucene如何將這些抽象類組織起來實現(xiàn)相應??功能[13][14],組織結構如圖2.5所示。??8??
圖2.5?Lucene組織結構圖??2.2.2?Lucene索引結構??
Lucene中的索引和傳統(tǒng)的正向索引有所不同,是倒排索引,一種相較于正向??索引更加優(yōu)秀的索引結構。??正向索引結構如圖2.6所示。??/?7?I?I?j?I?|?|?!??/文檔1?/??!關鍵詞1?i出現(xiàn)次數(shù)位置列表!??關鍵詞2?I出現(xiàn)次數(shù)-位置列表!???/?/?I?1?....
本文編號:3980255
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3980255.html
最近更新
教材專著