博客媒體分析系統(tǒng)設(shè)計與實現(xiàn)
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.2主題網(wǎng)絡(luò)爬蟲體系結(jié)構(gòu)??2.1.3增量式網(wǎng)絡(luò)爬蟲??
生了變化的頁面。和之前的策略相比,可以有效減少無用數(shù)據(jù)的下載,但是由于??需要判斷頁面是否更新,該頁面是否己經(jīng)被爬取過,會需要額外的算法去計算,??增加了其復(fù)雜度[6]。其體系結(jié)構(gòu)如圖2.3所示。??6??
圖2.3增量式爬蟲體系結(jié)構(gòu)??2.1.4深度網(wǎng)絡(luò)爬蟲??
表單分析和頁面保持。在爬取過程中會首先判斷網(wǎng)頁是普通網(wǎng)頁還是深度頁面,??如果是深度頁面,則提交合適的表單參數(shù)來訪問該頁面,獲取更多信息[7]。其體??系結(jié)構(gòu)如圖2.4所示。??7??
圖2.4深度網(wǎng)絡(luò)爬蟲體系結(jié)構(gòu)??2.2?Lucene??
計成了抽象類[12],所有的索引以及搜索操作均由相應(yīng)類調(diào)用方法完成,這樣,可??以很方便進行二次開發(fā)。接下來討論Lucene如何將這些抽象類組織起來實現(xiàn)相應(yīng)??功能[13][14],組織結(jié)構(gòu)如圖2.5所示。??8??
圖2.5?Lucene組織結(jié)構(gòu)圖??2.2.2?Lucene索引結(jié)構(gòu)??
Lucene中的索引和傳統(tǒng)的正向索引有所不同,是倒排索引,一種相較于正向??索引更加優(yōu)秀的索引結(jié)構(gòu)。??正向索引結(jié)構(gòu)如圖2.6所示。??/?7?I?I?j?I?|?|?!??/文檔1?/??!關(guān)鍵詞1?i出現(xiàn)次數(shù)位置列表!??關(guān)鍵詞2?I出現(xiàn)次數(shù)-位置列表!???/?/?I?1?....
本文編號:3980255
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3980255.html