WebCollector和ElasticSearch在高校網(wǎng)站群敏感詞檢測(cè)中的應(yīng)用研究
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
圖1Webcollector內(nèi)核構(gòu)架圖
WebCollector是一個(gè)基于Java的開(kāi)源爬蟲(chóng)框架[5],框架提供了精簡(jiǎn)的API,只需要做少量的代碼開(kāi)發(fā)就能實(shí)現(xiàn)功能強(qiáng)大的網(wǎng)絡(luò)爬蟲(chóng)程序[6-7]。如圖1所示,在一開(kāi)始注入種子任務(wù),通過(guò)任務(wù)生成器,按照預(yù)先設(shè)定的運(yùn)行線程數(shù),單線程或者多線程執(zhí)行每個(gè)任務(wù),在執(zhí)行每個(gè)任務(wù)前,框架....
圖2ES寫(xiě)操作原理
分片(Shard),分片是數(shù)據(jù)的容器,文檔保存在分片內(nèi),分片被分配到集群的各個(gè)節(jié)點(diǎn)中,分片分為主分片和副本分片,任一一個(gè)文檔都屬于一個(gè)主分片,副分片只是主分片的一個(gè)拷貝。3.3ElasticSearch運(yùn)行原理
圖3ES讀操作原理
如圖2所示,當(dāng)客戶端向協(xié)調(diào)節(jié)點(diǎn)發(fā)送寫(xiě)文檔請(qǐng)求時(shí),協(xié)調(diào)節(jié)點(diǎn)會(huì)對(duì)文檔id使用hash算法進(jìn)行散列,確定文檔應(yīng)該被索引到哪個(gè)分片。散列算法為:shard=hash(document_id)%(num_of_primary_shards)。當(dāng)分片節(jié)點(diǎn)收到協(xié)調(diào)節(jié)點(diǎn)的請(qǐng)求時(shí),會(huì)把請(qǐng)求寫(xiě)入tr....
圖4系統(tǒng)架構(gòu)圖
4.1系統(tǒng)架構(gòu)設(shè)計(jì)圖4為系統(tǒng)的架構(gòu)圖,在系統(tǒng)中有WebCollector爬蟲(chóng)程序,保存配置信息的數(shù)據(jù)庫(kù),存儲(chǔ)網(wǎng)頁(yè)數(shù)據(jù)的ES集群,以及定時(shí)執(zhí)行任務(wù)的Quartz程序等組件[13]。
本文編號(hào):3942233
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3942233.html