天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

WebCollector和ElasticSearch在高校網(wǎng)站群敏感詞檢測(cè)中的應(yīng)用研究

發(fā)布時(shí)間:2024-03-30 10:42
  在高校信息化建設(shè)過(guò)程中,建設(shè)了大量的網(wǎng)站,這些網(wǎng)站發(fā)布的信息和展示的內(nèi)容很可能含有國(guó)家法律禁止或者學(xué)校規(guī)定禁止的敏感詞匯,針對(duì)從海量的網(wǎng)站信息中定位到敏感詞匯的目的,本文采用了文獻(xiàn)研究法、個(gè)案研究法及實(shí)證研究法,通過(guò)研究相關(guān)材料文獻(xiàn)和技術(shù)文檔,研究相關(guān)系統(tǒng)設(shè)計(jì)案例,結(jié)合實(shí)際情況設(shè)計(jì)和實(shí)現(xiàn)一個(gè)能運(yùn)行的系統(tǒng),得出基于Webcollector爬蟲(chóng)框架和ElasticSearch搜索引擎設(shè)計(jì)和實(shí)現(xiàn)網(wǎng)站群敏感詞檢測(cè)系統(tǒng)的可行性。

【文章頁(yè)數(shù)】:5 頁(yè)

【部分圖文】:

圖1Webcollector內(nèi)核構(gòu)架圖

圖1Webcollector內(nèi)核構(gòu)架圖

WebCollector是一個(gè)基于Java的開(kāi)源爬蟲(chóng)框架[5],框架提供了精簡(jiǎn)的API,只需要做少量的代碼開(kāi)發(fā)就能實(shí)現(xiàn)功能強(qiáng)大的網(wǎng)絡(luò)爬蟲(chóng)程序[6-7]。如圖1所示,在一開(kāi)始注入種子任務(wù),通過(guò)任務(wù)生成器,按照預(yù)先設(shè)定的運(yùn)行線程數(shù),單線程或者多線程執(zhí)行每個(gè)任務(wù),在執(zhí)行每個(gè)任務(wù)前,框架....


圖2ES寫(xiě)操作原理

圖2ES寫(xiě)操作原理

分片(Shard),分片是數(shù)據(jù)的容器,文檔保存在分片內(nèi),分片被分配到集群的各個(gè)節(jié)點(diǎn)中,分片分為主分片和副本分片,任一一個(gè)文檔都屬于一個(gè)主分片,副分片只是主分片的一個(gè)拷貝。3.3ElasticSearch運(yùn)行原理


圖3ES讀操作原理

圖3ES讀操作原理

如圖2所示,當(dāng)客戶端向協(xié)調(diào)節(jié)點(diǎn)發(fā)送寫(xiě)文檔請(qǐng)求時(shí),協(xié)調(diào)節(jié)點(diǎn)會(huì)對(duì)文檔id使用hash算法進(jìn)行散列,確定文檔應(yīng)該被索引到哪個(gè)分片。散列算法為:shard=hash(document_id)%(num_of_primary_shards)。當(dāng)分片節(jié)點(diǎn)收到協(xié)調(diào)節(jié)點(diǎn)的請(qǐng)求時(shí),會(huì)把請(qǐng)求寫(xiě)入tr....


圖4系統(tǒng)架構(gòu)圖

圖4系統(tǒng)架構(gòu)圖

4.1系統(tǒng)架構(gòu)設(shè)計(jì)圖4為系統(tǒng)的架構(gòu)圖,在系統(tǒng)中有WebCollector爬蟲(chóng)程序,保存配置信息的數(shù)據(jù)庫(kù),存儲(chǔ)網(wǎng)頁(yè)數(shù)據(jù)的ES集群,以及定時(shí)執(zhí)行任務(wù)的Quartz程序等組件[13]。



本文編號(hào):3942233

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3942233.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶da579***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com