基于kafka的電商企業(yè)搜索引擎數(shù)據(jù)綜合處理系統(tǒng)的研究與應(yīng)用
發(fā)布時(shí)間:2020-05-20 22:00
【摘要】:隨著電子商務(wù)行業(yè)的高速發(fā)展,線上與線下加速融合,伴隨業(yè)務(wù)的不斷發(fā)展,系統(tǒng)中存儲(chǔ)的數(shù)據(jù)量也大幅增長(zhǎng)。而對(duì)其中的數(shù)據(jù),比如商品數(shù)據(jù)、庫(kù)存數(shù)據(jù)、門店數(shù)據(jù)等多種類數(shù)據(jù)的匯集、查詢、排序、篩選的需求日漸突出。這對(duì)企業(yè)電商平臺(tái)的搜索功能提出了更高的要求。構(gòu)建一個(gè)符合企業(yè)業(yè)務(wù)場(chǎng)景的商品搜索引擎,可以大大提升顧客的購(gòu)物體驗(yàn),對(duì)企業(yè)有著重大的戰(zhàn)略和實(shí)際意義。而數(shù)據(jù)綜合處理系統(tǒng)可以解決商品搜索引擎的數(shù)據(jù)來(lái)源問題,是搜索引擎建設(shè)的重要前提。本文旨在基于KAFKA構(gòu)建一個(gè)多源導(dǎo)入的數(shù)據(jù)綜合處理系統(tǒng),通過(guò)對(duì)數(shù)據(jù)的匯集和綜合處理,獲得滿足需要的結(jié)構(gòu)化寬表數(shù)據(jù)作為計(jì)算結(jié)果,從而解決電商搜索引擎數(shù)據(jù)的導(dǎo)入與更新的問題。使得搜索引擎業(yè)務(wù)能夠迅速構(gòu)建開展。通過(guò)研究發(fā)現(xiàn),傳統(tǒng)的基于關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)綜合處理,在面對(duì)業(yè)務(wù)邏輯復(fù)雜、應(yīng)用規(guī)模擴(kuò)展性方面存在瓶頸。而常見的通用性ETL工具,一方面基于離線場(chǎng)景,數(shù)據(jù)的實(shí)時(shí)響應(yīng)不夠,另一方面,可定制性不強(qiáng),并且需要專業(yè)的維護(hù)人員,投入成本高。本文從企業(yè)的實(shí)際需求出發(fā),通過(guò)對(duì)需求的梳理和篩選,綜合項(xiàng)目經(jīng)濟(jì)性、人員經(jīng)濟(jì)性、項(xiàng)目進(jìn)度、系統(tǒng)功能完善度、系統(tǒng)擴(kuò)展性等方面因素,選擇了自研數(shù)據(jù)綜合處理系統(tǒng)的方案。首先對(duì)需求進(jìn)行了收集,對(duì)系統(tǒng)的周邊生態(tài),功能定位進(jìn)行了定義,同時(shí)對(duì)系統(tǒng)的非功能性需求進(jìn)行了確定。進(jìn)一步的,對(duì)數(shù)據(jù)綜合處理的子系統(tǒng)進(jìn)行了功能定位和邊界的劃分,明確了每個(gè)模塊的要求和職責(zé)。然后,對(duì)數(shù)據(jù)接收子系統(tǒng)、數(shù)據(jù)處理子系統(tǒng)、數(shù)據(jù)提交子系統(tǒng)、任務(wù)調(diào)度子系統(tǒng)進(jìn)行了詳細(xì)設(shè)計(jì)和實(shí)現(xiàn)。通過(guò)使用KAFKA、Cassandra、vert.x框架及elastic-job等開源分布式組件的引入,在設(shè)計(jì)之初,就保證了系統(tǒng)的高性能和可擴(kuò)展性。同時(shí),設(shè)計(jì)了應(yīng)用端統(tǒng)一的系統(tǒng)接收流程規(guī)范,從而保證了數(shù)據(jù)接收的可靠性。通過(guò)獨(dú)特的時(shí)間片數(shù)據(jù)處理機(jī)制,發(fā)揮了Cassandra、vert.x框架及elastic-job等的特性,使系統(tǒng)可以多類型任務(wù)的并行處理,輕量級(jí)實(shí)現(xiàn)地實(shí)現(xiàn)寬表的合并。同時(shí),通過(guò)數(shù)據(jù)接收的順序性,version的唯一性,解決了任務(wù)狀態(tài)沖突的問題。最后對(duì)系統(tǒng)進(jìn)行了功能性測(cè)試和非功能性測(cè)試。本文通過(guò)對(duì)數(shù)據(jù)綜合處理系統(tǒng)研究,發(fā)現(xiàn)了目前通用的方案存在的擴(kuò)展性、實(shí)時(shí)性、定制性、經(jīng)濟(jì)性等問題,通過(guò)使用開源分布式組件,自研數(shù)據(jù)綜合處理系統(tǒng),解決了通用系統(tǒng)在性能和擴(kuò)展性上的問題,同時(shí),通過(guò)設(shè)計(jì)系統(tǒng)接收流程規(guī)范和時(shí)間片數(shù)據(jù)處理機(jī)制,增加了系統(tǒng)的可靠性,最終保證了系統(tǒng)的順利上線。
【學(xué)位授予單位】:上海師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F724.6;TP391.3
本文編號(hào):2673258
【學(xué)位授予單位】:上海師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F724.6;TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 趙凱;王敏;;基于Solr的企業(yè)級(jí)搜索引擎的設(shè)計(jì)[J];電子世界;2013年22期
2 霍慶;劉培植;;使用Solr為大數(shù)據(jù)庫(kù)搭建搜索引擎[J];軟件;2011年06期
3 安康健;;企業(yè)級(jí)搜索引擎的“藍(lán)海”[J];上海信息化;2011年06期
4 繆嘉嘉,鄧蘇,劉青寶;ETL綜述[J];計(jì)算機(jī)工程;2004年03期
,本文編號(hào):2673258
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2673258.html
最近更新
教材專著