數(shù)據(jù)驅(qū)動(dòng)的連鎖超市銷售數(shù)據(jù)分析與系統(tǒng)設(shè)計(jì)
發(fā)布時(shí)間:2021-08-28 05:36
對(duì)于傳統(tǒng)零售業(yè)來(lái)說(shuō),銷售是決定其能否成功的要素之一。近年互聯(lián)網(wǎng)的疾速發(fā)展使得銷售數(shù)據(jù)規(guī)模和種類急劇增長(zhǎng),依靠傳統(tǒng)的人為分析海量銷售數(shù)據(jù)從而決策的方式越來(lái)越無(wú)法滿足企業(yè)的高效率要求,將銷售數(shù)據(jù)分析與數(shù)據(jù)挖掘進(jìn)行結(jié)合成為必然。因此,本文針對(duì)連鎖超市的銷售提出了銷售異常發(fā)現(xiàn)與定位模型和銷售預(yù)測(cè)模型,并在Hadoop云計(jì)算平臺(tái)的Spark分布式處理框架下實(shí)現(xiàn)模型,最后設(shè)計(jì)開(kāi)發(fā)原型系統(tǒng)展示相關(guān)數(shù)據(jù)和結(jié)果,為企業(yè)的高效決策提供了數(shù)據(jù)支持。銷售數(shù)據(jù)由于受到節(jié)假日等因素影響而在一定程度上不具備可比性,采用傳統(tǒng)異常檢測(cè)方法的檢測(cè)結(jié)果并不理想。對(duì)于連鎖超市而言,檢測(cè)異常和定位異常,實(shí)現(xiàn)責(zé)任到人都是其重要需求,因此針對(duì)銷售數(shù)據(jù)的異常發(fā)現(xiàn)與定位方法成為一大難題。于是本文提出了異常發(fā)現(xiàn)與定位模型,模型首先根據(jù)連鎖超市的管理模式將數(shù)據(jù)劃分為四個(gè)層次,然后將每個(gè)層次的原始銷售數(shù)據(jù)曲線轉(zhuǎn)換為權(quán)重曲線使得數(shù)據(jù)具有一定程度的可比性,再進(jìn)行異常發(fā)現(xiàn)并通過(guò)建立概率模型實(shí)現(xiàn)異常定位,最終實(shí)現(xiàn)責(zé)任到人。該模型在異常定位方面具有創(chuàng)新性,另外結(jié)合步步高連鎖超市歷史銷售數(shù)據(jù),該模型在檢測(cè)異常的正確率和召回率方面也具有一定優(yōu)勢(shì)。無(wú)論企業(yè)...
【文章來(lái)源】:湖南科技大學(xué)湖南省
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
全局離群點(diǎn)與局部離群點(diǎn)分布
湖南科技大學(xué)碩士學(xué)位論文-7-異都會(huì)導(dǎo)致消費(fèi)金額、消費(fèi)頻率的不同,因此首先指定情境,比如說(shuō)先將人群分類再進(jìn)行檢測(cè)會(huì)更加有效。情境離群點(diǎn)分析更加靈活,在許多應(yīng)用中會(huì)更加適用。(3)單屬性離群點(diǎn)和多屬性離群點(diǎn)離群點(diǎn)根據(jù)考慮在內(nèi)的屬性數(shù)量可劃分為單屬性離群點(diǎn)和多屬性離群點(diǎn)。單屬性離群點(diǎn)是指僅通過(guò)一個(gè)屬性來(lái)判斷檢測(cè)離群點(diǎn),比如僅按身高來(lái)劃分人群,那么身高3米的則是離群點(diǎn)。多屬性離群點(diǎn)通過(guò)多個(gè)屬性判斷檢測(cè)離群點(diǎn)。比如按照身高和體重共同劃分人群,那么1.5米高和300斤重的人很多,但既1.5米高又體重達(dá)到300斤的人則是離群點(diǎn)。(4)集體離群點(diǎn)顧名思義,當(dāng)一些樣本點(diǎn)的集合在整體上表現(xiàn)為偏離于整個(gè)數(shù)據(jù)集時(shí)則稱之為集體離群點(diǎn)。比如對(duì)物流公司來(lái)說(shuō),每天有大量的配送貨車(chē)從倉(cāng)庫(kù)出發(fā),一輛配送貨車(chē)的延誤現(xiàn)象相對(duì)而言是正常的,但如果某一天幾十輛甚至上百輛貨車(chē)延誤,那么這些貨車(chē)整體來(lái)看就形成了離群點(diǎn)。集體離群點(diǎn)分布如圖2.2所示,C2顯著偏離了整個(gè)數(shù)據(jù)集,為集體離群點(diǎn)。圖2.2集體離群點(diǎn)分布Fig.2.2Distributionofoutliercluster2.2.2異常檢測(cè)方法異常檢測(cè)本質(zhì)上就是對(duì)離群點(diǎn)的挖掘,目前離群點(diǎn)挖掘方法[45]很多,大致分為以下五類:(1)基于分布的方法假設(shè)給定的數(shù)據(jù)集符合某種概率分布模型(例如正態(tài)分布)或利用給定的數(shù)據(jù)集自動(dòng)構(gòu)造其概率分布模型,然后根據(jù)分布模型采用不一致性檢驗(yàn)來(lái)確定離群點(diǎn)[45,46]。較為常見(jiàn)的有正態(tài)分布和盒圖等。但該方法的缺點(diǎn)在于對(duì)模型的依賴度較高,因?yàn)榇蠖鄶?shù)場(chǎng)景下
13-第三章銷售異常發(fā)現(xiàn)與定位模型3.1問(wèn)題引入異常檢測(cè)有利于連鎖超市兩個(gè)方面的決策。一方面,為連鎖超市根據(jù)歷史銷售進(jìn)行獎(jiǎng)懲決策提供數(shù)據(jù)支撐;另一方面,為未來(lái)銷售的相關(guān)營(yíng)銷策略提供數(shù)據(jù)支持。異常檢測(cè)是可用于支持連鎖超市相關(guān)決策的一大方向。零售業(yè)數(shù)據(jù)量龐大,及時(shí)發(fā)現(xiàn)銷售收入狀況的異常并對(duì)其進(jìn)行準(zhǔn)確定位是極為重要的。零售業(yè)的銷售總會(huì)被各種因素影響而導(dǎo)致銷售數(shù)據(jù)在不同時(shí)間所具有的屬性并不完全一致,從而致使其失去可比性,采用一般的離群點(diǎn)檢測(cè)方法無(wú)法直接進(jìn)行數(shù)據(jù)分析或使分析結(jié)果準(zhǔn)確率降低。以圖3.1為例,當(dāng)采用普通離群點(diǎn)檢測(cè)方法時(shí),圖中的許多峰值由于明顯偏離于其他點(diǎn)且數(shù)量極少都將被檢測(cè)為離群點(diǎn),或由這些點(diǎn)構(gòu)成離群簇。但如果這些數(shù)據(jù)為銷售收入數(shù)據(jù)并按照時(shí)間排序,那么顯然這些峰值在時(shí)間上具有規(guī)律性,這些峰值所在時(shí)間可能都是同一特殊日期,也就是說(shuō)在這一時(shí)間上數(shù)值理應(yīng)增長(zhǎng),那么這些峰值與其它數(shù)值就不具備可比性,這種現(xiàn)象在銷售情境下也并不能稱之為異常。于是,本章提出了基于權(quán)重處理銷售數(shù)據(jù)的異常挖掘模型,即銷售異常發(fā)現(xiàn)與定位模型(AnomalyDetectingandLocatingModel,ADLM),它一定程度上解決了數(shù)據(jù)可比性的問(wèn)題后,通過(guò)離群點(diǎn)檢測(cè)實(shí)現(xiàn)異常發(fā)現(xiàn),最后實(shí)施對(duì)異常數(shù)據(jù)的定位,與以往直接進(jìn)行數(shù)據(jù)分析、僅挖掘異常數(shù)據(jù)的方法相比具有創(chuàng)新和實(shí)用意義。該模型包含三個(gè)部分:劃分層次、異常發(fā)現(xiàn)和異常定位。劃分層次后首先針對(duì)每一層面進(jìn)行異常發(fā)現(xiàn)與定位,異常發(fā)現(xiàn)通過(guò)權(quán)重曲線和異常判斷挖掘出所有銷售異常數(shù)據(jù)。然后將四個(gè)層面的分析有機(jī)結(jié)合實(shí)現(xiàn)異常定位。由于連鎖超市銷售數(shù)據(jù)量龐大,整個(gè)模型在Hadoop云計(jì)算平臺(tái)的Spark框架下處理實(shí)現(xiàn)。圖3.1時(shí)間序列數(shù)據(jù)Fig.3.1Timeseriesdata
【參考文獻(xiàn)】:
期刊論文
[1]基于多維灰色模型及神經(jīng)網(wǎng)絡(luò)的銷售預(yù)測(cè)[J]. 黃鴻云,劉衛(wèi)校,丁佐華. 軟件學(xué)報(bào). 2019(04)
[2]基于概率統(tǒng)計(jì)模型的電力IT監(jiān)控對(duì)象特征異常檢測(cè)[J]. 衛(wèi)薇,龍玉江,鐘掖. 山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(04)
[3]基于主成分分析的實(shí)時(shí)全網(wǎng)絡(luò)異常檢測(cè)方法[J]. 張?zhí)炱?張順康. 電子科技. 2019(12)
[4]基于數(shù)據(jù)挖掘的電網(wǎng)企業(yè)收入預(yù)算預(yù)測(cè)系統(tǒng)研究[J]. 賴婧,歐通澤. 金融經(jīng)濟(jì). 2019(04)
[5]基于改進(jìn)加權(quán)移動(dòng)平均法的服裝銷售預(yù)測(cè)[J]. 陳銀光,于守健. 智能計(jì)算機(jī)與應(yīng)用. 2018(06)
[6]基于Apache Spark的大數(shù)據(jù)分析引擎應(yīng)用研究[J]. 王軍. 電子測(cè)試. 2018(16)
[7]基于混合式聚類算法的離群點(diǎn)挖掘在異常檢測(cè)中的應(yīng)用研究[J]. 尹娜,張琳. 計(jì)算機(jī)科學(xué). 2017(05)
[8]基于離散灰色預(yù)測(cè)模型與人工神經(jīng)網(wǎng)絡(luò)混合智能模型的時(shí)尚銷售預(yù)測(cè)[J]. 劉衛(wèi)校. 計(jì)算機(jī)應(yīng)用. 2016(12)
[9]云計(jì)算中Hadoop技術(shù)研究與應(yīng)用綜述[J]. 夏靖波,韋澤鯤,付凱,陳珍. 計(jì)算機(jī)科學(xué). 2016(11)
[10]基于核函數(shù)技術(shù)的時(shí)尚服裝需求預(yù)測(cè)方法[J]. 孟志青,馬珂,鄭英. 計(jì)算機(jī)科學(xué). 2016(S2)
本文編號(hào):3367907
【文章來(lái)源】:湖南科技大學(xué)湖南省
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
全局離群點(diǎn)與局部離群點(diǎn)分布
湖南科技大學(xué)碩士學(xué)位論文-7-異都會(huì)導(dǎo)致消費(fèi)金額、消費(fèi)頻率的不同,因此首先指定情境,比如說(shuō)先將人群分類再進(jìn)行檢測(cè)會(huì)更加有效。情境離群點(diǎn)分析更加靈活,在許多應(yīng)用中會(huì)更加適用。(3)單屬性離群點(diǎn)和多屬性離群點(diǎn)離群點(diǎn)根據(jù)考慮在內(nèi)的屬性數(shù)量可劃分為單屬性離群點(diǎn)和多屬性離群點(diǎn)。單屬性離群點(diǎn)是指僅通過(guò)一個(gè)屬性來(lái)判斷檢測(cè)離群點(diǎn),比如僅按身高來(lái)劃分人群,那么身高3米的則是離群點(diǎn)。多屬性離群點(diǎn)通過(guò)多個(gè)屬性判斷檢測(cè)離群點(diǎn)。比如按照身高和體重共同劃分人群,那么1.5米高和300斤重的人很多,但既1.5米高又體重達(dá)到300斤的人則是離群點(diǎn)。(4)集體離群點(diǎn)顧名思義,當(dāng)一些樣本點(diǎn)的集合在整體上表現(xiàn)為偏離于整個(gè)數(shù)據(jù)集時(shí)則稱之為集體離群點(diǎn)。比如對(duì)物流公司來(lái)說(shuō),每天有大量的配送貨車(chē)從倉(cāng)庫(kù)出發(fā),一輛配送貨車(chē)的延誤現(xiàn)象相對(duì)而言是正常的,但如果某一天幾十輛甚至上百輛貨車(chē)延誤,那么這些貨車(chē)整體來(lái)看就形成了離群點(diǎn)。集體離群點(diǎn)分布如圖2.2所示,C2顯著偏離了整個(gè)數(shù)據(jù)集,為集體離群點(diǎn)。圖2.2集體離群點(diǎn)分布Fig.2.2Distributionofoutliercluster2.2.2異常檢測(cè)方法異常檢測(cè)本質(zhì)上就是對(duì)離群點(diǎn)的挖掘,目前離群點(diǎn)挖掘方法[45]很多,大致分為以下五類:(1)基于分布的方法假設(shè)給定的數(shù)據(jù)集符合某種概率分布模型(例如正態(tài)分布)或利用給定的數(shù)據(jù)集自動(dòng)構(gòu)造其概率分布模型,然后根據(jù)分布模型采用不一致性檢驗(yàn)來(lái)確定離群點(diǎn)[45,46]。較為常見(jiàn)的有正態(tài)分布和盒圖等。但該方法的缺點(diǎn)在于對(duì)模型的依賴度較高,因?yàn)榇蠖鄶?shù)場(chǎng)景下
13-第三章銷售異常發(fā)現(xiàn)與定位模型3.1問(wèn)題引入異常檢測(cè)有利于連鎖超市兩個(gè)方面的決策。一方面,為連鎖超市根據(jù)歷史銷售進(jìn)行獎(jiǎng)懲決策提供數(shù)據(jù)支撐;另一方面,為未來(lái)銷售的相關(guān)營(yíng)銷策略提供數(shù)據(jù)支持。異常檢測(cè)是可用于支持連鎖超市相關(guān)決策的一大方向。零售業(yè)數(shù)據(jù)量龐大,及時(shí)發(fā)現(xiàn)銷售收入狀況的異常并對(duì)其進(jìn)行準(zhǔn)確定位是極為重要的。零售業(yè)的銷售總會(huì)被各種因素影響而導(dǎo)致銷售數(shù)據(jù)在不同時(shí)間所具有的屬性并不完全一致,從而致使其失去可比性,采用一般的離群點(diǎn)檢測(cè)方法無(wú)法直接進(jìn)行數(shù)據(jù)分析或使分析結(jié)果準(zhǔn)確率降低。以圖3.1為例,當(dāng)采用普通離群點(diǎn)檢測(cè)方法時(shí),圖中的許多峰值由于明顯偏離于其他點(diǎn)且數(shù)量極少都將被檢測(cè)為離群點(diǎn),或由這些點(diǎn)構(gòu)成離群簇。但如果這些數(shù)據(jù)為銷售收入數(shù)據(jù)并按照時(shí)間排序,那么顯然這些峰值在時(shí)間上具有規(guī)律性,這些峰值所在時(shí)間可能都是同一特殊日期,也就是說(shuō)在這一時(shí)間上數(shù)值理應(yīng)增長(zhǎng),那么這些峰值與其它數(shù)值就不具備可比性,這種現(xiàn)象在銷售情境下也并不能稱之為異常。于是,本章提出了基于權(quán)重處理銷售數(shù)據(jù)的異常挖掘模型,即銷售異常發(fā)現(xiàn)與定位模型(AnomalyDetectingandLocatingModel,ADLM),它一定程度上解決了數(shù)據(jù)可比性的問(wèn)題后,通過(guò)離群點(diǎn)檢測(cè)實(shí)現(xiàn)異常發(fā)現(xiàn),最后實(shí)施對(duì)異常數(shù)據(jù)的定位,與以往直接進(jìn)行數(shù)據(jù)分析、僅挖掘異常數(shù)據(jù)的方法相比具有創(chuàng)新和實(shí)用意義。該模型包含三個(gè)部分:劃分層次、異常發(fā)現(xiàn)和異常定位。劃分層次后首先針對(duì)每一層面進(jìn)行異常發(fā)現(xiàn)與定位,異常發(fā)現(xiàn)通過(guò)權(quán)重曲線和異常判斷挖掘出所有銷售異常數(shù)據(jù)。然后將四個(gè)層面的分析有機(jī)結(jié)合實(shí)現(xiàn)異常定位。由于連鎖超市銷售數(shù)據(jù)量龐大,整個(gè)模型在Hadoop云計(jì)算平臺(tái)的Spark框架下處理實(shí)現(xiàn)。圖3.1時(shí)間序列數(shù)據(jù)Fig.3.1Timeseriesdata
【參考文獻(xiàn)】:
期刊論文
[1]基于多維灰色模型及神經(jīng)網(wǎng)絡(luò)的銷售預(yù)測(cè)[J]. 黃鴻云,劉衛(wèi)校,丁佐華. 軟件學(xué)報(bào). 2019(04)
[2]基于概率統(tǒng)計(jì)模型的電力IT監(jiān)控對(duì)象特征異常檢測(cè)[J]. 衛(wèi)薇,龍玉江,鐘掖. 山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(04)
[3]基于主成分分析的實(shí)時(shí)全網(wǎng)絡(luò)異常檢測(cè)方法[J]. 張?zhí)炱?張順康. 電子科技. 2019(12)
[4]基于數(shù)據(jù)挖掘的電網(wǎng)企業(yè)收入預(yù)算預(yù)測(cè)系統(tǒng)研究[J]. 賴婧,歐通澤. 金融經(jīng)濟(jì). 2019(04)
[5]基于改進(jìn)加權(quán)移動(dòng)平均法的服裝銷售預(yù)測(cè)[J]. 陳銀光,于守健. 智能計(jì)算機(jī)與應(yīng)用. 2018(06)
[6]基于Apache Spark的大數(shù)據(jù)分析引擎應(yīng)用研究[J]. 王軍. 電子測(cè)試. 2018(16)
[7]基于混合式聚類算法的離群點(diǎn)挖掘在異常檢測(cè)中的應(yīng)用研究[J]. 尹娜,張琳. 計(jì)算機(jī)科學(xué). 2017(05)
[8]基于離散灰色預(yù)測(cè)模型與人工神經(jīng)網(wǎng)絡(luò)混合智能模型的時(shí)尚銷售預(yù)測(cè)[J]. 劉衛(wèi)校. 計(jì)算機(jī)應(yīng)用. 2016(12)
[9]云計(jì)算中Hadoop技術(shù)研究與應(yīng)用綜述[J]. 夏靖波,韋澤鯤,付凱,陳珍. 計(jì)算機(jī)科學(xué). 2016(11)
[10]基于核函數(shù)技術(shù)的時(shí)尚服裝需求預(yù)測(cè)方法[J]. 孟志青,馬珂,鄭英. 計(jì)算機(jī)科學(xué). 2016(S2)
本文編號(hào):3367907
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3367907.html
最近更新
教材專著