電子商務(wù)的大規(guī)模事務(wù)數(shù)據(jù)高效處理關(guān)鍵問題研究
【學(xué)位單位】:吉林大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2020
【中圖分類】:TP311.13;F724.6
【部分圖文】:
隨著電子商務(wù)平臺的逐步完善,電子商務(wù)也隨之迅速發(fā)展,尤其是亞馬遜、阿里巴巴等大型電子商務(wù)平臺的推廣,這種以互聯(lián)網(wǎng)為依托進(jìn)行商品和服務(wù)交易的新興經(jīng)濟活動,迅速普及全球,電子商務(wù)市場規(guī)模不斷擴大。根據(jù)Statista的數(shù)據(jù),中國是全球最大的電子商務(wù)市場,2018年收入6360.87億美元,美國緊隨其后,2018年市場收入達(dá)5045.82億美元。2018年全球電子商務(wù)用戶數(shù)量為2.585億人,同比增長1.2%,普及率為78.8%,預(yù)計到2023年將達(dá)到80.4%。近年來,聯(lián)合國也持續(xù)發(fā)布全球電子商務(wù)發(fā)展指數(shù)年度報告,以發(fā)展指數(shù)來反映全球及100多個國家的電子商務(wù)發(fā)展情況。發(fā)展指數(shù)主要包含四個指標(biāo):使用互聯(lián)網(wǎng)的個人用戶占比;金融機構(gòu)提供商賬戶中15歲以上用戶比重;每百萬人安全互聯(lián)網(wǎng)服務(wù)器數(shù)量;萬國郵政可靠性分?jǐn)?shù)。這些指標(biāo)總體反映了電子商務(wù)的發(fā)展環(huán)境情況。2018年,全球電子商務(wù)發(fā)展指數(shù)為55,較上年增長1.9個百分點。
計算機自誕生以來,首要問題就是解決計算和存儲問題,F(xiàn)實需求和計算機處理能力不足的沖突是推進(jìn)計算機技術(shù)不斷發(fā)展的持續(xù)動力。大規(guī)模數(shù)據(jù)處理是個相對概念,即使是近年來興起的大數(shù)據(jù)技術(shù),對數(shù)據(jù)量的大小也沒有明確的定義,其相對比較認(rèn)可的模糊定義為:大數(shù)據(jù)(big data)是指利用常規(guī)軟件工具無法捕捉、管理及處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策能力、洞察發(fā)現(xiàn)力以及流程優(yōu)化能力的海量、高增長率以及多樣化信息資產(chǎn)[28]。因此,我們將大規(guī)模數(shù)據(jù)處理不僅僅定義為大數(shù)據(jù)下的數(shù)據(jù)處理,事實上,在大數(shù)據(jù)技術(shù)沒有興起之前,在金融、科學(xué)等多個領(lǐng)域就已經(jīng)有對大規(guī)模數(shù)據(jù)處理的框架,比如金融行業(yè)的批處理、高能物理的科學(xué)計算等等。我們將大規(guī)模數(shù)據(jù)處理抽象為圖2.2所示:參照圖2.2描述的框架,在存儲層,大規(guī)模數(shù)據(jù)處理往往依賴于分布式文件系統(tǒng),必須具備存儲管理、容錯處理、高可用、高擴展性等特點,主要包括GFS[29]、HDFS[30]、CEPH[31]以及中國電商阿里巴巴集團研發(fā)的TFS等等,為了滿足大數(shù)據(jù)處理的要求,文件系統(tǒng)的設(shè)計除了傳統(tǒng)的行存儲外,還有面向列存儲、混合存儲等技術(shù)研究,以及為了減少冗余的糾刪碼技術(shù)、壓縮技術(shù)等等。在文件存儲方面,由于大數(shù)據(jù)的4V特點,其數(shù)據(jù)往往是多種形式,包括文本、圖像、音頻、視頻等等,常見的存儲方式有基于鍵值、列、文檔、圖等等,涌現(xiàn)了BigTable[32]、Dynamo[33]、HBase、MongoDB[34]、Neo4j等優(yōu)秀的存儲系統(tǒng)。
盡管DBSCAN算法可以對電子商務(wù)網(wǎng)站進(jìn)行聚類和高維數(shù)據(jù)處理,但在處理密度不均勻的數(shù)據(jù)時會出現(xiàn)不準(zhǔn)確、可解釋性差等結(jié)果,主要原因是高維數(shù)據(jù)存在樣本稀疏、計算距離難等“維數(shù)災(zāi)難”,同時高維數(shù)據(jù)的因子成分也不是同等重要,會影響到聚類效果。因此,可以使用因子分析法對高維數(shù)據(jù)降維,并且要考慮各因子成分的權(quán)重。Hannu Verkasalo等[68]研究人員運用因子分析法分析客戶智能手機應(yīng)用的使用數(shù)據(jù),旨在找出影響客戶使用移動應(yīng)用的潛在因素。陳文成等[69]運用因子分析法研究區(qū)域經(jīng)濟發(fā)展不平衡。Taufiq Hasan等[70]采用因子分析法對聲音進(jìn)行分析驗證。3.1.3 問題形式化
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王玢;吳雅婧;陽小龍;孫奇福;;關(guān)聯(lián)性驅(qū)動的大數(shù)據(jù)處理任務(wù)調(diào)度方案[J];軟件學(xué)報;2017年12期
2 宋杰;王智;李甜甜;于戈;;一種優(yōu)化MapReduce系統(tǒng)能耗的數(shù)據(jù)布局算法[J];軟件學(xué)報;2015年08期
3 王有為;王偉平;孟丹;;基于統(tǒng)計方法的Hive數(shù)據(jù)倉庫查詢優(yōu)化實現(xiàn)[J];計算機研究與發(fā)展;2015年06期
4 丁有偉;秦小麟;劉亮;王濤春;;一種異構(gòu)集群中能量高效的大數(shù)據(jù)處理算法[J];計算機研究與發(fā)展;2015年02期
5 尹寶才;王文通;王立春;;深度學(xué)習(xí)研究綜述[J];北京工業(yè)大學(xué)學(xué)報;2015年01期
6 劉雅輝;張鐵贏;靳小龍;程學(xué)旗;;大數(shù)據(jù)時代的個人隱私保護(hù)[J];計算機研究與發(fā)展;2015年01期
7 劉智慧;張泉靈;;大數(shù)據(jù)技術(shù)研究綜述[J];浙江大學(xué)學(xué)報(工學(xué)版);2014年06期
8 周江;王偉平;孟丹;馬燦;古曉艷;蔣杰;;面向大數(shù)據(jù)分析的分布式文件系統(tǒng)關(guān)鍵技術(shù)[J];計算機研究與發(fā)展;2014年02期
9 馮登國;張敏;李昊;;大數(shù)據(jù)安全與隱私保護(hù)[J];計算機學(xué)報;2014年01期
10 徐海嘯;麻婧;吳旗;;DBSCAN算法在高性能計算中心用戶分類的應(yīng)用研究[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2013年05期
相關(guān)博士學(xué)位論文 前4條
1 柯余洋;面向三類應(yīng)用數(shù)據(jù)的智能分析與優(yōu)化研究[D];中國科學(xué)技術(shù)大學(xué);2016年
2 王占業(yè);大數(shù)據(jù)處理若干關(guān)鍵技術(shù)研究[D];清華大學(xué);2016年
3 張鈞波;面向大數(shù)據(jù)的高效特征選擇與學(xué)習(xí)算法研究[D];西南交通大學(xué);2015年
4 鄭思;大規(guī)模數(shù)據(jù)處理系統(tǒng)中MapReduce任務(wù)劃分與調(diào)度關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2014年
本文編號:2881144
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2881144.html