天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

電子商務(wù)的大規(guī)模事務(wù)數(shù)據(jù)高效處理關(guān)鍵問題研究

發(fā)布時間:2020-11-12 19:30
   隨著互聯(lián)網(wǎng)、移動互聯(lián)、大數(shù)據(jù)等技術(shù)的飛速發(fā)展,以及我國“互聯(lián)網(wǎng)+”戰(zhàn)略的逐步實施,電子商務(wù)、移動社交已經(jīng)成為人們生活的重要組成部分,也成為新技術(shù)創(chuàng)新應(yīng)用的重要領(lǐng)域,研究電子商務(wù)關(guān)鍵技術(shù)具有重要的歷史意義、現(xiàn)實意義和社會意義。電子商務(wù)網(wǎng)站具有海量用戶、海量數(shù)據(jù)和復(fù)雜應(yīng)用場景,圍繞業(yè)務(wù)特點的技術(shù)創(chuàng)新不斷涌現(xiàn),云計算、大數(shù)據(jù)等技術(shù)率先在電子商務(wù)領(lǐng)域得到廣泛的應(yīng)用、改進(jìn)和創(chuàng)新。在電子商務(wù)技術(shù)發(fā)展的當(dāng)前階段,如何應(yīng)對海量用戶、海量數(shù)據(jù)以及復(fù)雜應(yīng)用場景帶來的挑戰(zhàn),如何在系統(tǒng)部署、業(yè)務(wù)處理及數(shù)據(jù)挖掘分析中高效處理大規(guī)模數(shù)據(jù)依然是電子商務(wù)研究的重要問題。本文重點研究了電子商務(wù)大規(guī)模事務(wù)數(shù)據(jù)高效處理的關(guān)鍵問題,首先針對大規(guī)模數(shù)據(jù)處理中的高維數(shù)據(jù)問題,提出在預(yù)處理環(huán)節(jié)的兩種數(shù)據(jù)降維方法;其次針對大規(guī)模數(shù)據(jù)處理中的任務(wù)部署及調(diào)度等熱點問題,提出基于強化學(xué)習(xí)的兩階段任務(wù)部署方法;最后針對電子商務(wù)復(fù)雜查詢應(yīng)用帶來的多數(shù)據(jù)中心數(shù)據(jù)傳輸問題,提出基于數(shù)據(jù)相關(guān)性的結(jié)構(gòu)化數(shù)據(jù)分布方法。本文主要貢獻(xiàn)如下:(1)歸納和總結(jié)了電子商務(wù)大規(guī)模事務(wù)數(shù)據(jù)高效處理方法,闡述了當(dāng)前研究工作的主要背景、重要意義與研究重點。本文介紹了電子商務(wù)對國民生活的重要意義、發(fā)展趨勢及依賴的關(guān)鍵技術(shù),分析了大數(shù)據(jù)環(huán)境下大規(guī)模數(shù)據(jù)處理的主要框架和流程,以及大規(guī)模數(shù)據(jù)處理全流程中的若干重要問題,重點對電子商務(wù)技術(shù)領(lǐng)域數(shù)據(jù)處理關(guān)鍵問題的解決方法進(jìn)行了詳細(xì)介紹與分析。(2)針對電子商務(wù)高維數(shù)據(jù)的預(yù)處理進(jìn)行了研究。電子商務(wù)數(shù)據(jù)處理往往面對大量高維、低密度的數(shù)據(jù),傳統(tǒng)分類方法往往受數(shù)據(jù)特點影響難以挖掘分析內(nèi)部關(guān)系。針對此問題,提出對高維數(shù)據(jù)的兩種預(yù)處理機制,對于無標(biāo)簽數(shù)據(jù),針對傳統(tǒng)方法對高維數(shù)據(jù)聚類導(dǎo)致的不準(zhǔn)確等問題,提出主成分分析和聚類相結(jié)合的數(shù)據(jù)降維及分類方法,該方法建立主因子及關(guān)聯(lián)因子模型,以關(guān)聯(lián)因子系數(shù)構(gòu)建網(wǎng)站相似度距離,通過改進(jìn)DBSCAN聚類算法提升網(wǎng)站評估的合理性和可解釋性。對于有標(biāo)簽數(shù)據(jù)的數(shù)據(jù)降維,針對傳統(tǒng)方法處理效率不高且容易陷入局部優(yōu)化困境,本文提出基于粗糙集的分布式粒子群方法,該方法巧妙結(jié)合粒子群方法和粗糙集理論,在多個粒子群同步尋找最優(yōu)化特征子集,提高執(zhí)行效率和搜索范圍,同時針對特征子集的評價函數(shù)中加入隨機因子,降低搜索的不確定性,實驗證明該方法有效提升大規(guī)模數(shù)據(jù)的特征選擇效率。(3)針對電子商務(wù)大規(guī)模數(shù)據(jù)處理的任務(wù)部署進(jìn)行了研究。許多傳統(tǒng)方法的局限性和異構(gòu)環(huán)境下資源性能的變化,導(dǎo)致系統(tǒng)響應(yīng)時間相對長、算法復(fù)雜度高、資源浪費等問題。針對此問題,本文提出了一種基于強化學(xué)習(xí)的大規(guī)模并行任務(wù)處理方法TOPE。該方法將整個網(wǎng)絡(luò)看作一個多智能體系統(tǒng),通過分布式多目標(biāo)群智能實現(xiàn)虛擬節(jié)點映射,通過深度強化學(xué)習(xí)及馬爾可夫決策過程實現(xiàn)虛擬鏈路映射,最終實現(xiàn)胖樹拓?fù)浣Y(jié)構(gòu)中任務(wù)分配的兩階段優(yōu)化工作。實驗結(jié)果表明,TOPE能夠兼顧負(fù)載均衡、帶寬開銷和能耗,有效地減少計算節(jié)點和鏈路的能量消耗。(4)針對電子商務(wù)大規(guī)模數(shù)據(jù)處理的數(shù)據(jù)分布進(jìn)行了研究。云計算環(huán)境下數(shù)據(jù)分布在多個數(shù)據(jù)中心,海量用戶隨機的、類搜索方式的查詢引起多數(shù)據(jù)中心之間數(shù)據(jù)頻繁傳輸,查詢處理效率難以滿足應(yīng)用需要。針對此問題,本文提出基于文件相關(guān)性的數(shù)據(jù)分布方法,將整個云環(huán)境看作互聯(lián)網(wǎng),將用戶隨機的、海量的查詢行為看作互聯(lián)網(wǎng)搜索,借鑒互聯(lián)網(wǎng)搜索思想建立索引和文件間相關(guān)性、文件和文件間相關(guān)性,再利用針對矩陣相似度的BEA聚類算法對數(shù)據(jù)進(jìn)行重分布。首先,根據(jù)云計算下查詢應(yīng)用的數(shù)據(jù)特點,將數(shù)據(jù)表映射為以統(tǒng)計數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)特征向量模型,根據(jù)特征向量距離構(gòu)建數(shù)據(jù)表相關(guān)性特征矩陣,將矩陣元素臨近元素數(shù)值和作為鍵能值的方式進(jìn)行聚類,最后通過BEA聚類方式對數(shù)據(jù)表相關(guān)性進(jìn)行聚類,從而對數(shù)據(jù)在云環(huán)境中進(jìn)行分配。實驗表明,采取相關(guān)性分布策略,能夠合理將相關(guān)數(shù)據(jù)分配到同一數(shù)據(jù)塊,避免海量臨時查詢過程中尤其連接查詢的數(shù)據(jù)傳輸,數(shù)據(jù)查詢處理效率明顯提高。
【學(xué)位單位】:吉林大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2020
【中圖分類】:TP311.13;F724.6
【部分圖文】:

社交,電子商務(wù)


隨著電子商務(wù)平臺的逐步完善,電子商務(wù)也隨之迅速發(fā)展,尤其是亞馬遜、阿里巴巴等大型電子商務(wù)平臺的推廣,這種以互聯(lián)網(wǎng)為依托進(jìn)行商品和服務(wù)交易的新興經(jīng)濟活動,迅速普及全球,電子商務(wù)市場規(guī)模不斷擴大。根據(jù)Statista的數(shù)據(jù),中國是全球最大的電子商務(wù)市場,2018年收入6360.87億美元,美國緊隨其后,2018年市場收入達(dá)5045.82億美元。2018年全球電子商務(wù)用戶數(shù)量為2.585億人,同比增長1.2%,普及率為78.8%,預(yù)計到2023年將達(dá)到80.4%。近年來,聯(lián)合國也持續(xù)發(fā)布全球電子商務(wù)發(fā)展指數(shù)年度報告,以發(fā)展指數(shù)來反映全球及100多個國家的電子商務(wù)發(fā)展情況。發(fā)展指數(shù)主要包含四個指標(biāo):使用互聯(lián)網(wǎng)的個人用戶占比;金融機構(gòu)提供商賬戶中15歲以上用戶比重;每百萬人安全互聯(lián)網(wǎng)服務(wù)器數(shù)量;萬國郵政可靠性分?jǐn)?shù)。這些指標(biāo)總體反映了電子商務(wù)的發(fā)展環(huán)境情況。2018年,全球電子商務(wù)發(fā)展指數(shù)為55,較上年增長1.9個百分點。

框架圖,數(shù)據(jù)處理,框架,大數(shù)


計算機自誕生以來,首要問題就是解決計算和存儲問題,F(xiàn)實需求和計算機處理能力不足的沖突是推進(jìn)計算機技術(shù)不斷發(fā)展的持續(xù)動力。大規(guī)模數(shù)據(jù)處理是個相對概念,即使是近年來興起的大數(shù)據(jù)技術(shù),對數(shù)據(jù)量的大小也沒有明確的定義,其相對比較認(rèn)可的模糊定義為:大數(shù)據(jù)(big data)是指利用常規(guī)軟件工具無法捕捉、管理及處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策能力、洞察發(fā)現(xiàn)力以及流程優(yōu)化能力的海量、高增長率以及多樣化信息資產(chǎn)[28]。因此,我們將大規(guī)模數(shù)據(jù)處理不僅僅定義為大數(shù)據(jù)下的數(shù)據(jù)處理,事實上,在大數(shù)據(jù)技術(shù)沒有興起之前,在金融、科學(xué)等多個領(lǐng)域就已經(jīng)有對大規(guī)模數(shù)據(jù)處理的框架,比如金融行業(yè)的批處理、高能物理的科學(xué)計算等等。我們將大規(guī)模數(shù)據(jù)處理抽象為圖2.2所示:參照圖2.2描述的框架,在存儲層,大規(guī)模數(shù)據(jù)處理往往依賴于分布式文件系統(tǒng),必須具備存儲管理、容錯處理、高可用、高擴展性等特點,主要包括GFS[29]、HDFS[30]、CEPH[31]以及中國電商阿里巴巴集團研發(fā)的TFS等等,為了滿足大數(shù)據(jù)處理的要求,文件系統(tǒng)的設(shè)計除了傳統(tǒng)的行存儲外,還有面向列存儲、混合存儲等技術(shù)研究,以及為了減少冗余的糾刪碼技術(shù)、壓縮技術(shù)等等。在文件存儲方面,由于大數(shù)據(jù)的4V特點,其數(shù)據(jù)往往是多種形式,包括文本、圖像、音頻、視頻等等,常見的存儲方式有基于鍵值、列、文檔、圖等等,涌現(xiàn)了BigTable[32]、Dynamo[33]、HBase、MongoDB[34]、Neo4j等優(yōu)秀的存儲系統(tǒng)。

維數(shù)災(zāi)難,因子分析法


盡管DBSCAN算法可以對電子商務(wù)網(wǎng)站進(jìn)行聚類和高維數(shù)據(jù)處理,但在處理密度不均勻的數(shù)據(jù)時會出現(xiàn)不準(zhǔn)確、可解釋性差等結(jié)果,主要原因是高維數(shù)據(jù)存在樣本稀疏、計算距離難等“維數(shù)災(zāi)難”,同時高維數(shù)據(jù)的因子成分也不是同等重要,會影響到聚類效果。因此,可以使用因子分析法對高維數(shù)據(jù)降維,并且要考慮各因子成分的權(quán)重。Hannu Verkasalo等[68]研究人員運用因子分析法分析客戶智能手機應(yīng)用的使用數(shù)據(jù),旨在找出影響客戶使用移動應(yīng)用的潛在因素。陳文成等[69]運用因子分析法研究區(qū)域經(jīng)濟發(fā)展不平衡。Taufiq Hasan等[70]采用因子分析法對聲音進(jìn)行分析驗證。3.1.3 問題形式化
【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王玢;吳雅婧;陽小龍;孫奇福;;關(guān)聯(lián)性驅(qū)動的大數(shù)據(jù)處理任務(wù)調(diào)度方案[J];軟件學(xué)報;2017年12期

2 宋杰;王智;李甜甜;于戈;;一種優(yōu)化MapReduce系統(tǒng)能耗的數(shù)據(jù)布局算法[J];軟件學(xué)報;2015年08期

3 王有為;王偉平;孟丹;;基于統(tǒng)計方法的Hive數(shù)據(jù)倉庫查詢優(yōu)化實現(xiàn)[J];計算機研究與發(fā)展;2015年06期

4 丁有偉;秦小麟;劉亮;王濤春;;一種異構(gòu)集群中能量高效的大數(shù)據(jù)處理算法[J];計算機研究與發(fā)展;2015年02期

5 尹寶才;王文通;王立春;;深度學(xué)習(xí)研究綜述[J];北京工業(yè)大學(xué)學(xué)報;2015年01期

6 劉雅輝;張鐵贏;靳小龍;程學(xué)旗;;大數(shù)據(jù)時代的個人隱私保護(hù)[J];計算機研究與發(fā)展;2015年01期

7 劉智慧;張泉靈;;大數(shù)據(jù)技術(shù)研究綜述[J];浙江大學(xué)學(xué)報(工學(xué)版);2014年06期

8 周江;王偉平;孟丹;馬燦;古曉艷;蔣杰;;面向大數(shù)據(jù)分析的分布式文件系統(tǒng)關(guān)鍵技術(shù)[J];計算機研究與發(fā)展;2014年02期

9 馮登國;張敏;李昊;;大數(shù)據(jù)安全與隱私保護(hù)[J];計算機學(xué)報;2014年01期

10 徐海嘯;麻婧;吳旗;;DBSCAN算法在高性能計算中心用戶分類的應(yīng)用研究[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2013年05期


相關(guān)博士學(xué)位論文 前4條

1 柯余洋;面向三類應(yīng)用數(shù)據(jù)的智能分析與優(yōu)化研究[D];中國科學(xué)技術(shù)大學(xué);2016年

2 王占業(yè);大數(shù)據(jù)處理若干關(guān)鍵技術(shù)研究[D];清華大學(xué);2016年

3 張鈞波;面向大數(shù)據(jù)的高效特征選擇與學(xué)習(xí)算法研究[D];西南交通大學(xué);2015年

4 鄭思;大規(guī)模數(shù)據(jù)處理系統(tǒng)中MapReduce任務(wù)劃分與調(diào)度關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2014年



本文編號:2881144

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2881144.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶05281***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com