物流數(shù)據(jù)中的云聚類調(diào)度算法研究
第一章 緒論
1.1 研究背景與意義
物流產(chǎn)業(yè)主要是為了經(jīng)濟(jì)的可持續(xù)發(fā)展[2],在我國的經(jīng)濟(jì)綜合發(fā)展中物流的發(fā)展有著舉足輕重的影響,物流業(yè)的調(diào)整振興應(yīng)滿足物流產(chǎn)業(yè)升級,增加其他經(jīng)濟(jì)部門的競爭能力,轉(zhuǎn)型升級國家經(jīng)濟(jì)體系,從而全面加強(qiáng)綜合國力,增強(qiáng)國際競爭力。我國制定了一系列振興物流業(yè)發(fā)展的計劃,并將其集成到宏觀經(jīng)濟(jì)系統(tǒng)發(fā)展計劃以實現(xiàn)低成本、高效益的目標(biāo)。物流作為重要的“新經(jīng)濟(jì)”被廣泛的稱為第三利潤源,在 21 世紀(jì)為中國的可持續(xù)發(fā)展做出自己的貢獻(xiàn)。 物聯(lián)網(wǎng)[3]作為一個信息技術(shù)發(fā)展的產(chǎn)物,它的應(yīng)用已經(jīng)滲透到我們?nèi)粘I畹母鱾方面,并形成了一定規(guī)模的產(chǎn)業(yè)。物聯(lián)網(wǎng)技術(shù)廣泛運用于電力,運輸,工業(yè)控制,零售,公共服務(wù)管理,健康,石油以及其他行業(yè),可以實現(xiàn)許多功能,如車輛防盜,安全監(jiān)控,自動售貨機(jī),機(jī)器的維護(hù),公共交通管理等。將物聯(lián)網(wǎng)技術(shù)運用到物流行業(yè)從而催生了智慧物流的發(fā)展。隨著各種傳感器的發(fā)展,智慧物流得到了前所未有的發(fā)展,從而催生了物流數(shù)據(jù)的處理的研究。 計算機(jī)技術(shù)的快速發(fā)展導(dǎo)致了數(shù)據(jù)呈現(xiàn)指數(shù)型增長,如何從大量的數(shù)據(jù)中找出隱含的,未知的有用的信息成為了人們越來越關(guān)心的問題,數(shù)據(jù)挖掘由此產(chǎn)生。聚類分析就是其中相當(dāng)重要的一部分。它將目標(biāo)的集合分成多個組,使得同一組中的樣本盡量相似而不同組中的樣本盡可能相異[4],F(xiàn)今世界,國內(nèi)外提出了層次型類聚、劃分型類聚、密度型類聚、網(wǎng)絡(luò)型類聚等類聚算法。 隨著分布式、并行等技術(shù)的迅速發(fā)展,大量的數(shù)據(jù)需要處理,在此基礎(chǔ)上云計算得到了發(fā)展,它允許用戶根據(jù)自己的需要來付費并且可以取得強(qiáng)大的計算能力服務(wù)。它將分布式、并行、網(wǎng)格計算等技術(shù)和網(wǎng)絡(luò)技術(shù)融合在一起,其中虛擬化最為重要,,我們能夠虛擬化不少因素,比如它的軟件、硬件等,用云平臺來管理他們。云計算提供了基礎(chǔ)設(shè)施即服務(wù)(IaaS),平臺即服務(wù)(PaaS),軟件即服務(wù)(SaaS)三種服務(wù)[5]。
..........
1.2 論文的主要研究內(nèi)容
本文主要對應(yīng)用于物流數(shù)據(jù)的云聚類算法進(jìn)行研究,本文的主要工作內(nèi)容包含四個方面: (1)對云計算,聚類的相關(guān)內(nèi)容進(jìn)行分析,針對其中內(nèi)容進(jìn)行研究,對云計算的任務(wù)調(diào)度主要用到的算法進(jìn)行了總結(jié),對我國物流行業(yè)的現(xiàn)狀以及未來的發(fā)展進(jìn)行研究,最后研究了我國物流數(shù)據(jù)的主要應(yīng)用。 (2)研究面向物流數(shù)據(jù)的 k 均值聚類算法,對 k 均值聚類中存在的一些問題進(jìn)行理解,并針對 k 均值聚類結(jié)果受初始中心影響的問題,提出了一種基于普利姆的一種 k 均值聚類改進(jìn)算法 IKACP(An Improved K-means clustering Algorithm Based on Prim),并對其進(jìn)行了實驗評估。 (3)研究面向物流數(shù)據(jù)的基于隨機(jī)梯度下降的支持向量機(jī)算法,針對大量數(shù)據(jù)的機(jī)器學(xué)習(xí)進(jìn)行研究,使用隨機(jī)梯度下降算法進(jìn)行優(yōu)化訓(xùn)練時間,提出了一種基于隨機(jī)梯度下降的改進(jìn)支持向量機(jī)分類算法 ISVMSGD(An Improved Support Vector Machine Based on Stochastic Gradient Descent),并對其進(jìn)行了實驗評估。 (4)研究面向物流數(shù)據(jù)的云計算調(diào)度算法,對粒子群優(yōu)化算法進(jìn)行研究,加深對離散的粒子群算法的理解,研究云計算的調(diào)度模型,提出提出一種改進(jìn)的二進(jìn)制粒子群優(yōu)化的任務(wù)調(diào)度算法 GCTA (A Green Cloud Task-scheduling algorithm) Based Improved Binary Particle Swarm Optimization,并對其進(jìn)行了實驗評估。
.........
第二章 相關(guān)背景知識介紹
2.1 云聚類算法研究現(xiàn)狀
(1)概念。云是從世界電信提供商開始使用虛擬專用網(wǎng)絡(luò)中來的。云計算可以在不知道最終用戶的物理位置和系統(tǒng)配置的情況下給用戶提供計算、軟件、數(shù)據(jù)訪問以及存儲服務(wù)。國際標(biāo)準(zhǔn)云計算的定義是“云計算是擁有能夠通過網(wǎng)絡(luò)進(jìn)行按需配置一個包括網(wǎng)絡(luò),服務(wù)器,存儲應(yīng)用程序和服務(wù)等共享計算資源池的一個方便模式,服務(wù)提供商提供較小的管理工具就可以迅速配置和發(fā)布”。過連接世界各地的大型互聯(lián)網(wǎng),應(yīng)用程序可以作為互聯(lián)網(wǎng)上的一種服務(wù),這樣可以降低成本。云計算的主要目標(biāo)是更好的利用分布式資源,以達(dá)到更高的吞吐量和能夠解決大規(guī)模計算問題。 (2)架構(gòu)。前端和后端兩部分是云計算的重要組成部分。它們是通過網(wǎng)絡(luò)彼此連接的,通常是因特網(wǎng)。前端我們認(rèn)為主要就是到底是什么樣的客戶,后端就是該系統(tǒng)的云。前端有客戶端的計算機(jī)和需要訪問的云,后端就是云計算的服務(wù)器集群和數(shù)據(jù)存儲等。圖 2-1 是云計算的一個總觀圖,其包括五種必需具有的特征,三種服務(wù)形式和四種部署形式。 從圖中我們可以看出云計算解決方案可分為四種類型。首先為私有云類型,它只能由一個單一的企業(yè)應(yīng)用。在這種情況下資源及應(yīng)用都是在公司的計算機(jī)中心或者計算機(jī)服務(wù)商提供的專用網(wǎng)絡(luò)進(jìn)行訪問。其次,云計算資源可以設(shè)置為公開的即公有云,在這種情況下,務(wù)使用云供應(yīng)商保管的數(shù)據(jù)。第三種可行的形式是擁有私有云和公有云的長處的混合云模式,對一些保密性要求較高的數(shù)據(jù)采用私有云,對其他一些數(shù)據(jù)使用公有云,可以有效降低云部署的成本。第四種是社區(qū)云,這可以由幾個供應(yīng)商,或者使用公有云的一個特定用戶組提供,成為客戶社區(qū)云。
........
2.2 云調(diào)度算法研究現(xiàn)狀
隨著信息技術(shù)的快速發(fā)展,云計算由于可以遷移到許多網(wǎng)絡(luò)環(huán)境中已經(jīng)成為一個越來越重要的研究課題,其中最重要的問題是如何利用大量的計算資源,這就是云計算中的資源調(diào)度問題。任務(wù)調(diào)度的目標(biāo)就是想辦法將有限的資源優(yōu)化分配給一個或者多個目標(biāo),人們普遍認(rèn)為現(xiàn)在的調(diào)度算法研究可以追溯到 Johnson 的研究[13]。如今,調(diào)度被廣泛的用于不同的領(lǐng)域,如制造印刷電路板,多媒體的功率系統(tǒng)控制以及萬維網(wǎng)上的數(shù)據(jù)處理。從 20 世紀(jì) 80 年代到現(xiàn)在,這些系統(tǒng)經(jīng)歷了幾次變化,早期的變化之一是隨著集群的出現(xiàn)很多獨立的計算機(jī)一起工作作為一個系統(tǒng),這需要克服的一個問題就是集群系統(tǒng)只能使用本地資源。下一個變化就是網(wǎng)格,它的發(fā)展將所有地理上分散的可用異質(zhì)性機(jī)構(gòu)連接起來[14]。最近的一個變化就 是將集群和網(wǎng)格優(yōu)勢轉(zhuǎn)移到云計算系統(tǒng)中。 在當(dāng)前的計算機(jī)調(diào)度算法中,常用的兩個為窮舉算法和確定性算法。在實踐中確定性算法比窮舉性算法能更快的解決調(diào)度問題。然而這兩個算法的主要缺點是他們并不適用于所有的分布式數(shù)據(jù)。不像確定性算法和窮舉性算法,啟發(fā)式算法(也叫近似算法)采用迭代方法在一個合理的時間內(nèi)找到解決策略。很多研究成果[15]-[18]顯示啟發(fā)式調(diào)度算法可以提供比傳統(tǒng)的調(diào)度算法更優(yōu)的調(diào)度結(jié)果。 然而他們的重點都不在云計算,雖然很多調(diào)度算法已經(jīng)被證明成果可用于不同的計算環(huán)境(如網(wǎng)格計算,集群計算等),其中的一些想法也許可以直接使用于基于云計算的任務(wù)調(diào)度。下面我們主要討論使用于云計算的啟發(fā)式任務(wù)調(diào)度算法。
..........
第三章 基于普利姆的一種 K 均值聚類改進(jìn)算法 ..... 16
3.1 引言 .......... 16
3.2 基于普利姆的 K 均值聚類改進(jìn)算法 ............ 17
3.3 算法的實驗結(jié)果及分析 ..... 20
3.4 本章小結(jié) ........... 24
第四章 基于隨機(jī)梯度下降的 SVM 分類算法 ........... 25
4.1 引言 .......... 25
4.2 基于隨機(jī)梯度下降的 SVM 分類算法 .......... 26
4.2.1 隨機(jī)梯度下降算法 ........... 26
4.2.2 SVM 分類算法 .......... 27
4.2.3 基于隨機(jī)梯度下降的 SVM 分類算法 ........ 27
4.3 算法的實驗結(jié)果及分析 ..... 28
4.4 本章小結(jié) ........... 31
第五章 基于改進(jìn) BPSO 的綠色云計算調(diào)度算法..... 32
5.1 引言 .......... 32
5.2 基于改進(jìn) BPSO 的綠色云計算調(diào)度算法..... 33
5.3 算法的實驗結(jié)果以及仿真分析 ........... 37
5.4 本章小結(jié) ........... 40
第五章 基于改進(jìn)BPSO 的綠色云計算調(diào)度算法
隨著物流的快速發(fā)展,物流的數(shù)據(jù)量越來越大。此基礎(chǔ)上面向物流數(shù)據(jù)的云計算得到了發(fā)展,如何在面向物流數(shù)據(jù)的云計算中進(jìn)行合理的任務(wù)調(diào)度對云計算的效率提高有著舉足輕重的影響。本文提出一種改進(jìn)的二進(jìn)制粒子群優(yōu)化的任務(wù)調(diào)度算法 GCTA (A Green Cloud Task-scheduling Algorithm),該算法使用將虛擬機(jī)簡化為采用流水線編號,并對速度和位置進(jìn)行重新定義,從而有效的規(guī)避矩陣運算,提高資源利用率。仿真實驗表明,本算法在面向物流數(shù)據(jù)的云調(diào)度算法中具有較低的任務(wù)執(zhí)行時間相應(yīng)的提高資源利用率。
5.1 引言
如今隨著信息產(chǎn)業(yè)數(shù)據(jù)呈現(xiàn)爆炸式的增加,云計算作為一個新的技術(shù)得到了在商業(yè)中取得了快速的發(fā)展,它允許用戶根據(jù)自己的需要來付費并且可以取得強(qiáng)大的計算能力服務(wù)。作為云計算中的一個重要組成部分,任務(wù)調(diào)度數(shù)學(xué)化為 NP 完全問題[58],無法在多項式的時間復(fù)雜度內(nèi)尋找到最優(yōu)解。遺傳、模擬退火等智能優(yōu)化算法被引入到云調(diào)度算法的研究中來[59]。遺傳算法可以在尋找最優(yōu)解的過程中對搜索空間得到的信息進(jìn)行積累,并可以根據(jù)需要對搜索方向進(jìn)行控制以得到最優(yōu)解[60],但參數(shù)較多,編程實現(xiàn)較復(fù)雜。粒子群算法是在生物學(xué)基礎(chǔ)上提出,因而可以根據(jù)生物學(xué)進(jìn)行理解、參數(shù)不多并且容易實現(xiàn),用在對非線性、多峰問題上表現(xiàn)良好[61]。本文將對離散粒子群算法進(jìn)行改進(jìn),來適應(yīng)面向物流數(shù)據(jù)的云任務(wù)調(diào)度的情況,減小資源消耗。 近年來,由于大數(shù)據(jù)的快速發(fā)展,為了降低資源消耗提高資源利用率,云計算任務(wù)調(diào)度算法得到了人們的大量研究。文獻(xiàn)[62]提出了一種以粒子群算法為基礎(chǔ)的多處理器的任務(wù)調(diào)度和負(fù)載均衡方法,這種方法可以有效提高資源利用率。文獻(xiàn)[63]提出了一種基于適應(yīng)度函數(shù)值分類的簡單的突變機(jī)制和自適應(yīng)慣性權(quán)重方法來改進(jìn)標(biāo)準(zhǔn)的粒子群算法來提供更好的資源服務(wù)。文獻(xiàn)[64]提出一種基于代價的通過對可用資源做映射的云調(diào)度策略。文獻(xiàn)[65]提出一種基于粒子群以及完成時間限制的采用分布式控制方式的調(diào)度算法。文獻(xiàn)[66]提出一種粒子群優(yōu)化和雞尾酒解碼對多處理器的混流車間調(diào)度問題算法。文獻(xiàn)[67]提出了一種在 Iaas 資源提供商當(dāng)它的資源不能滿足需求時將任務(wù)分配到擴(kuò)展云的資源分配框架。文獻(xiàn)[68]提出了一種基于最小位置值的粒子群算法來解決任務(wù)調(diào)度問題。
總結(jié)
本文主要完成的主要工作內(nèi)容總結(jié)為以下幾個方面:
(1)對面向物流數(shù)據(jù)的聚類算法進(jìn)行研究,對 K 均值聚類中存在的一些問題進(jìn)行理解,并針對 k 均值聚類結(jié)果受初始中心影響的問題,提出了一種基于普利姆的一種 K 均值聚類改進(jìn)算法 IKACP(An Improved K-means clustering Algorithm Based on Prim),在不改變 K 均值聚類算法的簡單性的前提下將普利姆算法利用在初始聚類中心的選擇上,可以有效的減小迭代次數(shù),提高聚類正確率。
(2)對面向物流數(shù)據(jù)的支持向量機(jī)分類算法進(jìn)行研究,針對大量物流數(shù)據(jù)的機(jī)器學(xué)習(xí)進(jìn)行研究,使用隨機(jī)梯度下降算法優(yōu)化物流數(shù)據(jù)訓(xùn)練時間,提高訓(xùn)練速度,提出了一種基于隨機(jī)梯度下降的改進(jìn)支持向量機(jī)分類算法 ISVMSGD(An Improved Support Vector Machine Based on Stochastic Gradient Descent),在大量數(shù)據(jù)中訓(xùn)練中在不影響正確率的情況下可以有效的提高訓(xùn)練速度。
(3)對面向物流數(shù)據(jù)的云調(diào)度算法進(jìn)行研究,對粒子群二進(jìn)制的方法進(jìn)行進(jìn)一步學(xué)習(xí),加深對離散的粒子群算法的理解,研究面向物流數(shù)據(jù)的云計算調(diào)度模型,利用離散粒子群算法對模型中的任務(wù)調(diào)度進(jìn)行優(yōu)化,提出了一種改進(jìn)的二進(jìn)制粒子群優(yōu)化的任務(wù)調(diào)度算法 GCTA (A Green Cloud Task-scheduling algorithm),主要將復(fù)雜矩陣運算簡化為流水線,重新定義粒子的速度和位置。在隨機(jī)產(chǎn)生的任務(wù)中可以減小系統(tǒng)總的執(zhí)行時間,提高效率。在隨機(jī)產(chǎn)生的任務(wù)中可以減小系統(tǒng)總的執(zhí)行時間,調(diào)高效率。
.........
參考文獻(xiàn)(略)
本文編號:48970
本文鏈接:http://sikaile.net/wenshubaike/lwfw/48970.html