Spark集群環(huán)境下的分類數(shù)據(jù)離群檢測及應(yīng)用
發(fā)布時間:2021-11-12 12:01
工業(yè)大數(shù)據(jù)時代的到來推動了現(xiàn)代制造業(yè)的發(fā)展,制造業(yè)在發(fā)展過程中積累了大量數(shù)據(jù)。數(shù)據(jù)挖掘是大數(shù)據(jù)分析的一種有效途徑,其挖掘結(jié)果能夠應(yīng)用在機械制造業(yè)的生產(chǎn)、管理和運營過程中,促進(jìn)制造企業(yè)優(yōu)化生產(chǎn)、改進(jìn)生產(chǎn)工藝以及診斷設(shè)備故障等,以降低生產(chǎn)成本和提高企業(yè)運營效率。在當(dāng)前機械產(chǎn)品加工中,由設(shè)備性能下降、精度損失、易損件磨損、人因等多種因素造成了隱性問題,一般不容易被發(fā)現(xiàn)但卻會影響產(chǎn)品的質(zhì)量。離群檢測作為一種數(shù)據(jù)挖掘方法,可從機械產(chǎn)品加工數(shù)據(jù)中有效地發(fā)現(xiàn)隱性問題。本文在基于內(nèi)存計算的Spark集群系統(tǒng)環(huán)境下,研究了分類數(shù)據(jù)離群檢測理論、方法以及冷軋輥加工數(shù)據(jù)離群檢測的方法,不僅為大數(shù)據(jù)分析提供了有效的并行離群檢測新方法與實現(xiàn)途徑,而且也為有效發(fā)現(xiàn)機械產(chǎn)品加工過程中可能存在的設(shè)備精度下降、檢測者資質(zhì)、加工環(huán)境等具有異常特征的隱性問題,提供了一種有效手段。其主要研究成果如下:(1)提出了一種基于特征分組的分類數(shù)據(jù)離群檢測算法——WATCH。該算法通過度量數(shù)據(jù)特征間的相關(guān)性將數(shù)據(jù)特征分為多個特征組,可以發(fā)現(xiàn)隱藏在特征子空間中的離群值,有效提高了離群檢測精度,而且可以從不同方面發(fā)現(xiàn)特征模式的差異性。實驗...
【文章來源】:太原科技大學(xué)山西省
【文章頁數(shù)】:124 頁
【學(xué)位級別】:博士
【部分圖文】:
大數(shù)據(jù)的5V特征
括聚類,分類,關(guān)聯(lián)規(guī)則和離群檢測等諸多算法。大數(shù)據(jù)挖掘不再是針對少量或是樣本化、隨機化的精準(zhǔn)數(shù)據(jù),而是海量,混雜的大數(shù)據(jù)。大數(shù)據(jù)挖掘的意義是從海量數(shù)據(jù)中找到有意義的模式或知識。數(shù)據(jù)挖掘的執(zhí)行過程包含很多不同的步驟,其中輸入的是原始數(shù)據(jù),輸出的是用戶需要的有價值的信息。從原始數(shù)據(jù)中挖掘有用的信息是一個循環(huán)的、系統(tǒng)的過程。首先,分析獲得的數(shù)據(jù)以確定合適的挖掘目標(biāo);其次選擇恰當(dāng)?shù)耐诰蚍椒ㄌ崛∮袃r值的數(shù)據(jù)。然后,評估生成的知識模式;最后將有價值的知識保存起來,便于應(yīng)用。數(shù)據(jù)挖掘的執(zhí)行過程如圖1.2所示。圖1.2數(shù)據(jù)挖掘的執(zhí)行過程Figure1.2Executionprocessofdatamining數(shù)據(jù)挖掘的任務(wù)一般可以歸納為以下幾個類別:分類、聚類、關(guān)聯(lián)規(guī)則挖掘和離群檢測等[7]。分類的目的是學(xué)習(xí)將數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別的分類函數(shù)或分類模型(通常稱為分類器)。構(gòu)造分類器的方法很多,例如基于統(tǒng)計的方法、基于機器學(xué)習(xí)的方法以及人工神經(jīng)網(wǎng)絡(luò)方法等。通常需要輸入一個訓(xùn)練樣本來構(gòu)造分類器,訓(xùn)練樣本中的每條數(shù)據(jù)記錄是由屬性組成的特征向量,以及訓(xùn)練樣本的類別標(biāo)記。聚類是對無類別的樣本進(jìn)行聚集,然后形成不同的組,其中的一組數(shù)據(jù)對象稱為一個簇。聚類的目的是屬于同一簇的數(shù)據(jù)對象之間應(yīng)該彼此相似,而屬于不同簇的數(shù)據(jù)對象之間應(yīng)該盡量不同。聚類不同于分類的是,在聚類之前,我們不知道要劃分多少組,劃分什么樣的組。其目的是發(fā)現(xiàn)數(shù)據(jù)對象屬性之間的關(guān)系。聚類技術(shù)發(fā)展迅速,廣泛應(yīng)用于統(tǒng)計學(xué)習(xí)、機器學(xué)習(xí)、生物學(xué)等領(lǐng)域。聚類分析是數(shù)據(jù)挖掘中的一個主要任務(wù),代表算法有:k-means算法、k-modes算法、BIRCH算法、DBSCAN算法等。關(guān)聯(lián)規(guī)則是用于挖掘數(shù)據(jù)對象之間的相關(guān)性。最初關(guān)聯(lián)規(guī)則應(yīng)用于購物籃分析,用
Spark集群環(huán)境下的分類數(shù)據(jù)離群檢測及應(yīng)用6圖1.3Spark基本工作流程圖Figure1.3TheworkflowofSpark用戶通過客戶端提交作業(yè)給集群,驅(qū)動器節(jié)點將開始初始化操作執(zhí)行環(huán)境(包括任務(wù)調(diào)度,作業(yè)階段調(diào)度,等等),作業(yè)被分為多個任務(wù),然后主節(jié)點向集群管理器ClusterManager申請資源,集群管理器根據(jù)報告的資源使用情況分配資源,Executor負(fù)責(zé)執(zhí)行具體的任務(wù),最后釋放集群資源直到任務(wù)執(zhí)行完成。Spark可以運行在Hadoop的數(shù)據(jù)源上,并且很好地融入Hadoop生態(tài)系統(tǒng)。與MapReduce編程模型相比,Spark具有以下三個優(yōu)點:1)Spark框架將計算結(jié)果緩存在主存中,提高了迭代操作之間共享數(shù)據(jù)的能力,減少了磁盤操作的數(shù)量。2)Spark框架中的所有數(shù)據(jù)操作都由彈性分布式數(shù)據(jù)集RDD提供支持。3)Spark使用事件驅(qū)動庫啟動任務(wù),提高通信效率,同時保持較低的任務(wù)調(diào)度開銷。Spark生態(tài)圈是由BerkeleyAMP實驗室搭建的一個大數(shù)據(jù)應(yīng)用平臺,包含了很多組件,例如SparkCore、SparkSQL、SparkStreaming、MLLib和GraphX等。Spark生態(tài)系統(tǒng)涵蓋了許多應(yīng)用領(lǐng)域,如機器學(xué)習(xí)、數(shù)據(jù)挖掘和信息檢索等。利用各種方便靈活的技術(shù)解決方案對大規(guī)模的不透明數(shù)據(jù)進(jìn)行篩選,轉(zhuǎn)化為有用信息,讓人們可以更好地了解世界。如圖1.4所示,Spark是一個集成了多個組件的一站式解決方案平臺。其中SparkCore為Spark生態(tài)圈的核心,提供了一個內(nèi)存計算框架。SparkStreaming用于實時應(yīng)用程序、SparkSQL用于查詢、MLlib或MLbase用于機器學(xué)習(xí),GraphX用于圖處理。從HDFS、HBase等讀取數(shù)據(jù),并使用MESOS、YARN和它自己的Standalone為資源管理器調(diào)度作業(yè),從而完成Spark應(yīng)用程序的計算。
【參考文獻(xiàn)】:
期刊論文
[1]故障診斷及預(yù)測性維護(hù)在智能制造中的應(yīng)用[J]. 祝旭. 自動化儀表. 2019(07)
[2]大數(shù)據(jù)挖掘及應(yīng)用[J]. 王國胤,劉群,于洪,曾憲華. 科技與出版. 2018(04)
[3]工業(yè)大數(shù)據(jù)技術(shù)綜述[J]. 王建民. 大數(shù)據(jù). 2017(06)
[4]基于互信息的混合屬性數(shù)據(jù)特征選擇方法[J]. 劉海濤,魏汝祥,袁昊劼. 海軍工程大學(xué)學(xué)報. 2016(04)
[5]從大數(shù)據(jù)到智能制造[J]. 張禮立. 中國工業(yè)評論. 2016(07)
[6]智能制造——“中國制造2025”的主攻方向[J]. 周濟. 中國機械工程. 2015(17)
[7]基于混合粒子群算法的復(fù)雜機械產(chǎn)品裝配質(zhì)量控制閾優(yōu)化方法[J]. 王小巧,劉明周,葛茂根,馬靖,劉從虎. 機械工程學(xué)報. 2016(01)
[8]智能制造:全球趨勢與中國戰(zhàn)略[J]. 呂鐵,韓娜. 人民論壇·學(xué)術(shù)前沿. 2015(11)
[9]Top-k Outlier Detection from Uncertain Data[J]. Salman Ahmed Shaikh,Hiroyuki Kitagawa. International Journal of Automation and Computing. 2014(02)
[10]基于粒子群BP神經(jīng)網(wǎng)絡(luò)的質(zhì)量預(yù)測模型[J]. 徐蘭,方志耕,劉思峰. 工業(yè)工程. 2012(04)
博士論文
[1]集群環(huán)境下的關(guān)聯(lián)規(guī)則挖掘及應(yīng)用[D]. 荀亞玲.太原科技大學(xué) 2017
碩士論文
[1]埃美柯閥門車間智能制造系統(tǒng)改造方法研究[D]. 徐偉峰.寧波大學(xué) 2017
[2]Hadoop平臺下基于聚類和關(guān)聯(lián)規(guī)則算法的工程車輛故障預(yù)測研究[D]. 武霞.太原科技大學(xué) 2015
[3]基于數(shù)據(jù)挖掘方法的冷軋表面質(zhì)量缺陷分析[D]. 郭龍波.安徽工業(yè)大學(xué) 2012
[4]PG煉鋼廠MES系統(tǒng)數(shù)據(jù)挖掘的設(shè)計與開發(fā)[D]. 張玉東.電子科技大學(xué) 2011
[5]基于模式識別和數(shù)據(jù)挖掘的鋁工業(yè)生產(chǎn)節(jié)能降耗研究[D]. 婁小芳.國防科學(xué)技術(shù)大學(xué) 2010
[6]冷軋輥質(zhì)量統(tǒng)計與分析系統(tǒng)—質(zhì)量分析子系統(tǒng)的設(shè)計與實現(xiàn)[D]. 陳綱.東北大學(xué) 2010
[7]基于數(shù)據(jù)挖掘技術(shù)的礦用提升機故障預(yù)警系統(tǒng)的研究[D]. 王詩.北京郵電大學(xué) 2009
[8]汽車售后服務(wù)故障件管理及數(shù)據(jù)挖掘技術(shù)應(yīng)用研究[D]. 羅洪波.西南交通大學(xué) 2008
[9]基于數(shù)據(jù)挖掘方法的熱軋帶鋼表面質(zhì)量缺陷分析[D]. 宋健.上海交通大學(xué) 2008
[10]金屬鍍層工件表面缺陷自動檢測系統(tǒng)的研究[D]. 丁金明.天津大學(xué) 2004
本文編號:3490873
【文章來源】:太原科技大學(xué)山西省
【文章頁數(shù)】:124 頁
【學(xué)位級別】:博士
【部分圖文】:
大數(shù)據(jù)的5V特征
括聚類,分類,關(guān)聯(lián)規(guī)則和離群檢測等諸多算法。大數(shù)據(jù)挖掘不再是針對少量或是樣本化、隨機化的精準(zhǔn)數(shù)據(jù),而是海量,混雜的大數(shù)據(jù)。大數(shù)據(jù)挖掘的意義是從海量數(shù)據(jù)中找到有意義的模式或知識。數(shù)據(jù)挖掘的執(zhí)行過程包含很多不同的步驟,其中輸入的是原始數(shù)據(jù),輸出的是用戶需要的有價值的信息。從原始數(shù)據(jù)中挖掘有用的信息是一個循環(huán)的、系統(tǒng)的過程。首先,分析獲得的數(shù)據(jù)以確定合適的挖掘目標(biāo);其次選擇恰當(dāng)?shù)耐诰蚍椒ㄌ崛∮袃r值的數(shù)據(jù)。然后,評估生成的知識模式;最后將有價值的知識保存起來,便于應(yīng)用。數(shù)據(jù)挖掘的執(zhí)行過程如圖1.2所示。圖1.2數(shù)據(jù)挖掘的執(zhí)行過程Figure1.2Executionprocessofdatamining數(shù)據(jù)挖掘的任務(wù)一般可以歸納為以下幾個類別:分類、聚類、關(guān)聯(lián)規(guī)則挖掘和離群檢測等[7]。分類的目的是學(xué)習(xí)將數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別的分類函數(shù)或分類模型(通常稱為分類器)。構(gòu)造分類器的方法很多,例如基于統(tǒng)計的方法、基于機器學(xué)習(xí)的方法以及人工神經(jīng)網(wǎng)絡(luò)方法等。通常需要輸入一個訓(xùn)練樣本來構(gòu)造分類器,訓(xùn)練樣本中的每條數(shù)據(jù)記錄是由屬性組成的特征向量,以及訓(xùn)練樣本的類別標(biāo)記。聚類是對無類別的樣本進(jìn)行聚集,然后形成不同的組,其中的一組數(shù)據(jù)對象稱為一個簇。聚類的目的是屬于同一簇的數(shù)據(jù)對象之間應(yīng)該彼此相似,而屬于不同簇的數(shù)據(jù)對象之間應(yīng)該盡量不同。聚類不同于分類的是,在聚類之前,我們不知道要劃分多少組,劃分什么樣的組。其目的是發(fā)現(xiàn)數(shù)據(jù)對象屬性之間的關(guān)系。聚類技術(shù)發(fā)展迅速,廣泛應(yīng)用于統(tǒng)計學(xué)習(xí)、機器學(xué)習(xí)、生物學(xué)等領(lǐng)域。聚類分析是數(shù)據(jù)挖掘中的一個主要任務(wù),代表算法有:k-means算法、k-modes算法、BIRCH算法、DBSCAN算法等。關(guān)聯(lián)規(guī)則是用于挖掘數(shù)據(jù)對象之間的相關(guān)性。最初關(guān)聯(lián)規(guī)則應(yīng)用于購物籃分析,用
Spark集群環(huán)境下的分類數(shù)據(jù)離群檢測及應(yīng)用6圖1.3Spark基本工作流程圖Figure1.3TheworkflowofSpark用戶通過客戶端提交作業(yè)給集群,驅(qū)動器節(jié)點將開始初始化操作執(zhí)行環(huán)境(包括任務(wù)調(diào)度,作業(yè)階段調(diào)度,等等),作業(yè)被分為多個任務(wù),然后主節(jié)點向集群管理器ClusterManager申請資源,集群管理器根據(jù)報告的資源使用情況分配資源,Executor負(fù)責(zé)執(zhí)行具體的任務(wù),最后釋放集群資源直到任務(wù)執(zhí)行完成。Spark可以運行在Hadoop的數(shù)據(jù)源上,并且很好地融入Hadoop生態(tài)系統(tǒng)。與MapReduce編程模型相比,Spark具有以下三個優(yōu)點:1)Spark框架將計算結(jié)果緩存在主存中,提高了迭代操作之間共享數(shù)據(jù)的能力,減少了磁盤操作的數(shù)量。2)Spark框架中的所有數(shù)據(jù)操作都由彈性分布式數(shù)據(jù)集RDD提供支持。3)Spark使用事件驅(qū)動庫啟動任務(wù),提高通信效率,同時保持較低的任務(wù)調(diào)度開銷。Spark生態(tài)圈是由BerkeleyAMP實驗室搭建的一個大數(shù)據(jù)應(yīng)用平臺,包含了很多組件,例如SparkCore、SparkSQL、SparkStreaming、MLLib和GraphX等。Spark生態(tài)系統(tǒng)涵蓋了許多應(yīng)用領(lǐng)域,如機器學(xué)習(xí)、數(shù)據(jù)挖掘和信息檢索等。利用各種方便靈活的技術(shù)解決方案對大規(guī)模的不透明數(shù)據(jù)進(jìn)行篩選,轉(zhuǎn)化為有用信息,讓人們可以更好地了解世界。如圖1.4所示,Spark是一個集成了多個組件的一站式解決方案平臺。其中SparkCore為Spark生態(tài)圈的核心,提供了一個內(nèi)存計算框架。SparkStreaming用于實時應(yīng)用程序、SparkSQL用于查詢、MLlib或MLbase用于機器學(xué)習(xí),GraphX用于圖處理。從HDFS、HBase等讀取數(shù)據(jù),并使用MESOS、YARN和它自己的Standalone為資源管理器調(diào)度作業(yè),從而完成Spark應(yīng)用程序的計算。
【參考文獻(xiàn)】:
期刊論文
[1]故障診斷及預(yù)測性維護(hù)在智能制造中的應(yīng)用[J]. 祝旭. 自動化儀表. 2019(07)
[2]大數(shù)據(jù)挖掘及應(yīng)用[J]. 王國胤,劉群,于洪,曾憲華. 科技與出版. 2018(04)
[3]工業(yè)大數(shù)據(jù)技術(shù)綜述[J]. 王建民. 大數(shù)據(jù). 2017(06)
[4]基于互信息的混合屬性數(shù)據(jù)特征選擇方法[J]. 劉海濤,魏汝祥,袁昊劼. 海軍工程大學(xué)學(xué)報. 2016(04)
[5]從大數(shù)據(jù)到智能制造[J]. 張禮立. 中國工業(yè)評論. 2016(07)
[6]智能制造——“中國制造2025”的主攻方向[J]. 周濟. 中國機械工程. 2015(17)
[7]基于混合粒子群算法的復(fù)雜機械產(chǎn)品裝配質(zhì)量控制閾優(yōu)化方法[J]. 王小巧,劉明周,葛茂根,馬靖,劉從虎. 機械工程學(xué)報. 2016(01)
[8]智能制造:全球趨勢與中國戰(zhàn)略[J]. 呂鐵,韓娜. 人民論壇·學(xué)術(shù)前沿. 2015(11)
[9]Top-k Outlier Detection from Uncertain Data[J]. Salman Ahmed Shaikh,Hiroyuki Kitagawa. International Journal of Automation and Computing. 2014(02)
[10]基于粒子群BP神經(jīng)網(wǎng)絡(luò)的質(zhì)量預(yù)測模型[J]. 徐蘭,方志耕,劉思峰. 工業(yè)工程. 2012(04)
博士論文
[1]集群環(huán)境下的關(guān)聯(lián)規(guī)則挖掘及應(yīng)用[D]. 荀亞玲.太原科技大學(xué) 2017
碩士論文
[1]埃美柯閥門車間智能制造系統(tǒng)改造方法研究[D]. 徐偉峰.寧波大學(xué) 2017
[2]Hadoop平臺下基于聚類和關(guān)聯(lián)規(guī)則算法的工程車輛故障預(yù)測研究[D]. 武霞.太原科技大學(xué) 2015
[3]基于數(shù)據(jù)挖掘方法的冷軋表面質(zhì)量缺陷分析[D]. 郭龍波.安徽工業(yè)大學(xué) 2012
[4]PG煉鋼廠MES系統(tǒng)數(shù)據(jù)挖掘的設(shè)計與開發(fā)[D]. 張玉東.電子科技大學(xué) 2011
[5]基于模式識別和數(shù)據(jù)挖掘的鋁工業(yè)生產(chǎn)節(jié)能降耗研究[D]. 婁小芳.國防科學(xué)技術(shù)大學(xué) 2010
[6]冷軋輥質(zhì)量統(tǒng)計與分析系統(tǒng)—質(zhì)量分析子系統(tǒng)的設(shè)計與實現(xiàn)[D]. 陳綱.東北大學(xué) 2010
[7]基于數(shù)據(jù)挖掘技術(shù)的礦用提升機故障預(yù)警系統(tǒng)的研究[D]. 王詩.北京郵電大學(xué) 2009
[8]汽車售后服務(wù)故障件管理及數(shù)據(jù)挖掘技術(shù)應(yīng)用研究[D]. 羅洪波.西南交通大學(xué) 2008
[9]基于數(shù)據(jù)挖掘方法的熱軋帶鋼表面質(zhì)量缺陷分析[D]. 宋健.上海交通大學(xué) 2008
[10]金屬鍍層工件表面缺陷自動檢測系統(tǒng)的研究[D]. 丁金明.天津大學(xué) 2004
本文編號:3490873
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3490873.html
最近更新
教材專著