Spark集群環(huán)境下的分類數(shù)據(jù)離群檢測及應用

發(fā)布時間：2021-11-12 12:01

　　工業(yè)大數(shù)據(jù)時代的到來推動了現(xiàn)代制造業(yè)的發(fā)展,制造業(yè)在發(fā)展過程中積累了大量數(shù)據(jù)。數(shù)據(jù)挖掘是大數(shù)據(jù)分析的一種有效途徑,其挖掘結果能夠應用在機械制造業(yè)的生產(chǎn)、管理和運營過程中,促進制造企業(yè)優(yōu)化生產(chǎn)、改進生產(chǎn)工藝以及診斷設備故障等,以降低生產(chǎn)成本和提高企業(yè)運營效率。在當前機械產(chǎn)品加工中,由設備性能下降、精度損失、易損件磨損、人因等多種因素造成了隱性問題,一般不容易被發(fā)現(xiàn)但卻會影響產(chǎn)品的質量。離群檢測作為一種數(shù)據(jù)挖掘方法,可從機械產(chǎn)品加工數(shù)據(jù)中有效地發(fā)現(xiàn)隱性問題。本文在基于內(nèi)存計算的Spark集群系統(tǒng)環(huán)境下,研究了分類數(shù)據(jù)離群檢測理論、方法以及冷軋輥加工數(shù)據(jù)離群檢測的方法,不僅為大數(shù)據(jù)分析提供了有效的并行離群檢測新方法與實現(xiàn)途徑,而且也為有效發(fā)現(xiàn)機械產(chǎn)品加工過程中可能存在的設備精度下降、檢測者資質、加工環(huán)境等具有異常特征的隱性問題,提供了一種有效手段。其主要研究成果如下:（1）提出了一種基于特征分組的分類數(shù)據(jù)離群檢測算法——WATCH。該算法通過度量數(shù)據(jù)特征間的相關性將數(shù)據(jù)特征分為多個特征組,可以發(fā)現(xiàn)隱藏在特征子空間中的離群值,有效提高了離群檢測精度,而且可以從不同方面發(fā)現(xiàn)特征模式的差異性。實驗...

【文章來源】：太原科技大學山西省

【文章頁數(shù)】：124 頁

【學位級別】：博士

【部分圖文】：

大數(shù)據(jù)的5V特征

過程圖,數(shù)據(jù)挖掘,過程,聚類

括聚類，分類，關聯(lián)規(guī)則和離群檢測等諸多算法。大數(shù)據(jù)挖掘不再是針對少量或是樣本化、隨機化的精準數(shù)據(jù)，而是海量，混雜的大數(shù)據(jù)。大數(shù)據(jù)挖掘的意義是從海量數(shù)據(jù)中找到有意義的模式或知識。數(shù)據(jù)挖掘的執(zhí)行過程包含很多不同的步驟，其中輸入的是原始數(shù)據(jù)，輸出的是用戶需要的有價值的信息。從原始數(shù)據(jù)中挖掘有用的信息是一個循環(huán)的、系統(tǒng)的過程。首先，分析獲得的數(shù)據(jù)以確定合適的挖掘目標；其次選擇恰當?shù)耐诰蚍椒ㄌ崛∮袃r值的數(shù)據(jù)。然后，評估生成的知識模式；最后將有價值的知識保存起來，便于應用。數(shù)據(jù)挖掘的執(zhí)行過程如圖1.2所示。圖1.2數(shù)據(jù)挖掘的執(zhí)行過程Figure1.2Executionprocessofdatamining數(shù)據(jù)挖掘的任務一般可以歸納為以下幾個類別：分類、聚類、關聯(lián)規(guī)則挖掘和離群檢測等[7]。分類的目的是學習將數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別的分類函數(shù)或分類模型(通常稱為分類器)。構造分類器的方法很多，例如基于統(tǒng)計的方法、基于機器學習的方法以及人工神經(jīng)網(wǎng)絡方法等。通常需要輸入一個訓練樣本來構造分類器，訓練樣本中的每條數(shù)據(jù)記錄是由屬性組成的特征向量，以及訓練樣本的類別標記。聚類是對無類別的樣本進行聚集，然后形成不同的組，其中的一組數(shù)據(jù)對象稱為一個簇。聚類的目的是屬于同一簇的數(shù)據(jù)對象之間應該彼此相似，而屬于不同簇的數(shù)據(jù)對象之間應該盡量不同。聚類不同于分類的是，在聚類之前，我們不知道要劃分多少組，劃分什么樣的組。其目的是發(fā)現(xiàn)數(shù)據(jù)對象屬性之間的關系。聚類技術發(fā)展迅速，廣泛應用于統(tǒng)計學習、機器學習、生物學等領域。聚類分析是數(shù)據(jù)挖掘中的一個主要任務，代表算法有：k-means算法、k-modes算法、BIRCH算法、DBSCAN算法等。關聯(lián)規(guī)則是用于挖掘數(shù)據(jù)對象之間的相關性。最初關聯(lián)規(guī)則應用于購物籃分析，用

工作流程圖,工作流程圖

Spark集群環(huán)境下的分類數(shù)據(jù)離群檢測及應用6圖1.3Spark基本工作流程圖Figure1.3TheworkflowofSpark用戶通過客戶端提交作業(yè)給集群，驅動器節(jié)點將開始初始化操作執(zhí)行環(huán)境(包括任務調度，作業(yè)階段調度，等等)，作業(yè)被分為多個任務，然后主節(jié)點向集群管理器ClusterManager申請資源，集群管理器根據(jù)報告的資源使用情況分配資源，Executor負責執(zhí)行具體的任務，最后釋放集群資源直到任務執(zhí)行完成。Spark可以運行在Hadoop的數(shù)據(jù)源上，并且很好地融入Hadoop生態(tài)系統(tǒng)。與MapReduce編程模型相比，Spark具有以下三個優(yōu)點：1)Spark框架將計算結果緩存在主存中，提高了迭代操作之間共享數(shù)據(jù)的能力，減少了磁盤操作的數(shù)量。2)Spark框架中的所有數(shù)據(jù)操作都由彈性分布式數(shù)據(jù)集RDD提供支持。3)Spark使用事件驅動庫啟動任務，提高通信效率，同時保持較低的任務調度開銷。Spark生態(tài)圈是由BerkeleyAMP實驗室搭建的一個大數(shù)據(jù)應用平臺，包含了很多組件，例如SparkCore、SparkSQL、SparkStreaming、MLLib和GraphX等。Spark生態(tài)系統(tǒng)涵蓋了許多應用領域，如機器學習、數(shù)據(jù)挖掘和信息檢索等。利用各種方便靈活的技術解決方案對大規(guī)模的不透明數(shù)據(jù)進行篩選，轉化為有用信息，讓人們可以更好地了解世界。如圖1.4所示，Spark是一個集成了多個組件的一站式解決方案平臺。其中SparkCore為Spark生態(tài)圈的核心，提供了一個內(nèi)存計算框架。SparkStreaming用于實時應用程序、SparkSQL用于查詢、MLlib或MLbase用于機器學習，GraphX用于圖處理。從HDFS、HBase等讀取數(shù)據(jù)，并使用MESOS、YARN和它自己的Standalone為資源管理器調度作業(yè)，從而完成Spark應用程序的計算。

【參考文獻】：
期刊論文
[1]故障診斷及預測性維護在智能制造中的應用[J]. 祝旭.  自動化儀表. 2019(07)
[2]大數(shù)據(jù)挖掘及應用[J]. 王國胤,劉群,于洪,曾憲華.  科技與出版. 2018(04)
[3]工業(yè)大數(shù)據(jù)技術綜述[J]. 王建民.  大數(shù)據(jù). 2017(06)
[4]基于互信息的混合屬性數(shù)據(jù)特征選擇方法[J]. 劉海濤,魏汝祥,袁昊劼.  海軍工程大學學報. 2016(04)
[5]從大數(shù)據(jù)到智能制造[J]. 張禮立.  中國工業(yè)評論. 2016(07)
[6]智能制造——“中國制造2025”的主攻方向[J]. 周濟.  中國機械工程. 2015(17)
[7]基于混合粒子群算法的復雜機械產(chǎn)品裝配質量控制閾優(yōu)化方法[J]. 王小巧,劉明周,葛茂根,馬靖,劉從虎.  機械工程學報. 2016(01)
[8]智能制造:全球趨勢與中國戰(zhàn)略[J]. 呂鐵,韓娜.  人民論壇·學術前沿. 2015(11)
[9]Top-k Outlier Detection from Uncertain Data[J]. Salman Ahmed Shaikh,Hiroyuki Kitagawa.  International Journal of Automation and Computing. 2014(02)
[10]基于粒子群BP神經(jīng)網(wǎng)絡的質量預測模型[J]. 徐蘭,方志耕,劉思峰.  工業(yè)工程. 2012(04)

博士論文
[1]集群環(huán)境下的關聯(lián)規(guī)則挖掘及應用[D]. 荀亞玲.太原科技大學 2017

碩士論文
[1]埃美柯閥門車間智能制造系統(tǒng)改造方法研究[D]. 徐偉峰.寧波大學 2017
[2]Hadoop平臺下基于聚類和關聯(lián)規(guī)則算法的工程車輛故障預測研究[D]. 武霞.太原科技大學 2015
[3]基于數(shù)據(jù)挖掘方法的冷軋表面質量缺陷分析[D]. 郭龍波.安徽工業(yè)大學 2012
[4]PG煉鋼廠MES系統(tǒng)數(shù)據(jù)挖掘的設計與開發(fā)[D]. 張玉東.電子科技大學 2011
[5]基于模式識別和數(shù)據(jù)挖掘的鋁工業(yè)生產(chǎn)節(jié)能降耗研究[D]. 婁小芳.國防科學技術大學 2010
[6]冷軋輥質量統(tǒng)計與分析系統(tǒng)—質量分析子系統(tǒng)的設計與實現(xiàn)[D]. 陳綱.東北大學 2010
[7]基于數(shù)據(jù)挖掘技術的礦用提升機故障預警系統(tǒng)的研究[D]. 王詩.北京郵電大學 2009
[8]汽車售后服務故障件管理及數(shù)據(jù)挖掘技術應用研究[D]. 羅洪波.西南交通大學 2008
[9]基于數(shù)據(jù)挖掘方法的熱軋帶鋼表面質量缺陷分析[D]. 宋健.上海交通大學 2008
[10]金屬鍍層工件表面缺陷自動檢測系統(tǒng)的研究[D]. 丁金明.天津大學 2004

本文編號：3490873

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xxkjbs/3490873.html

上一篇：用于BOTDA光纖傳感系統(tǒng)的數(shù)據(jù)處理方式的研究
下一篇：基于數(shù)字微鏡的像素級調光技術研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Spark集群環(huán)境下的分類數(shù)據(jù)離群檢測及應用