面向工業(yè)大數(shù)據(jù)的不平衡數(shù)據(jù)處理方法研究
發(fā)布時(shí)間:2022-12-05 00:50
隨著互聯(lián)網(wǎng)技術(shù)及智能計(jì)算技術(shù)的發(fā)展,海量的工業(yè)數(shù)據(jù)被采集、存儲及分析并用于決策支持,基于工業(yè)大數(shù)據(jù)的智能數(shù)據(jù)分析日益受到工業(yè)界及學(xué)術(shù)界的關(guān)注和重視。基于機(jī)器學(xué)習(xí)的設(shè)備故障檢測是工業(yè)大數(shù)據(jù)的一類重要應(yīng)用,通過及時(shí)發(fā)現(xiàn)設(shè)備故障有利于降低故障損失、提高工業(yè)產(chǎn)品質(zhì)量。工業(yè)設(shè)備故障診斷通常要求錯(cuò)誤率很低,一次失誤可能造成嚴(yán)重后果。然而,實(shí)踐及研究表明工業(yè)大數(shù)據(jù)設(shè)備故障檢測中存在不可避免的不平衡數(shù)據(jù)挑戰(zhàn),導(dǎo)致機(jī)器學(xué)習(xí)算法召回率較低。本文針對工業(yè)大數(shù)據(jù)的特點(diǎn),對不平衡數(shù)據(jù)機(jī)器學(xué)習(xí)算法及工業(yè)大數(shù)據(jù)實(shí)時(shí)處理技術(shù)進(jìn)行了研究,并取得了如下研究成果:針對現(xiàn)有數(shù)據(jù)采樣及集成學(xué)習(xí)等不平衡數(shù)據(jù)學(xué)習(xí)方法中存在的問題,本文根據(jù)SMOTE、Bagging、Boosting算法的基本思想,提出了基于數(shù)據(jù)采樣與模型融合的不平衡數(shù)據(jù)學(xué)習(xí)算法Rotation SMOTE。該方法在模型Boosting訓(xùn)練過程中,根據(jù)基分類器預(yù)測結(jié)果對少數(shù)類樣本進(jìn)行有針對性的數(shù)據(jù)合成采樣,以提高少數(shù)類樣本的召回率,并通過利用PCA對原始樣本進(jìn)行旋轉(zhuǎn)變換的方式來融合多個(gè)模型,增加樣本多樣性。經(jīng)實(shí)驗(yàn)表明,與SMOTEBoost、EasyEnsemble...
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景
1.1.1 工業(yè)大數(shù)據(jù)概述
1.1.2 工業(yè)大數(shù)據(jù)應(yīng)用之設(shè)備故障檢測
1.1.3 工業(yè)大數(shù)據(jù)設(shè)備診斷中存在的問題
1.1.4 工業(yè)大數(shù)據(jù)的實(shí)時(shí)數(shù)據(jù)處理
1.2 研究現(xiàn)狀與挑戰(zhàn)
1.2.1 不平衡數(shù)據(jù)處理方法
1.2.2 不平衡數(shù)據(jù)處理挑戰(zhàn)性問題
1.3 本文工作
1.3.1 基于數(shù)據(jù)采樣與模型融合的不平衡數(shù)據(jù)學(xué)習(xí)方法
1.3.2 基于Boosting的不平衡數(shù)據(jù)學(xué)習(xí)方法
1.3.3 工業(yè)大數(shù)據(jù)實(shí)時(shí)處理框架的設(shè)計(jì)與實(shí)現(xiàn)
1.4 論文結(jié)構(gòu)
第二章 相關(guān)技術(shù)
2.1 大數(shù)據(jù)處理技術(shù)
2.1.1 分布式消息中間件Kafka
2.1.2 分布式實(shí)時(shí)計(jì)算引擎Spark Streaming
2.1.3 分布式時(shí)間序列數(shù)據(jù)庫OpenTSDB
2.2 故障檢測方法
2.2.1 傳統(tǒng)依賴專家的故障檢測方法
2.2.2 基于機(jī)器學(xué)習(xí)的故障檢測方法
2.3 不平衡數(shù)據(jù)的學(xué)習(xí)
2.3.1 數(shù)據(jù)合成采樣方法
2.3.2 集成學(xué)習(xí)方法
2.3.3 Focal Loss損失函數(shù)
2.4 本章小結(jié)
第三章 基于數(shù)據(jù)采樣與模型融合的不平衡數(shù)據(jù)學(xué)習(xí)方法
3.1 引言
3.2 問題描述
3.3 Rotation SMOTE算法
3.4 boostSMOTE算法
3.5 實(shí)驗(yàn)與分析
3.5.1 實(shí)驗(yàn)數(shù)據(jù)集
3.5.2 性能評估方法
3.5.3 實(shí)驗(yàn)設(shè)計(jì)
3.5.4 實(shí)驗(yàn)結(jié)果分析
3.6 本章小結(jié)
第四章 基于Boosting的不平衡數(shù)據(jù)學(xué)習(xí)方法
4.1 引言
4.2 問題描述
4.2.1 基于代價(jià)敏感的boosting算法的局限性
4.2.2 如何區(qū)分樣本分類的難易程度
4.3 FocalBoost算法
4.4 FocalBoost與 Rotation SMOTE
4.5 實(shí)驗(yàn)與分析
4.5.1 實(shí)驗(yàn)設(shè)計(jì)
4.5.2 實(shí)驗(yàn)結(jié)果分析
4.6 本章小結(jié)
第五章 工業(yè)大數(shù)據(jù)實(shí)時(shí)處理框架的設(shè)計(jì)與實(shí)現(xiàn)
5.1 引言
5.2 實(shí)時(shí)處理系統(tǒng)架構(gòu)
5.3 性能瓶頸及優(yōu)化措施
5.4 實(shí)驗(yàn)與分析
5.4.1 實(shí)驗(yàn)設(shè)計(jì)
5.4.2 實(shí)驗(yàn)結(jié)果分析
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 本文總結(jié)與主要創(chuàng)新點(diǎn)
6.2 未來工作展望
致謝
參考文獻(xiàn)
作者在學(xué)期間取得的學(xué)術(shù)成果
作者在學(xué)期間參與的主要科研工作
【參考文獻(xiàn)】:
期刊論文
[1]工業(yè)4.0:智能工業(yè)[J]. 王喜文. 物聯(lián)網(wǎng)技術(shù). 2013(12)
本文編號:3709332
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景
1.1.1 工業(yè)大數(shù)據(jù)概述
1.1.2 工業(yè)大數(shù)據(jù)應(yīng)用之設(shè)備故障檢測
1.1.3 工業(yè)大數(shù)據(jù)設(shè)備診斷中存在的問題
1.1.4 工業(yè)大數(shù)據(jù)的實(shí)時(shí)數(shù)據(jù)處理
1.2 研究現(xiàn)狀與挑戰(zhàn)
1.2.1 不平衡數(shù)據(jù)處理方法
1.2.2 不平衡數(shù)據(jù)處理挑戰(zhàn)性問題
1.3 本文工作
1.3.1 基于數(shù)據(jù)采樣與模型融合的不平衡數(shù)據(jù)學(xué)習(xí)方法
1.3.2 基于Boosting的不平衡數(shù)據(jù)學(xué)習(xí)方法
1.3.3 工業(yè)大數(shù)據(jù)實(shí)時(shí)處理框架的設(shè)計(jì)與實(shí)現(xiàn)
1.4 論文結(jié)構(gòu)
第二章 相關(guān)技術(shù)
2.1 大數(shù)據(jù)處理技術(shù)
2.1.1 分布式消息中間件Kafka
2.1.2 分布式實(shí)時(shí)計(jì)算引擎Spark Streaming
2.1.3 分布式時(shí)間序列數(shù)據(jù)庫OpenTSDB
2.2 故障檢測方法
2.2.1 傳統(tǒng)依賴專家的故障檢測方法
2.2.2 基于機(jī)器學(xué)習(xí)的故障檢測方法
2.3 不平衡數(shù)據(jù)的學(xué)習(xí)
2.3.1 數(shù)據(jù)合成采樣方法
2.3.2 集成學(xué)習(xí)方法
2.3.3 Focal Loss損失函數(shù)
2.4 本章小結(jié)
第三章 基于數(shù)據(jù)采樣與模型融合的不平衡數(shù)據(jù)學(xué)習(xí)方法
3.1 引言
3.2 問題描述
3.3 Rotation SMOTE算法
3.4 boostSMOTE算法
3.5 實(shí)驗(yàn)與分析
3.5.1 實(shí)驗(yàn)數(shù)據(jù)集
3.5.2 性能評估方法
3.5.3 實(shí)驗(yàn)設(shè)計(jì)
3.5.4 實(shí)驗(yàn)結(jié)果分析
3.6 本章小結(jié)
第四章 基于Boosting的不平衡數(shù)據(jù)學(xué)習(xí)方法
4.1 引言
4.2 問題描述
4.2.1 基于代價(jià)敏感的boosting算法的局限性
4.2.2 如何區(qū)分樣本分類的難易程度
4.3 FocalBoost算法
4.4 FocalBoost與 Rotation SMOTE
4.5 實(shí)驗(yàn)與分析
4.5.1 實(shí)驗(yàn)設(shè)計(jì)
4.5.2 實(shí)驗(yàn)結(jié)果分析
4.6 本章小結(jié)
第五章 工業(yè)大數(shù)據(jù)實(shí)時(shí)處理框架的設(shè)計(jì)與實(shí)現(xiàn)
5.1 引言
5.2 實(shí)時(shí)處理系統(tǒng)架構(gòu)
5.3 性能瓶頸及優(yōu)化措施
5.4 實(shí)驗(yàn)與分析
5.4.1 實(shí)驗(yàn)設(shè)計(jì)
5.4.2 實(shí)驗(yàn)結(jié)果分析
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 本文總結(jié)與主要創(chuàng)新點(diǎn)
6.2 未來工作展望
致謝
參考文獻(xiàn)
作者在學(xué)期間取得的學(xué)術(shù)成果
作者在學(xué)期間參與的主要科研工作
【參考文獻(xiàn)】:
期刊論文
[1]工業(yè)4.0:智能工業(yè)[J]. 王喜文. 物聯(lián)網(wǎng)技術(shù). 2013(12)
本文編號:3709332
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3709332.html
最近更新
教材專著