基于Hadoop的海量工程數(shù)據(jù)關(guān)聯(lián)規(guī)劃挖掘方法研究
1緒論
由于高速動(dòng)車組是高新技術(shù)集成體,其維修方式與現(xiàn)有機(jī)車車輛有很大差異,容易出現(xiàn)故障信息處理、信息更新不夠及時(shí)等差錯(cuò)。動(dòng)車組狀態(tài)信息的實(shí)時(shí)采集、傳感器的大量使用,使得實(shí)時(shí)監(jiān)控和掌握動(dòng)車組運(yùn)行狀態(tài)、進(jìn)行有目的保養(yǎng)成為可能,越來(lái)越多的動(dòng)車組數(shù)據(jù)信息被收集起來(lái),對(duì)這些數(shù)據(jù)信息的處理工作也提出了迫切需求。快速、準(zhǔn)確地完成動(dòng)車組關(guān)鍵部件運(yùn)行狀態(tài)的分析利用,是確保動(dòng)車組運(yùn)行安全和提高管理水平的重要技術(shù)保障。雖然鐵路信息化水平在不斷提高,但是歷史故障信息的分析應(yīng)用仍相對(duì)落后。動(dòng)車組歷史運(yùn)維數(shù)據(jù)是評(píng)價(jià)動(dòng)車組性能和工作狀態(tài)的重要參考依據(jù)。
.....
2基于MapReduce的改進(jìn)并行頻繁模式挖掘算法
2.1關(guān)聯(lián)規(guī)則挖掘基本理論
上述兩個(gè)定義中,支持度就是指兩個(gè)事件同時(shí)發(fā)生的概率,而信度則是指在一個(gè)事件發(fā)生時(shí),另一個(gè)事件發(fā)生的功率。這是關(guān)聯(lián)規(guī)則提取的基礎(chǔ)。FP-Growfli算法的核心思想是利用樹結(jié)構(gòu)將數(shù)據(jù)集壓縮到FP-Tree中,該算法的主要優(yōu)點(diǎn)是:完全保留了數(shù)據(jù)庫(kù)中事務(wù)之間的關(guān)系,并且大大降低了數(shù)據(jù)集掃描次數(shù)。僅僅依靠支持度和置信度產(chǎn)生的規(guī)則往往包含大量的無(wú)效規(guī)則及用戶不感興趣的規(guī)則,又因?yàn)殛P(guān)聯(lián)規(guī)則挖掘所得的結(jié)果最終要由用戶來(lái)使用,使用的效果是檢驗(yàn)規(guī)則好壞的標(biāo)準(zhǔn),因此,關(guān)聯(lián)規(guī)則挖掘還需要由用戶提供規(guī)則的約束條件,這樣產(chǎn)生的結(jié)果才能保證有效并且符合實(shí)際生產(chǎn)需求。
2.2經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法分析
兩種算法在頻繁模式挖掘過程中都可比較有效地產(chǎn)生關(guān)聯(lián)規(guī)則,由于FP-Growth算法在數(shù)據(jù)庫(kù)掃描方面只進(jìn)行兩次,并且將所有事務(wù)數(shù)據(jù)均壓縮到一顆頻繁模式樹中,相對(duì)于Apriori算法而言,在算法執(zhí)行效率上有明顯優(yōu)勢(shì),研究表明,該算法的效率比Apriori算法大約快一個(gè)數(shù)量級(jí)。具體到每個(gè)算法而言,Apriori算法主要存在兩個(gè)問題,首先,該算法建立在大量候選項(xiàng)集的基礎(chǔ)上,當(dāng)面對(duì)海量數(shù)據(jù)時(shí),該算法會(huì)產(chǎn)生大量候選項(xiàng)集,并且這些候選項(xiàng)集中很多都是無(wú)效的,因此會(huì)造成計(jì)算資源浪費(fèi)。例如,則Apriori算法需要產(chǎn)生多達(dá)107個(gè)候選2-項(xiàng)集;再者,每產(chǎn)生一次頻率項(xiàng)集均需掃描一次事務(wù)數(shù)據(jù)庫(kù),對(duì)于海量數(shù)據(jù)而言,無(wú)疑會(huì)大大降低關(guān)聯(lián)規(guī)則挖掘的效率,由于FP-Grow化算法采用壓縮樹的結(jié)構(gòu)存儲(chǔ)數(shù)據(jù)信息,整個(gè)關(guān)聯(lián)規(guī)則挖掘過程中進(jìn)行2次數(shù)據(jù)庫(kù)掃描,因此可大大降低算法所消耗的時(shí)間;其次,FP-Growth算法在挖掘過程中不產(chǎn)生候選頂集,因此,可大大提髙算法執(zhí)行效率。由于FP-Grow化算法將整個(gè)數(shù)據(jù)集壓縮到一棵樹中,星然事務(wù)數(shù)據(jù)庫(kù)中事務(wù)信息得到了完全的保留,但是當(dāng)數(shù)據(jù)量不斷增大時(shí),樹的結(jié)構(gòu)變得異常復(fù)雜,無(wú)疑會(huì)造成頻率模式挖掘效率低下,甚至?xí)斐捎?jì)算化內(nèi)存溢出的情況。3基于MapRedu說的多維關(guān)聯(lián)規(guī)則挖掘算法........39
3.1關(guān)聯(lián)規(guī)則的分類........393.2傳統(tǒng)的并行Apriori算法分析........40
3.3改進(jìn)的并行Apriori算法........42
4改進(jìn)的并行關(guān)聯(lián)規(guī)則挖掘算法應(yīng)用........47
4.1數(shù)據(jù)來(lái)源........47
4.2故障數(shù)據(jù)預(yù)處理........47
4.3應(yīng)用實(shí)例分析........49
5動(dòng)車組運(yùn)維數(shù)據(jù)處理平臺(tái)實(shí)現(xiàn)........50
5.1系統(tǒng)實(shí)驗(yàn)環(huán)境搭建與部署........63
5.2動(dòng)車組運(yùn)維數(shù)據(jù)處理平臺(tái)的設(shè)計(jì)........64
5.3性能測(cè)試與結(jié)果分析........69
5動(dòng)車組運(yùn)維數(shù)據(jù)處理平臺(tái)實(shí)現(xiàn)
5.1系統(tǒng)實(shí)驗(yàn)環(huán)境搭建與部署
該模塊實(shí)現(xiàn)的功能包括:第一,能夠允許用戶將本地文件系統(tǒng)中的文件上傳到HDFS分布式文件系統(tǒng)中進(jìn)行存儲(chǔ),可吏用戶擺脫本地磁盤容量的局限性,為用戶提供可擴(kuò)容的云存儲(chǔ)服務(wù);第二,用戶上傳的動(dòng)車組海量運(yùn)維數(shù)據(jù)直接作為分布式數(shù)據(jù)挖掘的數(shù)據(jù)源,避免了在數(shù)據(jù)挖掘時(shí)需要進(jìn)行數(shù)據(jù)傳輸而帶來(lái)的網(wǎng)絡(luò)開銷:第蘭,提供數(shù)據(jù)下載功能,用戶可隨時(shí)將在HDFS中的數(shù)據(jù)備份進(jìn)行,下載査看;第四,提供結(jié)果查詢服務(wù),用戶可通過開發(fā)工具客戶端在線査看數(shù)據(jù)挖掘結(jié)果,或者通過數(shù)據(jù)下載功能,將數(shù)據(jù)挖掘結(jié)果下載到本地用戶,,進(jìn)地査看、編輯。(3)數(shù)據(jù)挖掘模塊該模塊實(shí)現(xiàn)用戶對(duì)動(dòng)車組運(yùn)維數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的功能,主要包括兩種挖掘方式:單機(jī)模式與并行模式。單機(jī)模式適用于小規(guī)模數(shù)據(jù)集的頻率模式挖掘,并行模式適用于海量數(shù)據(jù)的分布式并行頻繁模式挖掘。單機(jī)模式運(yùn)行于用戶本地計(jì)算機(jī)中,數(shù)據(jù)挖掘結(jié)果保存在本地文件夾中,并行模式運(yùn)行于Hadoop集群,數(shù)據(jù)挖掘結(jié)果運(yùn)行于云端HDFS分布式文件系統(tǒng)中。該模塊為本文的重點(diǎn)研究?jī)?nèi)容。
5.2動(dòng)車組運(yùn)維數(shù)據(jù)處理平臺(tái)的設(shè)計(jì)
數(shù)據(jù)挖掘綜合利用了多種分析方法和分析工具,目的是為了從海量無(wú)規(guī)則的、雜亂無(wú)章的數(shù)據(jù)中建立數(shù)據(jù)模型并獲取數(shù)據(jù)內(nèi)部隱含存在的某種關(guān)系;趧(dòng)車組歷史運(yùn)維數(shù)據(jù)的數(shù)據(jù)挖掘涉及數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、數(shù)據(jù)同步等多個(gè)方面,本節(jié)主要針對(duì)上述多個(gè)方面的需求,設(shè)計(jì)開發(fā)了動(dòng)車組運(yùn)維數(shù)據(jù)處理平臺(tái)。本平臺(tái)采用客戶端/服務(wù)器結(jié)構(gòu),只要安裝軟件客戶端,并憑借正確的用戶名和密碼,就可使用本系統(tǒng)的數(shù)據(jù)管理的相關(guān)功能。.....
6總結(jié)與展望
本文在Hadoop技術(shù)的HDFS分布式存儲(chǔ)系統(tǒng)及MapReduce并行編程框架基礎(chǔ)之上,提出了針對(duì)動(dòng)車組歷史運(yùn)維數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)挖掘算法。動(dòng)車紀(jì)海量歷史運(yùn)維數(shù)據(jù)為研究對(duì)象,搜索歷史運(yùn)維數(shù)據(jù)中列車故障信息與列車狀態(tài)之間的關(guān)聯(lián)關(guān)系,重點(diǎn)研究了關(guān)聯(lián)規(guī)則挖掘的基本方法,并對(duì)兩種傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法——FP-Growth算法和Apriori算法進(jìn)行了改進(jìn),使其更適用于動(dòng)車組故障數(shù)據(jù)的挖掘。本論文的主要工作包括幾點(diǎn):(1)對(duì)Hadoop應(yīng)用研究現(xiàn)狀、關(guān)聯(lián)規(guī)則挖掘算法研究現(xiàn)狀及分類和動(dòng)車組故障診斷研究現(xiàn)狀進(jìn)行了分析,指出了當(dāng)前研究工作存在的問題和弱點(diǎn),提出了本文的研究工作內(nèi)容。(2)詳細(xì)分析了經(jīng)典FP-Grow出算法的流程和步驟。在此基礎(chǔ)之上,提出了一種基于MapReduce的改進(jìn)的并行FP-Growth算法,以原有FP-Growth算法為基礎(chǔ),在算法的各主要步驟上均實(shí)現(xiàn)了分布式并行計(jì)算,大大提高了算法效率,并對(duì)算法FP-Tree搜索策略和頻率模式生成規(guī)則進(jìn)行了優(yōu)化。
.......
參考文獻(xiàn)(略)
本文編號(hào):106399
本文鏈接:http://sikaile.net/wenshubaike/lwfw/106399.html