集群環(huán)境下的關聯(lián)規(guī)則挖掘及應用
本文選題:大數(shù)據(jù) 切入點:智能制造 出處:《太原科技大學》2017年博士論文
【摘要】:大數(shù)據(jù)催生了各行各業(yè)的迅猛發(fā)展,各領域呈現(xiàn)出了新產(chǎn)品、技術、服務和發(fā)展業(yè)態(tài)。大數(shù)據(jù)的戰(zhàn)略意義不在于擁有龐大的數(shù)據(jù)資源,而在于提高對數(shù)據(jù)的"加工能力",通過"加工"實現(xiàn)數(shù)據(jù)的"增值"。數(shù)據(jù)挖掘是實現(xiàn)大數(shù)據(jù)知識發(fā)現(xiàn)的有效手段和途徑,利用數(shù)據(jù)挖掘技術能夠深層次地了解大數(shù)據(jù)背后的價值。關聯(lián)規(guī)則作為數(shù)據(jù)挖掘領域中的一個主要研究內容,可以在不知道或無法確定數(shù)據(jù)的關聯(lián)函數(shù)或模型時,有效發(fā)現(xiàn)大量數(shù)據(jù)項集之間有趣的關聯(lián)信息,F(xiàn)有的關聯(lián)規(guī)則挖掘算法因其時空復雜性和I/O代價高,難以適應大數(shù)據(jù)分析處理任務。本文充分利用MapReduce集群系統(tǒng)的強大數(shù)據(jù)處理能力,研究了面向大數(shù)據(jù)的關聯(lián)規(guī)則挖掘方法和性能優(yōu)化技術,并將其應用于冷軋輥加工質量分析。主要研究成果如下:(1)提出了兩種Hadoop集群環(huán)境下的頻繁項集并行挖掘FiDoop和FiDoop-HD算法。FiDoop算法充分利用了 MapReduce編程模型強大的計算能力,并實現(xiàn)了頻繁模式樹的壓縮存儲,避免了條件模式基的遞歸建立,有效提高了并行挖掘效率;FiDoop的擴展算法FiDoop-HD通過降低項目集的分解代價,從而能夠有效地適應于高維數(shù)據(jù)集。在Hadoop集群平臺上,實驗驗證了該并行算法的可行性和有效性。(2)針對包含F(xiàn)iDoop在內的頻繁模式并行挖掘任務存在的數(shù)據(jù)非本地性問題,提出一種面向頻繁項集并行挖掘的數(shù)據(jù)劃分策略FiDoop-DP。該策略利用Voronoi圖和LSH技術,盡量將相關性高的事物盡量劃分在同一個數(shù)據(jù)分區(qū),有效地降低了網(wǎng)絡傳輸和計算代價,提高了海量數(shù)據(jù)的分析效率。在Hadoop集群平臺上,實驗驗證了該數(shù)據(jù)劃分策略的有效性。(3)提出了一種基于Spark內存計算的并行頻繁項集挖掘算法。該算法充分利用了 Spark集群的內存計算優(yōu)勢和對迭代式數(shù)據(jù)處理的支持,并利用新定義的節(jié)點計算量預估模型,解決了其在計算過程中出現(xiàn)的負載不均衡問題。在Spark集群平臺上,實驗驗證了該算法的有效性。(4)設計與實現(xiàn)了集群環(huán)境下的冷軋輥加工質量分析原型系統(tǒng)。以某鋼鐵企業(yè)的冷軋輥產(chǎn)品生產(chǎn)為背景,利用上述頻繁項集挖掘算法和數(shù)據(jù)劃分策略,開發(fā)了冷軋輥質量分析原型系統(tǒng),并對其冷軋輥生產(chǎn)數(shù)據(jù)預處理、軟件體系結構及各模塊功能給出了詳細分析。運行結果表明該原型系統(tǒng)可以有效發(fā)現(xiàn)冷軋輥加工過程中的關鍵工序及工序間的相關性,從而為企業(yè)開展產(chǎn)品質量控制提供了一種新的技術和解決思路。
[Abstract]:Big data has given birth to the rapid development of various industries. New products, technologies, services and development patterns have emerged in various fields. The strategic significance of big data is not to have huge data resources. Data mining is an effective way to realize big data's knowledge discovery, which is to improve the "processing ability" of the data and to realize the "value added" of the data through the "processing". Using data mining technology can deeply understand the value behind big data. As one of the main research contents in the field of data mining, association rules can be used when the association function or model of data is not known or can not be determined. Effective discovery of interesting association information between a large number of data itemsets. Existing association rules mining algorithms are highly costly due to their space-time complexity and I / O costs. It is difficult to adapt to big data's task of analysis and processing. This paper makes full use of the powerful data processing ability of MapReduce cluster system, and studies the association rule mining method and performance optimization technology for big data. The main research results are as follows: 1) in this paper, we propose two kinds of algorithms for parallel mining of frequent itemsets in Hadoop cluster environment, I. e., FiDoop and FiDoop-HD algorithms. FiDoop algorithm makes full use of the powerful computing power of MapReduce programming model. The compression storage of frequent pattern tree is realized, and the recursive establishment of conditional schema base is avoided, and the efficiency of parallel mining is improved effectively. The extended algorithm FiDoop-HD can reduce the decomposition cost of itemsets. On the Hadoop cluster platform, the feasibility and effectiveness of the parallel algorithm are verified. (2) aiming at the data non-local problem of frequent pattern parallel mining tasks including FiDoop, the experiment proves that the parallel algorithm can be applied to high dimensional data sets effectively. A data partition strategy, FiDoop-DPfor parallel mining of frequent itemsets, is proposed in this paper. By using Voronoi diagram and LSH technology, the objects with high correlation can be divided into the same data partition as far as possible, which can effectively reduce the cost of network transmission and computation. Improve the efficiency of mass data analysis. On the Hadoop cluster platform, Experiments verify the validity of the data partitioning strategy. (3) A parallel frequent itemset mining algorithm based on Spark memory computing is proposed, which takes full advantage of the memory computing advantage of Spark cluster and supports iterative data processing. The load imbalance problem in the computing process is solved by using the newly defined node computational load estimation model. On the Spark cluster platform, the problem of load imbalance is solved. The validity of this algorithm is verified by experiments. The prototype system of cold roll machining quality analysis in cluster environment is designed and implemented. Based on the production of cold roll products in a steel enterprise, the mining algorithm of frequent itemsets and the data partition strategy are used. The prototype system of cold roll quality analysis is developed, and the production data of cold roll is preprocessed. The software architecture and the function of each module are analyzed in detail. The running results show that the prototype system can effectively find out the key processes in the cold roll machining process and the correlation between the processes. Thus, it provides a new technology and solution for enterprises to carry out product quality control.
【學位授予單位】:太原科技大學
【學位級別】:博士
【學位授予年份】:2017
【分類號】:TP311.13
【相似文獻】
相關期刊論文 前3條
1 高彬;唐加福;;冷軋輥質量管理系統(tǒng)設計與實現(xiàn)[J];現(xiàn)代制造工程;2010年06期
2 任舜禹;邵奎祥;江顯泓;;冷軋輥鋼中TiC碳化物形態(tài)研究[J];電子顯微學報;1993年02期
3 ;光機電[J];軍民兩用技術與產(chǎn)品;2013年10期
相關會議論文 前10條
1 楊昱東;;高合金冷軋輥內部鍛造裂紋控制[A];第六屆華北(擴大)塑性加工學術年會文集[C];2009年
2 趙瓊;;冷軋輥的失效分析及預防措施[A];2007年全國失效分析學術會議論文集[C];2007年
3 張慶華;江波;時祖錕;方正鵬;;冷軋輥毛化技術分析與發(fā)展[A];2007中國鋼鐵年會論文集[C];2007年
4 王紹輝;;淺析冷軋輥的失效與維護[A];2006中國金屬學會青年學術年會會刊[C];2006年
5 王紹輝;;淺析冷軋輥的失效與維護[A];2006中國金屬學會青年學術年會論文集[C];2006年
6 孫大樂;姚利松;范群;張健;;不同毛化工藝冷軋輥的使用性能研究[A];2005中國鋼鐵年會論文集(第4卷)[C];2005年
7 孫大樂;姚利松;范群;張健;;不同毛化工藝冷軋輥的使用性能研究[A];全國軋輥技術研討會論文集[C];2005年
8 孫大樂;姚利松;范群;張健;;不同毛化工藝冷軋輥的使用性能研究[A];2005年全國冷軋板帶生產(chǎn)技術交流會暨第三屆薄鋼板質量研討會論文集[C];2005年
9 牛德法;楊勃生;;鍛鋼冷軋輥白點缺陷的無損檢測[A];戰(zhàn)略性新興產(chǎn)業(yè)的培育和發(fā)展——首屆云南省科協(xié)學術年會論文集[C];2011年
10 沈一鳴;;論我國鍛鋼寬板冷軋輥的發(fā)展[A];全國軋輥技術研討會論文集[C];2005年
相關重要報紙文章 前10條
1 記者 蘇勇 通訊員 吳雪;太鋼冷軋輥產(chǎn)品實現(xiàn)專業(yè)化和規(guī);a(chǎn)[N];中國冶金報;2007年
2 記者 楊俊莉;我國北方最大冷軋輥生產(chǎn)加工企業(yè)落戶阜城[N];衡水日報;2007年
3 金鑫;國內首條冷軋輥雙頻淬火機組正式投運[N];現(xiàn)代物流報;2006年
4 記者 魏雙林;河北中山軋輥頻出冷軋輥生產(chǎn)新技術[N];中國冶金報;2007年
5 百木牛;國內首創(chuàng)冷軋輥雙頻淬火機組試車成功[N];中國冶金報;2006年
6 廣大;軋輥新葩——高鉻鍛鋼冷軋輥[N];中國冶金報;2002年
7 李云芳;中鋼邢機最長冷軋輥填補國內空白[N];中國冶金報;2010年
8 李清民;冷軋薄板激增對冷軋輥制造業(yè)提出挑戰(zhàn)[N];中國冶金報;2005年
9 王喜增;梁路印;邢機掀起全員創(chuàng)新熱潮[N];中國冶金報;2003年
10 楊長喜 杜媛;春風拂“鋼城”[N];樂山日報;2012年
相關博士學位論文 前1條
1 荀亞玲;集群環(huán)境下的關聯(lián)規(guī)則挖掘及應用[D];太原科技大學;2017年
相關碩士學位論文 前10條
1 曹沖;金屬材料模擬冷軋輥表面毛化工藝研究及其機理[D];東北大學;2013年
2 劉碩;冷軋輥質量統(tǒng)計與分析系統(tǒng)—質量評價子系統(tǒng)與信息管理模塊的設計與實現(xiàn)[D];東北大學;2010年
3 姜晶晶;冷軋輥材料斷裂韌性試驗研究[D];上海交通大學;2013年
4 董艷雄;冷軋輥質量統(tǒng)計與分析系統(tǒng)—生產(chǎn)過程統(tǒng)計與運行分析子系統(tǒng)的設計與實現(xiàn)[D];東北大學;2010年
5 楊艷旭;面向冷軋輥和電子類產(chǎn)品的試驗設計案例研究[D];東北大學;2009年
6 陳綱;冷軋輥質量統(tǒng)計與分析系統(tǒng)—質量分析子系統(tǒng)的設計與實現(xiàn)[D];東北大學;2010年
7 李海濤;森吉米爾軋機用冷軋輥制造工藝的研究[D];河北科技大學;2012年
8 牟艷秋;薄帶鋼冷軋輥疲勞裂紋的研究[D];新疆大學;2010年
9 李安明;用于冷軋輥表面處理的全固態(tài)YAG激光毛化設備[D];暨南大學;2010年
10 徐詠梅;鍛造及熱處理工藝對MC5冷軋輥坯缺陷與組織性能的影響[D];哈爾濱工業(yè)大學;2014年
,本文編號:1658840
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1658840.html