流程挖掘預(yù)處理研究與應(yīng)用
本文關(guān)鍵詞:流程挖掘預(yù)處理研究與應(yīng)用
更多相關(guān)文章: 流程挖掘 日志預(yù)處理 事件關(guān)聯(lián) MapReduce
【摘要】:流程挖掘技術(shù)旨在從與現(xiàn)代企業(yè)信息系統(tǒng)相關(guān)聯(lián)的事件日志中抽取信息、發(fā)現(xiàn)業(yè)務(wù)流程模型,并使用所得模型對(duì)業(yè)務(wù)流程進(jìn)行校驗(yàn)與改進(jìn)的工作。流程挖掘在商務(wù)智能與業(yè)務(wù)流程管理中都具有重要意義。流程挖掘依賴于結(jié)構(gòu)化的事件日志。而往往在實(shí)際情況中,工作與業(yè)務(wù)流程的原始日志結(jié)構(gòu)、格式均不統(tǒng)一,并且沒有確切的流程實(shí)例標(biāo)識(shí)。所以,流程挖掘預(yù)處理要做的工作是將結(jié)構(gòu)化的事件日志從企業(yè)信息系統(tǒng)產(chǎn)生的原始日志中提取出來。其內(nèi)容主要包括對(duì)原始日志做規(guī)范化處理以及識(shí)別原始日志中的流程實(shí)例。目前國內(nèi)外研究與應(yīng)用中尚無針對(duì)原始日志預(yù)處理的通用方案,所以往往對(duì)每個(gè)流程挖掘工作都需要針對(duì)性地設(shè)計(jì)相應(yīng)的預(yù)處理方案,極大地降低了研究與工作的效率。另外,隨著流程挖掘技術(shù)日益成熟,日志預(yù)處理占整個(gè)流程挖掘工作量的比重越來越大,如何提高海量的原始日志預(yù)處理性能顯得尤為重要。本文立足于大數(shù)據(jù),對(duì)流程挖掘預(yù)處理需要解決的問題進(jìn)行研究與分析,實(shí)現(xiàn)了一種高效的分布式預(yù)處理方案。所做工作如下:1)對(duì)原始日志進(jìn)行規(guī)范化處理。包括對(duì)日志中的數(shù)據(jù)項(xiàng)格式進(jìn)行識(shí)別與統(tǒng)一,按照事件日志的規(guī)則對(duì)文本日志進(jìn)行數(shù)據(jù)項(xiàng)的合并、過濾,將原始日志統(tǒng)一轉(zhuǎn)化成符合事件日志提取標(biāo)準(zhǔn)的規(guī)范日志。2)提出事件關(guān)聯(lián)處理方案,并針對(duì)其單機(jī)計(jì)算模式的相關(guān)特點(diǎn)與瓶頸,提出了關(guān)于單關(guān)聯(lián)與復(fù)合關(guān)聯(lián)的并行計(jì)算策略,并使用MapReduce編程模型對(duì)其進(jìn)行實(shí)現(xiàn),與規(guī)范化處理共同組成分布式流程挖掘預(yù)處理框架。3)使用多個(gè)不同數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),驗(yàn)證規(guī)范化處理流程的適用性;測(cè)試不同結(jié)點(diǎn)數(shù)量下分布式事件關(guān)聯(lián)算法的效率與加速比。
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13;TP338.8
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄧奇強(qiáng);;高校圖書館流通日志數(shù)據(jù)整理探討[J];河北科技圖苑;2013年04期
2 黃瑋堯;;交通銀行集中日志審計(jì)管理最佳實(shí)踐[J];中國金融電腦;2011年10期
3 鄒曉峰;李鳴亞;;淺析一個(gè)分布式日志服務(wù)器的應(yīng)用[J];考試周刊;2007年49期
4 宋愛波,莊曉青,何潔月,業(yè)寧,董逸生;圖書館大規(guī)模日志數(shù)據(jù)的快速聚類[J];應(yīng)用科學(xué)學(xué)報(bào);2003年03期
5 葉小鶯;;基于回調(diào)機(jī)制的異步日志服務(wù)的開發(fā)[J];電子世界;2012年04期
6 劉興淮;溫叢劍;徐燕梅;;臨床數(shù)據(jù)統(tǒng)計(jì)日志的科學(xué)獲取與應(yīng)用[J];中國醫(yī)療設(shè)備;2011年12期
7 朱智林,左天軍,牛淑齡;基于日志的臟數(shù)據(jù)檢測(cè)與恢復(fù)[J];電子科技;2004年05期
8 李清;沈彤;關(guān)毅;;面向大規(guī)模日志數(shù)據(jù)的聚類算法研究[J];智能計(jì)算機(jī)與應(yīng)用;2012年05期
9 呂榮峰;;基于syslog-ng的集中式日志服務(wù)器及其客戶端配置方法[J];數(shù)字技術(shù)與應(yīng)用;2014年04期
10 劉合富;;SYSLOG日志數(shù)據(jù)采集實(shí)現(xiàn)[J];中國教育網(wǎng)絡(luò);2007年08期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前4條
1 王廣立;張立群;;一種基于日志的流程挖掘算法的設(shè)計(jì)與實(shí)現(xiàn)[A];全國第19屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2008年
2 黃東;;工廠信息化日志的存儲(chǔ)及管理[A];中國計(jì)量協(xié)會(huì)冶金分會(huì)2011年會(huì)論文集[C];2011年
3 劉錕;邢延;蔡延光;;一種針對(duì)交互式學(xué)習(xí)系統(tǒng)日志數(shù)據(jù)的輕型化挖掘方法[A];2011年中國智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(第一分冊(cè))[C];2011年
4 郭新濤;梁敏;阮備軍;朱揚(yáng)勇;;挖掘Web日志降低信息搜尋的時(shí)間費(fèi)用[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
中國重要報(bào)紙全文數(shù)據(jù)庫 前5條
1 ;日志數(shù)據(jù)激增困擾數(shù)據(jù)中心[N];網(wǎng)絡(luò)世界;2009年
2 ;Google與隱私權(quán)[N];網(wǎng)絡(luò)世界;2009年
3 沈建;謹(jǐn)防安全策略的五大基本錯(cuò)誤[N];計(jì)算機(jī)世界;2008年
4 本報(bào)記者 胡英;RSA enVision 4.0讓企業(yè)更合規(guī)[N];計(jì)算機(jī)世界;2009年
5 ;注重安全管理[N];網(wǎng)絡(luò)世界;2004年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉森源;流程挖掘預(yù)處理研究與應(yīng)用[D];華南理工大學(xué);2016年
2 蘇政;基于日志數(shù)據(jù)的域名訪問源多尺度分析[D];南京師范大學(xué);2013年
3 楊尚大;日志數(shù)據(jù)采集和實(shí)時(shí)審計(jì)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];浙江工商大學(xué);2009年
4 王兆永;面向大規(guī)模批量日志數(shù)據(jù)存儲(chǔ)方法的研究[D];電子科技大學(xué);2011年
5 王高壘;爬蟲日志數(shù)據(jù)信息抽取與統(tǒng)計(jì)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年
6 龔風(fēng)光;面向地址標(biāo)定的通聯(lián)日志分布式存儲(chǔ)檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年
7 陳超;基于分布式計(jì)算的海量日志數(shù)據(jù)分析平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年
8 楊林紅;WebGIS日志數(shù)據(jù)挖掘預(yù)處理的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2011年
9 王振東;鐵路調(diào)度指揮系統(tǒng)中日志數(shù)據(jù)庫的設(shè)計(jì)與優(yōu)化[D];中國鐵道科學(xué)研究院;2011年
10 岳寶;基于Web日志的個(gè)性化推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2012年
,本文編號(hào):1188485
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1188485.html