基于滑動(dòng)窗口的數(shù)據(jù)流關(guān)聯(lián)規(guī)則挖掘算法研究
本文關(guān)鍵詞: 數(shù)據(jù)流挖掘 滑動(dòng)窗口 關(guān)聯(lián)規(guī)則 多最小支持度 加權(quán) 出處:《天津工業(yè)大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著數(shù)據(jù)庫技術(shù)在政府、企業(yè)以及其它社會(huì)組織的生產(chǎn)運(yùn)營過程中的廣泛應(yīng)用,越來越多種類的數(shù)據(jù)形式出現(xiàn)在了研究者的視野當(dāng)中。而其中的流數(shù)據(jù)由于廣泛的出現(xiàn)在商務(wù)網(wǎng)絡(luò)交易、股市、傳感器網(wǎng)絡(luò)等諸多領(lǐng)域,因此引起了研究者的極大研究熱情。與傳統(tǒng)的數(shù)據(jù)形式相比,數(shù)據(jù)流具有數(shù)據(jù)量大、實(shí)時(shí)性強(qiáng)、順序、數(shù)據(jù)多樣的特點(diǎn),正是由于這些特點(diǎn)決定了數(shù)據(jù)流不適合于將全部的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫中,因此傳統(tǒng)的數(shù)據(jù)挖掘算法并不適宜數(shù)據(jù)流的挖掘。并且以往的數(shù)據(jù)挖掘算法都是默認(rèn)各數(shù)據(jù)項(xiàng)具有相同的重要性且各項(xiàng)目均勻分布,然而在實(shí)際的應(yīng)用中,各項(xiàng)目的重要性是不盡相同并且是非均勻分布的。基于此,本文引入了多最小支持度和加權(quán)的思想。為了研究的便利性,研究者通常會(huì)將連續(xù)的數(shù)據(jù)流進(jìn)行分段,即為時(shí)間段,我們通常情況下會(huì)將這種時(shí)間段稱為數(shù)據(jù)窗口。在實(shí)際的研究過程當(dāng)中,根據(jù)不同的分段方式,時(shí)間窗口又被我們分為滑動(dòng)窗口模型、衰減窗口模型和界標(biāo)窗口模型,本文采用的是應(yīng)用較為普遍的滑動(dòng)窗口模型。關(guān)聯(lián)規(guī)則挖掘的目的是為了找到所有的強(qiáng)關(guān)聯(lián)規(guī)則,即:超過最小支持度和最小置信度的所有規(guī)則。根據(jù)數(shù)據(jù)挖掘在實(shí)際應(yīng)用中的情況,我們一般將關(guān)聯(lián)規(guī)則挖掘分為兩步:第一步,找出目標(biāo)數(shù)據(jù)集中所有的頻繁模式;第二步,用這些頻繁項(xiàng)集產(chǎn)生符合條件的關(guān)聯(lián)規(guī)則。其中第二步是整個(gè)關(guān)聯(lián)規(guī)則挖掘過程的關(guān)鍵。在現(xiàn)實(shí)應(yīng)用中,若支持度設(shè)置的過小,則會(huì)引發(fā)組合爆炸,導(dǎo)致挖掘過程無法進(jìn)行;如果支持度的值設(shè)置的過大,則得不到稀有項(xiàng)目的關(guān)聯(lián)規(guī)則。多最小支持度加權(quán)的方法就是針對(duì)這兩種現(xiàn)實(shí)的情況所提出的一種解決思想。本文研究了基于滑動(dòng)窗口的多最小支持度加權(quán)的數(shù)據(jù)流關(guān)聯(lián)規(guī)則挖掘算法SWM-MMSW,以及在top-k頻繁項(xiàng)集挖掘的基礎(chǔ)上引入加權(quán)的思想,對(duì)該算法進(jìn)行改進(jìn),產(chǎn)生W-TKFM算法。這兩個(gè)算法主要采用事務(wù)矩陣和二項(xiàng)集矩陣來分別存儲(chǔ)事務(wù)數(shù)據(jù)和頻繁2-項(xiàng)集。經(jīng)推導(dǎo)和實(shí)驗(yàn)驗(yàn)證,SWM-MMSW算法和W-TKFM算法能夠有效的挖掘出頻繁項(xiàng)集并且均具有很好的時(shí)空效率。
[Abstract]:With the wide application of database technology in the production and operation of government, enterprises and other social organizations. More and more kinds of data forms appear in the field of view of researchers, and the flow data is widely used in many fields, such as business network trading, stock market, sensor network and so on. Compared with the traditional data form, the data flow has the characteristics of large amount of data, strong real-time, order and variety of data. Because of these characteristics, the data flow is not suitable to store all the data in the database. Therefore, the traditional data mining algorithm is not suitable for data stream mining, and the previous data mining algorithms are the default data items with the same importance and uniform distribution, but in practical applications. The importance of each item is different and non-uniform distribution. Based on this, this paper introduces the idea of multi-minimum support and weighted. In order to study the convenience. Researchers usually segment continuous data streams, that is, time periods, which we usually call data windows. In the actual research process, according to different segmentation methods. Time window is divided into sliding window model, attenuation window model and boundary sign window model. The purpose of mining association rules is to find all strong association rules. According to the actual application of data mining, we generally divide the mining of association rules into two steps: the first step. Identify all frequent patterns in the target dataset; The second step is to use these frequent itemsets to generate eligible association rules. The second step is the key of the whole association rules mining process. In practical applications, if the support degree is too small, it will cause a combination explosion. The mining process can not be carried out; If the value of support is set too large. The method of multi-minimum support weighting is a solution to these two real situations. This paper studies the number of multi-minimum support weighted based on sliding window. According to stream association rules mining algorithm SWM-MMSW. Based on the mining of top-k frequent itemsets, the idea of weighting is introduced to improve the algorithm. W-TKFM algorithm is generated. The two algorithms mainly use transaction matrix and binomial set matrix to store transaction data and frequent 2-item set respectively. SWM-MMSW algorithm and W-TKFM algorithm can effectively mine frequent itemsets and have good space-time efficiency.
【學(xué)位授予單位】:天津工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鐘穎莉;復(fù)合滑動(dòng)窗口連接算法[J];哈爾濱商業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年03期
2 李峰;肖建華;;時(shí)間序列相似性分析中滑動(dòng)窗口寬度的確定[J];計(jì)算機(jī)科學(xué)與探索;2009年01期
3 閆巧梅;;滑動(dòng)窗口技術(shù)在電信中的應(yīng)用設(shè)計(jì)模型[J];電腦開發(fā)與應(yīng)用;2012年07期
4 王偉平,李建中,張冬冬,郭龍江;數(shù)據(jù)流上周期更新滑動(dòng)窗口的連接算法[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2005年06期
5 裴麗鵲;;一種基于滑動(dòng)窗口的時(shí)間序列異常檢測算法[J];巢湖學(xué)院學(xué)報(bào);2011年03期
6 譚宏強(qiáng);牛強(qiáng);;基于滑動(dòng)窗口及局部特征的時(shí)間序列符號(hào)化方法[J];計(jì)算機(jī)應(yīng)用研究;2013年03期
7 陳川,林亞平;滑動(dòng)窗口協(xié)議分析及其在微機(jī)上的模擬實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2000年02期
8 李建中,張冬冬;滑動(dòng)窗口規(guī)模的動(dòng)態(tài)調(diào)整算法[J];軟件學(xué)報(bào);2004年12期
9 伍紅茹,黃欣陽,劉雙根,藺大正;最佳滑動(dòng)窗口編碼法及其在快速模冪乘中的應(yīng)用[J];南昌大學(xué)學(xué)報(bào)(工科版);2005年02期
10 劉陶剛;趙榮彩;姚遠(yuǎn);瞿進(jìn);;分塊存儲(chǔ)的滑動(dòng)窗口數(shù)據(jù)重用技術(shù)[J];計(jì)算機(jī)應(yīng)用;2010年05期
相關(guān)會(huì)議論文 前10條
1 蘇東;宋寶燕;楊興華;歐征宇;于亞新;于戈;;基于滑動(dòng)窗口語義的聚集計(jì)算方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
2 汪罕;趙加奎;陳立軍;;流和滑動(dòng)窗口模型下的直徑計(jì)算(英文)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
3 賀冉冉;馬玲;;基于滑動(dòng)窗口的非參數(shù)趨勢檢驗(yàn)在氣候序列趨勢和波動(dòng)分析中的應(yīng)用[A];促進(jìn)科技經(jīng)濟(jì)結(jié)合,,服務(wù)創(chuàng)新驅(qū)動(dòng)發(fā)展——蚌埠市科協(xié)2012年度學(xué)術(shù)年會(huì)論文集[C];2012年
4 楊宜東;孫志揮;周曉云;;滑動(dòng)窗口中的變化檢測[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
5 王成江;冉兵;戴迪;吳磊;;基于滑動(dòng)窗口的動(dòng)態(tài)手寫簽名局部相關(guān)性研究[A];湖北省機(jī)械工程學(xué)會(huì)青年分會(huì)2006年年會(huì)暨第2屆機(jī)械學(xué)院院長(系主任)會(huì)議論文集(下)[C];2006年
6 王偉平;李建中;張冬冬;郭龍江;;數(shù)據(jù)流上基于時(shí)間滑動(dòng)窗口的連接算法研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年
7 王栩;李建中;王偉平;;基于滑動(dòng)窗口的數(shù)據(jù)流壓縮技術(shù)及連續(xù)查詢處理方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
8 閆朝升;李建中;李金寶;;數(shù)據(jù)流上滑動(dòng)窗口技術(shù)的研究與實(shí)現(xiàn)[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
9 王秋棠;王鵬;周皓峰;汪衛(wèi);;基于滑動(dòng)窗口的概率數(shù)據(jù)流上的聚集查詢[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(二)[C];2008年
10 沈偉;鄒建峰;;基于滑動(dòng)窗口的語音混合算法[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第15屆中國多媒體學(xué)術(shù)會(huì)議(NCMT'06)論文集[C];2006年
相關(guān)碩士學(xué)位論文 前10條
1 鐘陽;基于數(shù)據(jù)統(tǒng)計(jì)分析的變槳系統(tǒng)故障預(yù)警方法[D];華北電力大學(xué);2015年
2 熊騰飛;基于滑動(dòng)窗口的多元時(shí)間序列數(shù)據(jù)動(dòng)態(tài)關(guān)聯(lián)規(guī)則挖掘[D];哈爾濱工業(yè)大學(xué);2016年
3 柴子峰;基于滑動(dòng)窗口的弱標(biāo)記物體檢測方法研究[D];哈爾濱工業(yè)大學(xué);2016年
4 賈可;基于滑動(dòng)窗口的指紋中心點(diǎn)定位算法研究[D];西安郵電大學(xué);2016年
5 朱保琨;基于滑動(dòng)窗口車牌檢測的FPGA架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)[D];長春理工大學(xué);2016年
6 陳鵬;基于滑動(dòng)窗口法的比較加密技術(shù)及其應(yīng)用研究[D];西安電子科技大學(xué);2015年
7 李鵬飛;基于滑動(dòng)窗口的數(shù)據(jù)流關(guān)聯(lián)規(guī)則挖掘算法研究[D];天津工業(yè)大學(xué);2017年
8 閆冰;仿真平臺(tái)中基于滑動(dòng)窗口的流數(shù)據(jù)處理策略研究[D];哈爾濱工程大學(xué);2011年
9 王秋棠;基于滑動(dòng)窗口的概率數(shù)據(jù)流上的聚集查詢[D];復(fù)旦大學(xué);2009年
10 賀春亮;基于數(shù)據(jù)流滑動(dòng)窗口的降載技術(shù)研究[D];燕山大學(xué);2009年
本文編號(hào):1450500
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1450500.html