數(shù)據(jù)流頻繁項(xiàng)挖掘及相關(guān)性分析算法的研究
發(fā)布時(shí)間:2018-11-04 11:44
【摘要】:數(shù)據(jù)流應(yīng)用最早出現(xiàn)于傳統(tǒng)的銀行和股票交易等金融領(lǐng)域,后來則出現(xiàn)在天文觀測、交通、醫(yī)療、地質(zhì)測量、氣象等眾多領(lǐng)域。尤其是隨著無線通信網(wǎng)(通話記錄)和互聯(lián)網(wǎng)(網(wǎng)絡(luò)流量監(jiān)控,點(diǎn)擊流)的廣泛應(yīng)用,需要對數(shù)據(jù)流類型的數(shù)據(jù)進(jìn)行分析與挖掘。比如,數(shù)據(jù)流頻繁項(xiàng)技術(shù)及相關(guān)性分析技術(shù)可被應(yīng)用到智慧醫(yī)療和識(shí)別可疑洗錢行為的領(lǐng)域中,具有非常重要的應(yīng)用價(jià)值。而且,數(shù)據(jù)流頻繁項(xiàng)挖掘和相關(guān)性分析算法是眾多數(shù)據(jù)流挖掘技術(shù)的基礎(chǔ),因此具有非常重要的學(xué)術(shù)研究價(jià)值。數(shù)據(jù)流挖掘的常用技術(shù)主要有頻繁項(xiàng)(集)挖掘、相關(guān)性分析、分類分析、聚類分析、時(shí)序模式分析等。一般來說,數(shù)據(jù)流挖掘算法都試圖從兩個(gè)方面來研究:一是查詢響應(yīng)時(shí)間問題,即如何高效實(shí)時(shí)地處理數(shù)據(jù),以匹配數(shù)據(jù)流高速到達(dá)的特性。在技術(shù)層面上通過提出新的或者改進(jìn)已有的高效的數(shù)據(jù)結(jié)構(gòu)、有效的剪枝策略等來解決。二是壓縮存儲(chǔ)空間并保證高精度的查詢結(jié)果。在技術(shù)層面上通過構(gòu)造一個(gè)內(nèi)存占用少、并能提供近似結(jié)果的數(shù)據(jù)結(jié)構(gòu)以存放被壓縮的數(shù)據(jù)流數(shù)據(jù)。綜上分析,本文致力于解決數(shù)據(jù)流頻繁項(xiàng)發(fā)現(xiàn)及相關(guān)性分析問題中,如何更好的解決以上提出的兩大問題(提高查詢響應(yīng)時(shí)間和壓縮存儲(chǔ)數(shù)據(jù)所花費(fèi)空間)。在現(xiàn)有的數(shù)據(jù)流挖掘技術(shù)研究基礎(chǔ)上,以有效管理海量數(shù)據(jù)和提高查詢效率以及精確度為優(yōu)化目標(biāo),展開一系列能夠滿足實(shí)際應(yīng)用需要的挖掘技術(shù)研究;提出高效的數(shù)據(jù)流概要結(jié)構(gòu)和挖掘算法。本文研究主要包括以下內(nèi)容:延遲數(shù)據(jù)流的頻繁項(xiàng)挖掘方法研究:所謂“延遲”即基于時(shí)間延遲模型。該模型考慮了不同時(shí)刻的數(shù)據(jù)的重要性不同,即已到達(dá)的數(shù)據(jù)項(xiàng)的重要性隨時(shí)間逐漸衰減。為了提高查詢響應(yīng)時(shí)間,本文研究了一個(gè)可以在內(nèi)存維持的,并能保證高效地更新和檢索其中的信息的數(shù)據(jù)結(jié)構(gòu),從而提高數(shù)據(jù)流頻繁項(xiàng)挖掘算法的效率。此外,為了壓縮存儲(chǔ)數(shù)據(jù)所花費(fèi)空間,本文還設(shè)計(jì)了一種新的數(shù)據(jù)流概要結(jié)構(gòu),從而提高數(shù)據(jù)流頻繁項(xiàng)挖掘結(jié)果的準(zhǔn)確度。數(shù)據(jù)流最熱項(xiàng)概念的提出及其查詢方法研究:針對不斷出現(xiàn)的多樣的查詢需求,例如,在促銷中,商戶希望找到巔峰銷售記錄,以宣傳其產(chǎn)品的受歡迎程度,目前已有的數(shù)據(jù)流挖掘概念并不能適用于這一新的需求。因此,本文研究了一個(gè)自適應(yīng)可變滑動(dòng)窗口的數(shù)據(jù)流頻率問題——數(shù)據(jù)流最熱項(xiàng)問題。由于無法用現(xiàn)有的挖掘算法來解決數(shù)據(jù)流最熱項(xiàng)問題,因此,本文深入研究了實(shí)時(shí)挖掘數(shù)據(jù)流最熱項(xiàng)的算法。一是設(shè)計(jì)一個(gè)高效的數(shù)據(jù)結(jié)構(gòu)來存儲(chǔ)已到達(dá)的數(shù)據(jù)項(xiàng)的關(guān)鍵信息,使得可以在其上進(jìn)行數(shù)據(jù)流最熱項(xiàng)的挖掘,并且可以保證高效地存儲(chǔ)、更新和檢索其中的信息。二是,在該數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,設(shè)計(jì)幾種剪枝策略以提高實(shí)時(shí)查詢效率。數(shù)據(jù)流自適應(yīng)的延遲相關(guān)性分析方法研究:已有的延遲關(guān)聯(lián)分析主要集中在兩個(gè)方面,一是延遲關(guān)聯(lián)被計(jì)算在整個(gè)數(shù)據(jù)流上;二是,需要設(shè)置一個(gè)合適長度的滑動(dòng)窗口來計(jì)算延遲關(guān)聯(lián)性。然而,沒有一個(gè)最佳的窗口長度適用于所有的場景,因?yàn)楹线m的窗口長度取決于查詢、時(shí)間、數(shù)據(jù)和應(yīng)用領(lǐng)域等因素。因此,本文設(shè)計(jì)了一種滑動(dòng)窗口大小可自適應(yīng)調(diào)整的延遲相關(guān)性查詢。也就是,基于可變的滑動(dòng)窗口排序目標(biāo)數(shù)據(jù)流與給定的查詢數(shù)據(jù)流之間的延遲關(guān)聯(lián)關(guān)系。因此,本文開展研究了數(shù)據(jù)流自適應(yīng)的延遲相關(guān)性分析算法。本文首先研究了數(shù)據(jù)流中的數(shù)據(jù)項(xiàng)出現(xiàn)次數(shù)問題,也即數(shù)據(jù)流頻繁項(xiàng)挖掘方法的研究;接著將出現(xiàn)次數(shù)問題擴(kuò)展到出現(xiàn)頻率的問題,即提出了一種新的數(shù)據(jù)流挖掘概念-數(shù)據(jù)流最熱項(xiàng)問題及其查詢方法的研究;最后本文探究了數(shù)據(jù)流之間相關(guān)性分析的方法,研究了基于可變滑動(dòng)窗口的延遲相關(guān)性分析方法的研究。本文的研究還只是初步進(jìn)行了嘗試和探索,但是仍有許多的研究工作需要進(jìn)一步深入和開拓。比如研究適應(yīng)流速率變化的數(shù)據(jù)流的挖掘問題,利用現(xiàn)有的分布式框架,如Hadoop、Spark等來處理數(shù)據(jù)流挖掘問題等。
[Abstract]:......
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP311.13
本文編號(hào):2309730
[Abstract]:......
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 臧文羽;李軍;方濱興;譚建龍;;H-Tree:一種面向大數(shù)據(jù)流在線監(jiān)測的層次索引[J];計(jì)算機(jī)學(xué)報(bào);2015年01期
2 眭俊明;姜遠(yuǎn);周志華;;基于頻繁項(xiàng)集挖掘的貝葉斯分類算法[J];計(jì)算機(jī)研究與發(fā)展;2007年08期
,本文編號(hào):2309730
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2309730.html
最近更新
教材專著