天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

數(shù)據(jù)流頻繁項挖掘及相關(guān)性分析算法的研究

發(fā)布時間:2018-11-04 11:44
【摘要】:數(shù)據(jù)流應(yīng)用最早出現(xiàn)于傳統(tǒng)的銀行和股票交易等金融領(lǐng)域,后來則出現(xiàn)在天文觀測、交通、醫(yī)療、地質(zhì)測量、氣象等眾多領(lǐng)域。尤其是隨著無線通信網(wǎng)(通話記錄)和互聯(lián)網(wǎng)(網(wǎng)絡(luò)流量監(jiān)控,點擊流)的廣泛應(yīng)用,需要對數(shù)據(jù)流類型的數(shù)據(jù)進(jìn)行分析與挖掘。比如,數(shù)據(jù)流頻繁項技術(shù)及相關(guān)性分析技術(shù)可被應(yīng)用到智慧醫(yī)療和識別可疑洗錢行為的領(lǐng)域中,具有非常重要的應(yīng)用價值。而且,數(shù)據(jù)流頻繁項挖掘和相關(guān)性分析算法是眾多數(shù)據(jù)流挖掘技術(shù)的基礎(chǔ),因此具有非常重要的學(xué)術(shù)研究價值。數(shù)據(jù)流挖掘的常用技術(shù)主要有頻繁項(集)挖掘、相關(guān)性分析、分類分析、聚類分析、時序模式分析等。一般來說,數(shù)據(jù)流挖掘算法都試圖從兩個方面來研究:一是查詢響應(yīng)時間問題,即如何高效實時地處理數(shù)據(jù),以匹配數(shù)據(jù)流高速到達(dá)的特性。在技術(shù)層面上通過提出新的或者改進(jìn)已有的高效的數(shù)據(jù)結(jié)構(gòu)、有效的剪枝策略等來解決。二是壓縮存儲空間并保證高精度的查詢結(jié)果。在技術(shù)層面上通過構(gòu)造一個內(nèi)存占用少、并能提供近似結(jié)果的數(shù)據(jù)結(jié)構(gòu)以存放被壓縮的數(shù)據(jù)流數(shù)據(jù)。綜上分析,本文致力于解決數(shù)據(jù)流頻繁項發(fā)現(xiàn)及相關(guān)性分析問題中,如何更好的解決以上提出的兩大問題(提高查詢響應(yīng)時間和壓縮存儲數(shù)據(jù)所花費空間)。在現(xiàn)有的數(shù)據(jù)流挖掘技術(shù)研究基礎(chǔ)上,以有效管理海量數(shù)據(jù)和提高查詢效率以及精確度為優(yōu)化目標(biāo),展開一系列能夠滿足實際應(yīng)用需要的挖掘技術(shù)研究;提出高效的數(shù)據(jù)流概要結(jié)構(gòu)和挖掘算法。本文研究主要包括以下內(nèi)容:延遲數(shù)據(jù)流的頻繁項挖掘方法研究:所謂“延遲”即基于時間延遲模型。該模型考慮了不同時刻的數(shù)據(jù)的重要性不同,即已到達(dá)的數(shù)據(jù)項的重要性隨時間逐漸衰減。為了提高查詢響應(yīng)時間,本文研究了一個可以在內(nèi)存維持的,并能保證高效地更新和檢索其中的信息的數(shù)據(jù)結(jié)構(gòu),從而提高數(shù)據(jù)流頻繁項挖掘算法的效率。此外,為了壓縮存儲數(shù)據(jù)所花費空間,本文還設(shè)計了一種新的數(shù)據(jù)流概要結(jié)構(gòu),從而提高數(shù)據(jù)流頻繁項挖掘結(jié)果的準(zhǔn)確度。數(shù)據(jù)流最熱項概念的提出及其查詢方法研究:針對不斷出現(xiàn)的多樣的查詢需求,例如,在促銷中,商戶希望找到巔峰銷售記錄,以宣傳其產(chǎn)品的受歡迎程度,目前已有的數(shù)據(jù)流挖掘概念并不能適用于這一新的需求。因此,本文研究了一個自適應(yīng)可變滑動窗口的數(shù)據(jù)流頻率問題——數(shù)據(jù)流最熱項問題。由于無法用現(xiàn)有的挖掘算法來解決數(shù)據(jù)流最熱項問題,因此,本文深入研究了實時挖掘數(shù)據(jù)流最熱項的算法。一是設(shè)計一個高效的數(shù)據(jù)結(jié)構(gòu)來存儲已到達(dá)的數(shù)據(jù)項的關(guān)鍵信息,使得可以在其上進(jìn)行數(shù)據(jù)流最熱項的挖掘,并且可以保證高效地存儲、更新和檢索其中的信息。二是,在該數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,設(shè)計幾種剪枝策略以提高實時查詢效率。數(shù)據(jù)流自適應(yīng)的延遲相關(guān)性分析方法研究:已有的延遲關(guān)聯(lián)分析主要集中在兩個方面,一是延遲關(guān)聯(lián)被計算在整個數(shù)據(jù)流上;二是,需要設(shè)置一個合適長度的滑動窗口來計算延遲關(guān)聯(lián)性。然而,沒有一個最佳的窗口長度適用于所有的場景,因為合適的窗口長度取決于查詢、時間、數(shù)據(jù)和應(yīng)用領(lǐng)域等因素。因此,本文設(shè)計了一種滑動窗口大小可自適應(yīng)調(diào)整的延遲相關(guān)性查詢。也就是,基于可變的滑動窗口排序目標(biāo)數(shù)據(jù)流與給定的查詢數(shù)據(jù)流之間的延遲關(guān)聯(lián)關(guān)系。因此,本文開展研究了數(shù)據(jù)流自適應(yīng)的延遲相關(guān)性分析算法。本文首先研究了數(shù)據(jù)流中的數(shù)據(jù)項出現(xiàn)次數(shù)問題,也即數(shù)據(jù)流頻繁項挖掘方法的研究;接著將出現(xiàn)次數(shù)問題擴(kuò)展到出現(xiàn)頻率的問題,即提出了一種新的數(shù)據(jù)流挖掘概念-數(shù)據(jù)流最熱項問題及其查詢方法的研究;最后本文探究了數(shù)據(jù)流之間相關(guān)性分析的方法,研究了基于可變滑動窗口的延遲相關(guān)性分析方法的研究。本文的研究還只是初步進(jìn)行了嘗試和探索,但是仍有許多的研究工作需要進(jìn)一步深入和開拓。比如研究適應(yīng)流速率變化的數(shù)據(jù)流的挖掘問題,利用現(xiàn)有的分布式框架,如Hadoop、Spark等來處理數(shù)據(jù)流挖掘問題等。
[Abstract]:......
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2017
【分類號】:TP311.13

【參考文獻(xiàn)】

相關(guān)期刊論文 前2條

1 臧文羽;李軍;方濱興;譚建龍;;H-Tree:一種面向大數(shù)據(jù)流在線監(jiān)測的層次索引[J];計算機(jī)學(xué)報;2015年01期

2 眭俊明;姜遠(yuǎn);周志華;;基于頻繁項集挖掘的貝葉斯分類算法[J];計算機(jī)研究與發(fā)展;2007年08期

,

本文編號:2309730

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2309730.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2a8ab***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com