天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

大數(shù)據(jù)環(huán)境下的頻繁模式挖掘算法研究

發(fā)布時(shí)間:2023-06-10 14:15
  關(guān)聯(lián)規(guī)則挖掘作為數(shù)據(jù)挖掘的一個(gè)重要分支,用于發(fā)現(xiàn)數(shù)據(jù)當(dāng)中隱藏的聯(lián)系,為決策提供支持,在web挖掘、推薦系統(tǒng)、故障診斷等諸多領(lǐng)域有著廣泛的應(yīng)用。關(guān)聯(lián)規(guī)則挖掘最核心、最耗時(shí)的步驟是頻繁模式的獲取。目前國(guó)內(nèi)外已經(jīng)開(kāi)展了大量的研究來(lái)加快頻繁模式的挖掘速度,但是隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)量越來(lái)越大,目前的頻繁模式挖掘算法仍然無(wú)法滿足日益增長(zhǎng)的對(duì)挖掘算法時(shí)效性的要求。如何提升大數(shù)據(jù)環(huán)境下的頻繁模式挖掘效率仍然是目前數(shù)據(jù)挖掘領(lǐng)域面臨的一個(gè)巨大挑戰(zhàn)。為了提升頻繁模式挖掘效率,本文開(kāi)展了以下研究:(1)結(jié)合頻繁模式挖掘算法當(dāng)中經(jīng)典的Apriori算法、FP-growth算法、ECLaT算法,提出一種基于事務(wù)映射區(qū)間求交的頻繁模式挖掘算法IITM(Interval Interaction and Transaction Mapping)。該算法只需掃描兩次數(shù)據(jù)集,第一次掃描生成頻繁1-項(xiàng)集,第二次掃描生成條件模式樹(shù),接著掃描條件模式樹(shù)將頻繁1-項(xiàng)集映射到區(qū)間當(dāng)中,通過(guò)區(qū)間求交來(lái)進(jìn)行模式增長(zhǎng),從而避免了遞歸生成條件模式樹(shù)帶來(lái)的開(kāi)銷。同時(shí)本文還通過(guò)引入Hash存儲(chǔ)結(jié)構(gòu)存儲(chǔ)項(xiàng)集的區(qū)間、利用布隆過(guò)濾器對(duì)候選項(xiàng)集進(jìn)...

【文章頁(yè)數(shù)】:74 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
ABSTRACT
第一章 緒論
    1.1 研究背景和意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 單機(jī)頻繁模式挖掘算法
        1.2.2 并行頻繁模式挖掘算法
    1.3 課題來(lái)源
    1.4 主要研究?jī)?nèi)容和論文結(jié)構(gòu)
第二章 相關(guān)理論和技術(shù)
    2.1 數(shù)據(jù)挖掘流程
    2.2 關(guān)聯(lián)規(guī)則相關(guān)理論
        2.2.1 事務(wù)數(shù)據(jù)
        2.2.2 關(guān)聯(lián)規(guī)則
        2.2.3 頻繁項(xiàng)集
        2.2.4 FP樹(shù)
    2.3 大數(shù)據(jù)相關(guān)概念
        2.3.1 Hadoop
        2.3.2 HDFS
        2.3.3 MapReduce
        2.3.4 Spark
    2.4 布隆過(guò)濾器
第三章 基于事務(wù)映射區(qū)間求交的頻繁模式挖掘算法
    3.1 IITM算法概述
        3.1.1 IITM算法的創(chuàng)新點(diǎn)
        3.1.2 IITM算法的整體流程概述
    3.2 事務(wù)映射
        3.2.1 事務(wù)映射技術(shù)的提出
        3.2.2 事務(wù)映射流程
        3.2.3 區(qū)間的存儲(chǔ)
    3.3 候選項(xiàng)集生成
        3.3.1 生成候選項(xiàng)集的方式的選擇
        3.3.2 布隆過(guò)濾器剪枝
    3.4 區(qū)間求交
    3.5 本章小結(jié)
第四章 IITM算法的并行化及優(yōu)化
    4.1 IITM算法的并行化策略
    4.2 并行化IITM算法PIITM的整體流程
        4.2.1 挖掘頻繁1-項(xiàng)集
        4.2.2 條件模式基重分區(qū)
        4.2.3 并行頻繁模式挖掘
    4.3 并行化算法優(yōu)化
        4.3.1 負(fù)載優(yōu)化
        4.3.2 通信優(yōu)化
    4.4 本章小結(jié)
第五章 實(shí)驗(yàn)驗(yàn)證及結(jié)果分析
    5.1 IITM算法的實(shí)驗(yàn)分析
        5.1.1 實(shí)驗(yàn)數(shù)據(jù)
        5.1.2 實(shí)驗(yàn)環(huán)境
        5.1.3 實(shí)驗(yàn)結(jié)果分析
    5.2 PIITM算法的實(shí)驗(yàn)及分析
        5.2.1 實(shí)驗(yàn)環(huán)境
        5.2.2 實(shí)驗(yàn)數(shù)據(jù)集
        5.2.3 實(shí)驗(yàn)結(jié)果及分析
    5.3 本章小結(jié)
結(jié)論
    總結(jié)
    展望
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表的論文
攻讀學(xué)位期間參加的科研項(xiàng)目
致謝



本文編號(hào):3833007

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3833007.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e4fbf***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com