天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向數(shù)據集覆蓋問題的優(yōu)化算法研究

發(fā)布時間:2021-10-16 08:19
  數(shù)據科學時代,基于某些數(shù)據集訓練機器學習算法是常見的。通過調查或科學實驗,可以前瞻性地收集到數(shù)據集。最近,已經認識到訓練數(shù)據集只具有代表性是不夠的,如果受訓練的系統(tǒng)要很好地處理一些不太流行的類別,則必須包括來自這些類別的足夠的例子,這便是數(shù)據集覆蓋問題。本文在已有的處理數(shù)據集覆蓋問題的方法的基礎上,結合關聯(lián)規(guī)則挖掘相關算法的思想,提出了獲取MUP的優(yōu)化算法,提高了獲取MUP的運行效率;另外還提出了計算coverage算法面對數(shù)據稀疏問題以及位圖過大、內存不足問題的解決思路,最后通過理論分析以及對實際數(shù)據集的綜合實驗,驗證了獲取MUP優(yōu)化算法的優(yōu)越性。 

【文章來源】:智能計算機與應用. 2020,10(06)

【文章頁數(shù)】:7 頁

【部分圖文】:

面向數(shù)據集覆蓋問題的優(yōu)化算法研究


3個二元屬性的模式圖

樹形圖,自頂向下,樹形圖,算法


自頂向下算法利用單調性過濾掉部分子模式圖,來減少獲取MUP所消耗的時間,但是這個算法在它找到未覆蓋模式前,需要遍歷模式圖中的已覆蓋區(qū)域的節(jié)點,計算這些節(jié)點的coverage,它的運行時間取決于模式圖中已覆蓋區(qū)域的大小。因此,如果模式圖中一大片區(qū)域都是已覆蓋的,那么自頂向下的算法運行時間就很長,性能較差。1.2.2 自底向上算法(Pattern-Combiner)分析

模式圖,森林,算法,基數(shù)


自底向上算法參考頻繁項集挖掘中從特殊到一般的思路,它自底向上地遍歷模式圖,同樣用單調性來避免遍歷整個模式圖,一旦找到了一個已覆蓋模式,就可以過濾掉這個分支。自底向上算法將模式圖轉化為一個森林,并通過相應的規(guī)則,來保證每個候選節(jié)點只生成一次,如圖3所示。自底向上算法先遍歷未覆蓋區(qū)域的節(jié)點,所以如果模式圖中大部分節(jié)點都是未覆蓋的,那么該算法的性能較差。同時,由于它最開始需要通過倒排索引的方式計算第d層的各個節(jié)點的coverage,而對d-1層到第0層的節(jié)點的coverage,只需要根據其子節(jié)點得到。所以,自底向上算法適用于屬性基數(shù)較小,且閾值較小(大部分節(jié)點都是已覆蓋的)的情況。自底向上的算法對于屬性基數(shù)較大的數(shù)據集,運行性能差。原因:(1)屬性基數(shù)大,第d層的模式節(jié)點很多。(2)根據子節(jié)點計算自身的coverage,所以基數(shù)變大后每個節(jié)點的計算時間也會增加(可能造成嚴重哈希沖突)。對于屬性個數(shù)多,屬性基數(shù)小的數(shù)據集,使用自底向上的算法比較好,當然也得綜合考慮閾值。


本文編號:3439462

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3439462.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶196b3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com