面向數(shù)據集覆蓋問題的優(yōu)化算法研究
發(fā)布時間:2021-10-16 08:19
數(shù)據科學時代,基于某些數(shù)據集訓練機器學習算法是常見的。通過調查或科學實驗,可以前瞻性地收集到數(shù)據集。最近,已經認識到訓練數(shù)據集只具有代表性是不夠的,如果受訓練的系統(tǒng)要很好地處理一些不太流行的類別,則必須包括來自這些類別的足夠的例子,這便是數(shù)據集覆蓋問題。本文在已有的處理數(shù)據集覆蓋問題的方法的基礎上,結合關聯(lián)規(guī)則挖掘相關算法的思想,提出了獲取MUP的優(yōu)化算法,提高了獲取MUP的運行效率;另外還提出了計算coverage算法面對數(shù)據稀疏問題以及位圖過大、內存不足問題的解決思路,最后通過理論分析以及對實際數(shù)據集的綜合實驗,驗證了獲取MUP優(yōu)化算法的優(yōu)越性。
【文章來源】:智能計算機與應用. 2020,10(06)
【文章頁數(shù)】:7 頁
【部分圖文】:
3個二元屬性的模式圖
自頂向下算法利用單調性過濾掉部分子模式圖,來減少獲取MUP所消耗的時間,但是這個算法在它找到未覆蓋模式前,需要遍歷模式圖中的已覆蓋區(qū)域的節(jié)點,計算這些節(jié)點的coverage,它的運行時間取決于模式圖中已覆蓋區(qū)域的大小。因此,如果模式圖中一大片區(qū)域都是已覆蓋的,那么自頂向下的算法運行時間就很長,性能較差。1.2.2 自底向上算法(Pattern-Combiner)分析
自底向上算法參考頻繁項集挖掘中從特殊到一般的思路,它自底向上地遍歷模式圖,同樣用單調性來避免遍歷整個模式圖,一旦找到了一個已覆蓋模式,就可以過濾掉這個分支。自底向上算法將模式圖轉化為一個森林,并通過相應的規(guī)則,來保證每個候選節(jié)點只生成一次,如圖3所示。自底向上算法先遍歷未覆蓋區(qū)域的節(jié)點,所以如果模式圖中大部分節(jié)點都是未覆蓋的,那么該算法的性能較差。同時,由于它最開始需要通過倒排索引的方式計算第d層的各個節(jié)點的coverage,而對d-1層到第0層的節(jié)點的coverage,只需要根據其子節(jié)點得到。所以,自底向上算法適用于屬性基數(shù)較小,且閾值較小(大部分節(jié)點都是已覆蓋的)的情況。自底向上的算法對于屬性基數(shù)較大的數(shù)據集,運行性能差。原因:(1)屬性基數(shù)大,第d層的模式節(jié)點很多。(2)根據子節(jié)點計算自身的coverage,所以基數(shù)變大后每個節(jié)點的計算時間也會增加(可能造成嚴重哈希沖突)。對于屬性個數(shù)多,屬性基數(shù)小的數(shù)據集,使用自底向上的算法比較好,當然也得綜合考慮閾值。
本文編號:3439462
【文章來源】:智能計算機與應用. 2020,10(06)
【文章頁數(shù)】:7 頁
【部分圖文】:
3個二元屬性的模式圖
自頂向下算法利用單調性過濾掉部分子模式圖,來減少獲取MUP所消耗的時間,但是這個算法在它找到未覆蓋模式前,需要遍歷模式圖中的已覆蓋區(qū)域的節(jié)點,計算這些節(jié)點的coverage,它的運行時間取決于模式圖中已覆蓋區(qū)域的大小。因此,如果模式圖中一大片區(qū)域都是已覆蓋的,那么自頂向下的算法運行時間就很長,性能較差。1.2.2 自底向上算法(Pattern-Combiner)分析
自底向上算法參考頻繁項集挖掘中從特殊到一般的思路,它自底向上地遍歷模式圖,同樣用單調性來避免遍歷整個模式圖,一旦找到了一個已覆蓋模式,就可以過濾掉這個分支。自底向上算法將模式圖轉化為一個森林,并通過相應的規(guī)則,來保證每個候選節(jié)點只生成一次,如圖3所示。自底向上算法先遍歷未覆蓋區(qū)域的節(jié)點,所以如果模式圖中大部分節(jié)點都是未覆蓋的,那么該算法的性能較差。同時,由于它最開始需要通過倒排索引的方式計算第d層的各個節(jié)點的coverage,而對d-1層到第0層的節(jié)點的coverage,只需要根據其子節(jié)點得到。所以,自底向上算法適用于屬性基數(shù)較小,且閾值較小(大部分節(jié)點都是已覆蓋的)的情況。自底向上的算法對于屬性基數(shù)較大的數(shù)據集,運行性能差。原因:(1)屬性基數(shù)大,第d層的模式節(jié)點很多。(2)根據子節(jié)點計算自身的coverage,所以基數(shù)變大后每個節(jié)點的計算時間也會增加(可能造成嚴重哈希沖突)。對于屬性個數(shù)多,屬性基數(shù)小的數(shù)據集,使用自底向上的算法比較好,當然也得綜合考慮閾值。
本文編號:3439462
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3439462.html
最近更新
教材專著