數(shù)據(jù)挖掘中并行離散化數(shù)據(jù)準(zhǔn)備優(yōu)化研究
發(fā)布時(shí)間:2021-08-08 15:49
隨著大數(shù)據(jù)(Big Data)的廣泛應(yīng)用,數(shù)據(jù)挖掘(Data mining)與機(jī)器學(xué)習(xí)(Machine learning)作為處理數(shù)據(jù)的重要手段,已然成為當(dāng)今研究的一個(gè)熱點(diǎn)問題。許多數(shù)據(jù)挖掘的算法得以進(jìn)行的先決條件就是所要處理的屬性值是離散值。所以如何使用好的離散化對(duì)數(shù)據(jù)進(jìn)行預(yù)處理更是重中之重。并且在離散化步驟中,沒有任何離散化算法可以適用于任何環(huán)境下,需要根據(jù)數(shù)據(jù)集的特點(diǎn)和學(xué)習(xí)環(huán)境等選擇合適的離散化方法。本文通過對(duì)中外數(shù)據(jù)離散化技術(shù)現(xiàn)狀的深入研究,分析了根據(jù)數(shù)據(jù)集的統(tǒng)計(jì)特性檢測(cè)以確定其分布模型,以及對(duì)不同離散化方法之間選比判定依據(jù),設(shè)計(jì)了一種最優(yōu)離散化方法自動(dòng)選擇機(jī)。研究提出了一種針對(duì)環(huán)境的并行比較并獲得最優(yōu)離散化的數(shù)據(jù)準(zhǔn)備算法(Auto Optimize Algorithm,AOA),針對(duì)不同數(shù)據(jù)集,算法首先進(jìn)行對(duì)數(shù)據(jù)集的統(tǒng)計(jì)特性檢測(cè)以獲得數(shù)據(jù)集的分布特性,根據(jù)分布特性進(jìn)行數(shù)據(jù)集的異常值檢測(cè)和剔除。其次,并行完成與分布特性適配的離散化。最后,通過比較不同離散化方法的熵、方差指數(shù)、穩(wěn)定性這三個(gè)參數(shù)所構(gòu)成的最小歐氏距離(Minimum Euclidian distance,MED),根...
【文章來(lái)源】:昆明理工大學(xué)云南省
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
均勻分布
昆明理工大學(xué)碩士學(xué)位論文10平均值:μ=n*p方差:Var(X)=npq2.1.4正態(tài)分布正態(tài)分布[43]也稱“常態(tài)分布”,又名高斯分布(Gaussiandistribution),代表了宇宙中大多數(shù)情況的運(yùn)轉(zhuǎn)狀態(tài),大量的隨機(jī)變量被證明是正態(tài)分布[]。對(duì)正態(tài)分布的特征做以下總結(jié):(1)分布的平均值、中位數(shù)和模式一致。(2)分布曲線是鐘形的,關(guān)于線x=μ對(duì)稱。(3)曲線下的總面積為1。(4)有一半的值在中心的左邊,另一半在右邊。遵循正態(tài)分布的隨機(jī)變量X的概率由下式給出:f(x)=1√2{12()2},∞<<∞(2-5)正態(tài)分布的隨機(jī)變量X的均值和方差由下式給出:均值:E(X)=μ方差:Var(X)=σ^2其中,μ(平均)和σ(標(biāo)準(zhǔn)偏差)是參數(shù)。隨機(jī)變量XN(μ,σ)的圖如下所示。圖2.5不同參數(shù)下的正態(tài)分布標(biāo)準(zhǔn)正態(tài)分布定義為E(X)=0,Var(X)=1的分布:f(x)=1√22/2,∞<<∞(2-6)其概率密度函數(shù)如下圖所示。
昆明理工大學(xué)碩士學(xué)位論文12圖2.7低均值泊松分布隨著均置增加,分布會(huì)產(chǎn)生一點(diǎn)偏移,如下圖所示。圖2.8高均值泊松分布由以上兩圖可以看出,隨著E(X)的逐漸增加,曲線向右移動(dòng)。泊松分布中X的均值和方差定義為:均值:E(X)=μ方差:Var(X)=μ2.1.6指數(shù)分布指數(shù)分布[45](也稱為負(fù)指數(shù)分布)是描述泊松過程中的事件之間的時(shí)間的概率分布,即事件以恒定平均速率連續(xù)且獨(dú)立地發(fā)生的過程,這是伽馬分布的一個(gè)特殊情況,它是幾何分布的連續(xù)模擬,它具有無(wú)記憶的關(guān)鍵性質(zhì)[]。為了便于理解,舉以下幾例:(1)地鐵到達(dá)時(shí)間間隔(2)到達(dá)加油站的時(shí)間(3)空調(diào)的壽命指數(shù)分布廣泛用于生存分析。從各類物件的使用時(shí)間預(yù)期到各種生物生存的時(shí)間預(yù)期,指數(shù)分布都能成功地提供結(jié)果。具有的指數(shù)分布的隨機(jī)變量X:
【參考文獻(xiàn)】:
期刊論文
[1]數(shù)據(jù)挖掘中并行離散化數(shù)據(jù)準(zhǔn)備優(yōu)化[J]. 劉云,袁浩恒. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(05)
[2]距離估計(jì)修正的定位算法優(yōu)化研究[J]. 劉云,袁浩恒. 云南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(06)
[3]基于密度的異常數(shù)據(jù)檢測(cè)算法GSWCLOF[J]. 李少波,孟偉,璩晶磊. 計(jì)算機(jī)工程與應(yīng)用. 2016(19)
[4]基于K-means聚類的WSN異常數(shù)據(jù)檢測(cè)算法[J]. 費(fèi)歡,李光輝. 計(jì)算機(jī)工程. 2015(07)
[5]分布式并行關(guān)聯(lián)規(guī)則挖掘算法研究[J]. 王智鋼,王池社,馬青霞. 計(jì)算機(jī)應(yīng)用與軟件. 2013(10)
[6]基于項(xiàng)集依賴的最小關(guān)聯(lián)規(guī)則挖掘[J]. 孟軍,王蓬,張靜,王秀坤. 計(jì)算機(jī)科學(xué). 2013(01)
[7]基于三段式編碼GA的連續(xù)屬性關(guān)聯(lián)規(guī)則挖掘方法[J]. 張志鋒,馬軍霞. 科學(xué)技術(shù)與工程. 2012(26)
[8]簡(jiǎn)談幾種“箱線圖繪制”的描述[J]. 查如琴. 讀與寫(教育教學(xué)刊). 2012(07)
[9]數(shù)據(jù)挖掘技術(shù)在精細(xì)化溫度預(yù)報(bào)中的應(yīng)用[J]. 段文廣,周曉軍,石永煒. 干旱氣象. 2012(01)
[10]基于遺傳算法-支持向量機(jī)模型在熱帶氣旋強(qiáng)度預(yù)報(bào)中的應(yīng)用[J]. 顧錦榮,劉華強(qiáng),劉向陪,呂慶平. 海洋預(yù)報(bào). 2011(03)
博士論文
[1]關(guān)聯(lián)規(guī)則挖掘在分類數(shù)據(jù)領(lǐng)域的擴(kuò)展性研究[D]. 毛宇星.復(fù)旦大學(xué) 2010
碩士論文
[1]基于支持向量機(jī)的氣象預(yù)報(bào)方法研究[D]. 汪春秀.南京信息工程大學(xué) 2011
[2]基于關(guān)聯(lián)規(guī)則和聚類分析的異常天氣挖掘[D]. 鄭忠平.電子科技大學(xué) 2011
本文編號(hào):3330239
【文章來(lái)源】:昆明理工大學(xué)云南省
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
均勻分布
昆明理工大學(xué)碩士學(xué)位論文10平均值:μ=n*p方差:Var(X)=npq2.1.4正態(tài)分布正態(tài)分布[43]也稱“常態(tài)分布”,又名高斯分布(Gaussiandistribution),代表了宇宙中大多數(shù)情況的運(yùn)轉(zhuǎn)狀態(tài),大量的隨機(jī)變量被證明是正態(tài)分布[]。對(duì)正態(tài)分布的特征做以下總結(jié):(1)分布的平均值、中位數(shù)和模式一致。(2)分布曲線是鐘形的,關(guān)于線x=μ對(duì)稱。(3)曲線下的總面積為1。(4)有一半的值在中心的左邊,另一半在右邊。遵循正態(tài)分布的隨機(jī)變量X的概率由下式給出:f(x)=1√2{12()2},∞<<∞(2-5)正態(tài)分布的隨機(jī)變量X的均值和方差由下式給出:均值:E(X)=μ方差:Var(X)=σ^2其中,μ(平均)和σ(標(biāo)準(zhǔn)偏差)是參數(shù)。隨機(jī)變量XN(μ,σ)的圖如下所示。圖2.5不同參數(shù)下的正態(tài)分布標(biāo)準(zhǔn)正態(tài)分布定義為E(X)=0,Var(X)=1的分布:f(x)=1√22/2,∞<<∞(2-6)其概率密度函數(shù)如下圖所示。
昆明理工大學(xué)碩士學(xué)位論文12圖2.7低均值泊松分布隨著均置增加,分布會(huì)產(chǎn)生一點(diǎn)偏移,如下圖所示。圖2.8高均值泊松分布由以上兩圖可以看出,隨著E(X)的逐漸增加,曲線向右移動(dòng)。泊松分布中X的均值和方差定義為:均值:E(X)=μ方差:Var(X)=μ2.1.6指數(shù)分布指數(shù)分布[45](也稱為負(fù)指數(shù)分布)是描述泊松過程中的事件之間的時(shí)間的概率分布,即事件以恒定平均速率連續(xù)且獨(dú)立地發(fā)生的過程,這是伽馬分布的一個(gè)特殊情況,它是幾何分布的連續(xù)模擬,它具有無(wú)記憶的關(guān)鍵性質(zhì)[]。為了便于理解,舉以下幾例:(1)地鐵到達(dá)時(shí)間間隔(2)到達(dá)加油站的時(shí)間(3)空調(diào)的壽命指數(shù)分布廣泛用于生存分析。從各類物件的使用時(shí)間預(yù)期到各種生物生存的時(shí)間預(yù)期,指數(shù)分布都能成功地提供結(jié)果。具有的指數(shù)分布的隨機(jī)變量X:
【參考文獻(xiàn)】:
期刊論文
[1]數(shù)據(jù)挖掘中并行離散化數(shù)據(jù)準(zhǔn)備優(yōu)化[J]. 劉云,袁浩恒. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(05)
[2]距離估計(jì)修正的定位算法優(yōu)化研究[J]. 劉云,袁浩恒. 云南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(06)
[3]基于密度的異常數(shù)據(jù)檢測(cè)算法GSWCLOF[J]. 李少波,孟偉,璩晶磊. 計(jì)算機(jī)工程與應(yīng)用. 2016(19)
[4]基于K-means聚類的WSN異常數(shù)據(jù)檢測(cè)算法[J]. 費(fèi)歡,李光輝. 計(jì)算機(jī)工程. 2015(07)
[5]分布式并行關(guān)聯(lián)規(guī)則挖掘算法研究[J]. 王智鋼,王池社,馬青霞. 計(jì)算機(jī)應(yīng)用與軟件. 2013(10)
[6]基于項(xiàng)集依賴的最小關(guān)聯(lián)規(guī)則挖掘[J]. 孟軍,王蓬,張靜,王秀坤. 計(jì)算機(jī)科學(xué). 2013(01)
[7]基于三段式編碼GA的連續(xù)屬性關(guān)聯(lián)規(guī)則挖掘方法[J]. 張志鋒,馬軍霞. 科學(xué)技術(shù)與工程. 2012(26)
[8]簡(jiǎn)談幾種“箱線圖繪制”的描述[J]. 查如琴. 讀與寫(教育教學(xué)刊). 2012(07)
[9]數(shù)據(jù)挖掘技術(shù)在精細(xì)化溫度預(yù)報(bào)中的應(yīng)用[J]. 段文廣,周曉軍,石永煒. 干旱氣象. 2012(01)
[10]基于遺傳算法-支持向量機(jī)模型在熱帶氣旋強(qiáng)度預(yù)報(bào)中的應(yīng)用[J]. 顧錦榮,劉華強(qiáng),劉向陪,呂慶平. 海洋預(yù)報(bào). 2011(03)
博士論文
[1]關(guān)聯(lián)規(guī)則挖掘在分類數(shù)據(jù)領(lǐng)域的擴(kuò)展性研究[D]. 毛宇星.復(fù)旦大學(xué) 2010
碩士論文
[1]基于支持向量機(jī)的氣象預(yù)報(bào)方法研究[D]. 汪春秀.南京信息工程大學(xué) 2011
[2]基于關(guān)聯(lián)規(guī)則和聚類分析的異常天氣挖掘[D]. 鄭忠平.電子科技大學(xué) 2011
本文編號(hào):3330239
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3330239.html
最近更新
教材專著