面向桑黃發(fā)酵實驗不平衡數(shù)據(jù)的處理方法及其研究
發(fā)布時間:2021-01-11 07:20
信息產(chǎn)業(yè)高速發(fā)展的今天,數(shù)據(jù)已經(jīng)成為各行各業(yè)的生產(chǎn)要素,海量數(shù)據(jù)的伴隨著企業(yè)的生產(chǎn)和運(yùn)營產(chǎn)生,總量增長迅猛。在生物實驗中也出現(xiàn)了大量的新增實驗數(shù)據(jù),這些數(shù)據(jù)具有緯度高,相似性高,數(shù)據(jù)不平衡性等特點,傳統(tǒng)方法難以應(yīng)對。本文以桑黃數(shù)據(jù)為基礎(chǔ),在此基礎(chǔ)上采用不平衡數(shù)據(jù)方法和數(shù)據(jù)挖掘方法對數(shù)據(jù)進(jìn)行了分類處理和預(yù)測建模。通過對大量生物實驗產(chǎn)生的數(shù)據(jù)進(jìn)行分析,生物實驗數(shù)據(jù)具有一定的不平衡性。本文采用KK-SMOTE(k-means and k-neighbors on SMOTE)的不均衡數(shù)據(jù)過采樣方法對桑黃發(fā)酵數(shù)據(jù)進(jìn)行了預(yù)處理。為桑黃發(fā)酵條件特征屬性進(jìn)行準(zhǔn)確的數(shù)據(jù)挖掘提供了前提條件,并建立了基于邏輯回歸和BP神經(jīng)網(wǎng)絡(luò)的桑黃產(chǎn)量分類模型,通過不同的實驗條件參數(shù)來分析并預(yù)測該組實驗條件是否為高產(chǎn)實驗條件,為產(chǎn)量預(yù)測分析做準(zhǔn)備。BP(Backpropagation Neural Network)神經(jīng)網(wǎng)絡(luò)是高效且簡單的預(yù)測模型。本文根據(jù)桑黃發(fā)酵實驗數(shù)據(jù)實驗梯度小特性建立了LM算法的BP神經(jīng)網(wǎng)絡(luò)產(chǎn)量預(yù)測模型,并和傳統(tǒng)的回歸模型進(jìn)行了對比。遺傳算法(Genetic Algorithm)的模型機(jī)理是通過計算機(jī)...
【文章來源】: 辛月振 中國石油大學(xué)(華東)
【文章頁數(shù)】:53 頁
【學(xué)位級別】:碩士
【部分圖文】:
Sigmoid函數(shù)圖
數(shù)據(jù)挖掘及不平衡數(shù)據(jù)處理方法第10頁圖2-2過擬合示意圖Fig2-2Overfitting問題的主要原因是模型要求過于嚴(yán)苛,為追求模型一致假設(shè)而使條件要求過高。解決方法如下1)減少特征數(shù)可用人工選擇要保留的特征;模型選擇算法;2)正則化保留所有特征,但減少θ的大小減少特征或多或少會損失數(shù)據(jù)信息,而正則化方法比較復(fù)雜,多用于多特征數(shù)據(jù)。正則化方法正則化方法相對而言對數(shù)據(jù)樣本的改動小,對模型風(fēng)險較校正則化方法通過在增加正則化懲罰項來影響模型使模型避免過擬合。正則項可以有許多形式,在回歸問題中常采用平方損失(L2范數(shù))。模型的損失函數(shù)如下:J(θ)=12∑(())2+∑2=1=1(2-8)λ是正則項系數(shù),下面對λ意義進(jìn)行解釋。若λ值很大,說明正則項對模型懲罰大,對擬合數(shù)據(jù)的損失懲罰校此時模型不會過分?jǐn)M合數(shù)據(jù)但有可能會出現(xiàn)欠擬合。若λ值很小,說明正則項對模型懲罰小,對擬合數(shù)據(jù)的損失懲罰大。此時模型注重擬合訓(xùn)練數(shù)據(jù)但有可能會出現(xiàn)過擬合。正則化后θ的更新變?yōu)椋害萰θjam∑(hθ(xi)yi)mi=1xijλmθj(2-9)正則化后的線性回歸的NormalEquation的公式為:
中國石油大學(xué)(華東)工程碩士學(xué)位論文第35頁圖4-1誤差值范圍圖Fig4-1Rangediagramoferrorvalue圖4-2誤差百分比圖Fig4-2Percentagediagramoferror4.5產(chǎn)量預(yù)測建立與對比分析通過傳統(tǒng)回歸模型與分類-BP神經(jīng)網(wǎng)絡(luò)模型的比較,見表4-3,傳統(tǒng)回歸分析模型所用到的數(shù)據(jù)量比較少,預(yù)測曲線擬合主要集中在高產(chǎn)數(shù)據(jù)集。所得到的模型對尋找最優(yōu)產(chǎn)量效果較好,對邊界條件預(yù)測準(zhǔn)確率差。盡管如此,所得到的回歸模型誤差為11%,BP神經(jīng)網(wǎng)絡(luò)模型誤差8.7%。BP神經(jīng)網(wǎng)絡(luò)模型所采用的數(shù)據(jù)集能夠覆蓋更多原始數(shù)據(jù)范圍,對整體數(shù)據(jù)都有較好的預(yù)測性能。由于采用了分類策略,對邊界條件和最優(yōu)產(chǎn)量預(yù)測都有比較好的效果。
【參考文獻(xiàn)】:
期刊論文
[1]基于多子代遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)[J]. 付曉明,王福林,尚家杰. 計算機(jī)仿真. 2016(03)
[2]直接觀測值回歸與間接觀測值回歸方法的比較研究[J]. 別必鑫,魏世麗,余哲. 經(jīng)緯天地. 2015(06)
[3]生物數(shù)據(jù)庫建立與應(yīng)用的研究[J]. 王甜,何惠欣,羅亞彬,張妍,劉秋紅,張善飛. 生物技術(shù)世界. 2015(03)
[4]一種基于信息熵的異常數(shù)據(jù)挖掘算法[J]. 陳玉明,吳克壽,李向軍. 控制與決策. 2013(06)
[5]面向不均衡數(shù)據(jù)集的ISMOTE算法[J]. 許丹丹,王勇,蔡立軍. 計算機(jī)應(yīng)用. 2011(09)
[6]基于聚類融合的不平衡數(shù)據(jù)分類方法[J]. 陳思,郭躬德,陳黎飛. 模式識別與人工智能. 2010(06)
[7]類別不平衡的分類方法及在生物信息學(xué)中的應(yīng)用[J]. 鄒權(quán),郭茂祖,劉揚(yáng),王峻. 計算機(jī)研究與發(fā)展. 2010(08)
[8]帶車輛路線安排的多配送中心選址問題的求解——基于SPSS和遺傳算法[J]. 胡賢滿,張燕,李珍萍. 物流技術(shù). 2010(01)
[9]一種基于核SMOTE的非平衡數(shù)據(jù)集分類方法[J]. 曾志強(qiáng),吳群,廖備水,高濟(jì). 電子學(xué)報. 2009(11)
[10]藥用真菌桑黃(phellinus sp.)抗癌功能的研究進(jìn)展[J]. 王穩(wěn)航,李玉,李蘭會. 現(xiàn)代生物醫(yī)學(xué)進(jìn)展. 2006(10)
博士論文
[1]基于神經(jīng)網(wǎng)絡(luò)的不平衡數(shù)據(jù)分類方法研究[D]. 楊澤平.華東理工大學(xué) 2015
[2]基于基因表達(dá)數(shù)據(jù)的腫瘤分類算法研究[D]. 陸慧娟.中國礦業(yè)大學(xué) 2012
[3]基于數(shù)字化的生物分類鑒定及知識集成研究[D]. 張小斌.浙江大學(xué) 2007
碩士論文
[1]基于少數(shù)類樣本重組的不平衡數(shù)據(jù)分類研究[D]. 李軒.湖南大學(xué) 2016
[2]基于BP神經(jīng)網(wǎng)絡(luò)及其優(yōu)化算法的汽車車速預(yù)測[D]. 謝浩.重慶大學(xué) 2014
[3]基于人工神經(jīng)網(wǎng)絡(luò)的油田開發(fā)指標(biāo)預(yù)測模型及算法研究[D]. 楊婷婷.東北石油大學(xué) 2013
[4]藥用菌桑黃代謝黃酮的調(diào)控研究[D]. 劉偉.中國石油大學(xué)(華東) 2012
[5]桑黃黃酮研究[D]. 劉晨.吉林大學(xué) 2011
[6]BP神經(jīng)網(wǎng)絡(luò)的改進(jìn)研究及應(yīng)用[D]. 劉天舒.東北農(nóng)業(yè)大學(xué) 2011
[7]類別不平衡數(shù)據(jù)的集成學(xué)習(xí)研究[D]. 王曉芹.山東師范大學(xué) 2010
[8]遺傳算法在函數(shù)優(yōu)化中的應(yīng)用研究[D]. 金芬.蘇州大學(xué) 2008
本文編號:2970342
【文章來源】: 辛月振 中國石油大學(xué)(華東)
【文章頁數(shù)】:53 頁
【學(xué)位級別】:碩士
【部分圖文】:
Sigmoid函數(shù)圖
數(shù)據(jù)挖掘及不平衡數(shù)據(jù)處理方法第10頁圖2-2過擬合示意圖Fig2-2Overfitting問題的主要原因是模型要求過于嚴(yán)苛,為追求模型一致假設(shè)而使條件要求過高。解決方法如下1)減少特征數(shù)可用人工選擇要保留的特征;模型選擇算法;2)正則化保留所有特征,但減少θ的大小減少特征或多或少會損失數(shù)據(jù)信息,而正則化方法比較復(fù)雜,多用于多特征數(shù)據(jù)。正則化方法正則化方法相對而言對數(shù)據(jù)樣本的改動小,對模型風(fēng)險較校正則化方法通過在增加正則化懲罰項來影響模型使模型避免過擬合。正則項可以有許多形式,在回歸問題中常采用平方損失(L2范數(shù))。模型的損失函數(shù)如下:J(θ)=12∑(())2+∑2=1=1(2-8)λ是正則項系數(shù),下面對λ意義進(jìn)行解釋。若λ值很大,說明正則項對模型懲罰大,對擬合數(shù)據(jù)的損失懲罰校此時模型不會過分?jǐn)M合數(shù)據(jù)但有可能會出現(xiàn)欠擬合。若λ值很小,說明正則項對模型懲罰小,對擬合數(shù)據(jù)的損失懲罰大。此時模型注重擬合訓(xùn)練數(shù)據(jù)但有可能會出現(xiàn)過擬合。正則化后θ的更新變?yōu)椋害萰θjam∑(hθ(xi)yi)mi=1xijλmθj(2-9)正則化后的線性回歸的NormalEquation的公式為:
中國石油大學(xué)(華東)工程碩士學(xué)位論文第35頁圖4-1誤差值范圍圖Fig4-1Rangediagramoferrorvalue圖4-2誤差百分比圖Fig4-2Percentagediagramoferror4.5產(chǎn)量預(yù)測建立與對比分析通過傳統(tǒng)回歸模型與分類-BP神經(jīng)網(wǎng)絡(luò)模型的比較,見表4-3,傳統(tǒng)回歸分析模型所用到的數(shù)據(jù)量比較少,預(yù)測曲線擬合主要集中在高產(chǎn)數(shù)據(jù)集。所得到的模型對尋找最優(yōu)產(chǎn)量效果較好,對邊界條件預(yù)測準(zhǔn)確率差。盡管如此,所得到的回歸模型誤差為11%,BP神經(jīng)網(wǎng)絡(luò)模型誤差8.7%。BP神經(jīng)網(wǎng)絡(luò)模型所采用的數(shù)據(jù)集能夠覆蓋更多原始數(shù)據(jù)范圍,對整體數(shù)據(jù)都有較好的預(yù)測性能。由于采用了分類策略,對邊界條件和最優(yōu)產(chǎn)量預(yù)測都有比較好的效果。
【參考文獻(xiàn)】:
期刊論文
[1]基于多子代遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)[J]. 付曉明,王福林,尚家杰. 計算機(jī)仿真. 2016(03)
[2]直接觀測值回歸與間接觀測值回歸方法的比較研究[J]. 別必鑫,魏世麗,余哲. 經(jīng)緯天地. 2015(06)
[3]生物數(shù)據(jù)庫建立與應(yīng)用的研究[J]. 王甜,何惠欣,羅亞彬,張妍,劉秋紅,張善飛. 生物技術(shù)世界. 2015(03)
[4]一種基于信息熵的異常數(shù)據(jù)挖掘算法[J]. 陳玉明,吳克壽,李向軍. 控制與決策. 2013(06)
[5]面向不均衡數(shù)據(jù)集的ISMOTE算法[J]. 許丹丹,王勇,蔡立軍. 計算機(jī)應(yīng)用. 2011(09)
[6]基于聚類融合的不平衡數(shù)據(jù)分類方法[J]. 陳思,郭躬德,陳黎飛. 模式識別與人工智能. 2010(06)
[7]類別不平衡的分類方法及在生物信息學(xué)中的應(yīng)用[J]. 鄒權(quán),郭茂祖,劉揚(yáng),王峻. 計算機(jī)研究與發(fā)展. 2010(08)
[8]帶車輛路線安排的多配送中心選址問題的求解——基于SPSS和遺傳算法[J]. 胡賢滿,張燕,李珍萍. 物流技術(shù). 2010(01)
[9]一種基于核SMOTE的非平衡數(shù)據(jù)集分類方法[J]. 曾志強(qiáng),吳群,廖備水,高濟(jì). 電子學(xué)報. 2009(11)
[10]藥用真菌桑黃(phellinus sp.)抗癌功能的研究進(jìn)展[J]. 王穩(wěn)航,李玉,李蘭會. 現(xiàn)代生物醫(yī)學(xué)進(jìn)展. 2006(10)
博士論文
[1]基于神經(jīng)網(wǎng)絡(luò)的不平衡數(shù)據(jù)分類方法研究[D]. 楊澤平.華東理工大學(xué) 2015
[2]基于基因表達(dá)數(shù)據(jù)的腫瘤分類算法研究[D]. 陸慧娟.中國礦業(yè)大學(xué) 2012
[3]基于數(shù)字化的生物分類鑒定及知識集成研究[D]. 張小斌.浙江大學(xué) 2007
碩士論文
[1]基于少數(shù)類樣本重組的不平衡數(shù)據(jù)分類研究[D]. 李軒.湖南大學(xué) 2016
[2]基于BP神經(jīng)網(wǎng)絡(luò)及其優(yōu)化算法的汽車車速預(yù)測[D]. 謝浩.重慶大學(xué) 2014
[3]基于人工神經(jīng)網(wǎng)絡(luò)的油田開發(fā)指標(biāo)預(yù)測模型及算法研究[D]. 楊婷婷.東北石油大學(xué) 2013
[4]藥用菌桑黃代謝黃酮的調(diào)控研究[D]. 劉偉.中國石油大學(xué)(華東) 2012
[5]桑黃黃酮研究[D]. 劉晨.吉林大學(xué) 2011
[6]BP神經(jīng)網(wǎng)絡(luò)的改進(jìn)研究及應(yīng)用[D]. 劉天舒.東北農(nóng)業(yè)大學(xué) 2011
[7]類別不平衡數(shù)據(jù)的集成學(xué)習(xí)研究[D]. 王曉芹.山東師范大學(xué) 2010
[8]遺傳算法在函數(shù)優(yōu)化中的應(yīng)用研究[D]. 金芬.蘇州大學(xué) 2008
本文編號:2970342
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2970342.html
最近更新
教材專著