由粗到精和特征篩選的精確回歸預(yù)測(cè)方法及其在二語習(xí)得中的應(yīng)用
發(fā)布時(shí)間:2021-09-24 13:13
針對(duì)數(shù)據(jù)分布不均勻且因素多而容易造成預(yù)測(cè)不精確的問題,提出一種結(jié)合由粗到精與特征篩選的精確回歸預(yù)測(cè)方法.首先,由于數(shù)據(jù)分布不均勻且預(yù)測(cè)區(qū)間大,直接預(yù)測(cè)難以精確地?cái)M合,提出一種由粗到精的預(yù)測(cè)方法,并使用決策樹進(jìn)行粗分類,預(yù)測(cè)目標(biāo)所在的子區(qū)間,然后在子區(qū)間內(nèi)實(shí)現(xiàn)精確的回歸預(yù)測(cè).其次,如果數(shù)據(jù)量少且特征因素多會(huì)引起過擬合,而且部分冗余特征會(huì)影響模型的預(yù)測(cè)精度,因此,提出一種基于特征篩選的回歸預(yù)測(cè)方法以提高預(yù)測(cè)精度.在大學(xué)生的英語成績與其人格因素?cái)?shù)據(jù)集上進(jìn)行相關(guān)實(shí)驗(yàn),結(jié)果證明了由粗到精和特征篩選方法與傳統(tǒng)回歸模型相比精度更高且穩(wěn)定性更好.通過提出的人格因素與英語成績回歸預(yù)測(cè)模型,可以制定合理的培養(yǎng)方案彌補(bǔ)學(xué)生人格因素中的短板,提升學(xué)生的自身競(jìng)爭(zhēng)能力,從而更好地推動(dòng)中國的英語教育.
【文章來源】:蘭州理工大學(xué)學(xué)報(bào). 2020,46(06)北大核心
【文章頁數(shù)】:8 頁
【部分圖文】:
算法整體框架圖
在分類問題中,表示基于特征對(duì)實(shí)例進(jìn)行分類的過程,是定義在特征空間與類空間上的條件概率分布,具有高可讀性且分類速度快.學(xué)習(xí)時(shí),利用訓(xùn)練數(shù)據(jù),根據(jù)損失函數(shù)最小化的原則建立決策樹模型;預(yù)測(cè)時(shí),對(duì)新的數(shù)據(jù),沿著樹結(jié)構(gòu)根據(jù)特征進(jìn)行下行判斷,得到分類結(jié)果.決策樹分類模型如圖2所示.本文使用C4.5決策樹算法對(duì)目標(biāo)子區(qū)間進(jìn)行預(yù)測(cè),該算法從根節(jié)點(diǎn)開始,對(duì)節(jié)點(diǎn)計(jì)算所有可能特征的信息增益比(information gain ratio),選擇信息增益比最大的特征作為節(jié)點(diǎn),由該特征的不同取值建立子節(jié)點(diǎn),再對(duì)子節(jié)點(diǎn)遞歸使用以上方法,構(gòu)建決策樹.
本節(jié)通過引入Pearson相關(guān)系數(shù)來度量自變量與因變量之間的相關(guān)性,由此進(jìn)行特征篩選來提高數(shù)據(jù)的預(yù)測(cè)精度,尤其對(duì)含有較多特征的數(shù)據(jù)具有較好效果.基于Pearson特征篩選的回歸預(yù)測(cè)模型的流程圖如圖3所示.首先計(jì)算特征與目標(biāo)的Pearson相關(guān)性,得到一組關(guān)于特征與目標(biāo)T的Pearson相關(guān)系數(shù)r(Ai,T),按照一定篩選原則P,如 | r (A i ,Τ) |>Ρ(0≤Ρ≤1) 對(duì)特征進(jìn)行篩選.給定n個(gè)數(shù)據(jù)樣本點(diǎn){(x1,y1),(x2,y2),…,(xn,yn)},其中每個(gè)xi由m個(gè)特征屬性(Ai1,Ai2,…,Aim)描述實(shí)例,Aij表示樣本xi的第j個(gè)屬性上的取值.如果特征Ai(i<m)的相關(guān)系數(shù) | r (A i ,Τ) |>Ρ ,則保留此特征,反之則舍棄該特征.通過這樣的篩選方法可以得到一個(gè)新的特征集,該特征集是原始數(shù)據(jù)特征集的子集.該方法通過篩掉一些極弱相關(guān)和無關(guān)特征,減少了模型的計(jì)算復(fù)雜度,使模型可以從數(shù)據(jù)信息中學(xué)習(xí)到更多的有效信息.2 實(shí)驗(yàn)結(jié)果及其分析
【參考文獻(xiàn)】:
期刊論文
[1]大學(xué)英語四級(jí)考試成績預(yù)測(cè)模型構(gòu)建與實(shí)證分析[J]. 趙光,王栓宏,孫珩. 中國西部科技. 2015(04)
[2]基于數(shù)據(jù)挖掘的英語四級(jí)成績分析與預(yù)測(cè)[J]. 王士虎,呂紀(jì)榮,馮波. 電腦知識(shí)與技術(shù). 2014(03)
[3]非英語專業(yè)大學(xué)生CET4成績影響因素的結(jié)構(gòu)模型[J]. 答會(huì)明. 心理科學(xué). 2007(03)
[4]大學(xué)生心理健康狀況及其影響因素的逐步回歸分析[J]. 范存欣,馬紹斌,林漢生,王惠蘇. 中國學(xué)校衛(wèi)生. 2001(03)
本文編號(hào):3407818
【文章來源】:蘭州理工大學(xué)學(xué)報(bào). 2020,46(06)北大核心
【文章頁數(shù)】:8 頁
【部分圖文】:
算法整體框架圖
在分類問題中,表示基于特征對(duì)實(shí)例進(jìn)行分類的過程,是定義在特征空間與類空間上的條件概率分布,具有高可讀性且分類速度快.學(xué)習(xí)時(shí),利用訓(xùn)練數(shù)據(jù),根據(jù)損失函數(shù)最小化的原則建立決策樹模型;預(yù)測(cè)時(shí),對(duì)新的數(shù)據(jù),沿著樹結(jié)構(gòu)根據(jù)特征進(jìn)行下行判斷,得到分類結(jié)果.決策樹分類模型如圖2所示.本文使用C4.5決策樹算法對(duì)目標(biāo)子區(qū)間進(jìn)行預(yù)測(cè),該算法從根節(jié)點(diǎn)開始,對(duì)節(jié)點(diǎn)計(jì)算所有可能特征的信息增益比(information gain ratio),選擇信息增益比最大的特征作為節(jié)點(diǎn),由該特征的不同取值建立子節(jié)點(diǎn),再對(duì)子節(jié)點(diǎn)遞歸使用以上方法,構(gòu)建決策樹.
本節(jié)通過引入Pearson相關(guān)系數(shù)來度量自變量與因變量之間的相關(guān)性,由此進(jìn)行特征篩選來提高數(shù)據(jù)的預(yù)測(cè)精度,尤其對(duì)含有較多特征的數(shù)據(jù)具有較好效果.基于Pearson特征篩選的回歸預(yù)測(cè)模型的流程圖如圖3所示.首先計(jì)算特征與目標(biāo)的Pearson相關(guān)性,得到一組關(guān)于特征與目標(biāo)T的Pearson相關(guān)系數(shù)r(Ai,T),按照一定篩選原則P,如 | r (A i ,Τ) |>Ρ(0≤Ρ≤1) 對(duì)特征進(jìn)行篩選.給定n個(gè)數(shù)據(jù)樣本點(diǎn){(x1,y1),(x2,y2),…,(xn,yn)},其中每個(gè)xi由m個(gè)特征屬性(Ai1,Ai2,…,Aim)描述實(shí)例,Aij表示樣本xi的第j個(gè)屬性上的取值.如果特征Ai(i<m)的相關(guān)系數(shù) | r (A i ,Τ) |>Ρ ,則保留此特征,反之則舍棄該特征.通過這樣的篩選方法可以得到一個(gè)新的特征集,該特征集是原始數(shù)據(jù)特征集的子集.該方法通過篩掉一些極弱相關(guān)和無關(guān)特征,減少了模型的計(jì)算復(fù)雜度,使模型可以從數(shù)據(jù)信息中學(xué)習(xí)到更多的有效信息.2 實(shí)驗(yàn)結(jié)果及其分析
【參考文獻(xiàn)】:
期刊論文
[1]大學(xué)英語四級(jí)考試成績預(yù)測(cè)模型構(gòu)建與實(shí)證分析[J]. 趙光,王栓宏,孫珩. 中國西部科技. 2015(04)
[2]基于數(shù)據(jù)挖掘的英語四級(jí)成績分析與預(yù)測(cè)[J]. 王士虎,呂紀(jì)榮,馮波. 電腦知識(shí)與技術(shù). 2014(03)
[3]非英語專業(yè)大學(xué)生CET4成績影響因素的結(jié)構(gòu)模型[J]. 答會(huì)明. 心理科學(xué). 2007(03)
[4]大學(xué)生心理健康狀況及其影響因素的逐步回歸分析[J]. 范存欣,馬紹斌,林漢生,王惠蘇. 中國學(xué)校衛(wèi)生. 2001(03)
本文編號(hào):3407818
本文鏈接:http://sikaile.net/wenyilunwen/yuyanxuelw/3407818.html
最近更新
教材專著