基于遺傳算法的文本特征降維方法研究
發(fā)布時間:2021-04-10 05:29
隨著互聯(lián)網(wǎng)的發(fā)展以及挖掘其中數(shù)據(jù)潛在價值的需要,大數(shù)據(jù)和機器學(xué)習(xí)等信息處理技術(shù)也迅速崛起。其中,文本分類技術(shù)更是在輿情分析、主題分類、情感分析、郵件過濾和金融預(yù)測等諸多現(xiàn)實領(lǐng)域發(fā)揮巨大的潛在價值。而文本分類技術(shù)的效果與文本特征選擇有著極其密切的聯(lián)系,為使選擇的文本特征具有良好的文本分類性能及更高的分類效率,本文選擇并改進(jìn)了基于遺傳算法的文本特征降維方法,主要改進(jìn)如下:1、改變了基因群的選取規(guī)則。根據(jù)詞頻-逆文檔頻率算法和互信息算法的優(yōu)點和存在的問題,提出一種多規(guī)則融合的過濾式特征選擇算法,將其用于對原始文本特征的初步選取,形成種群中個體的基因群;2、將個體的生成方式與概率規(guī)則相關(guān)聯(lián)。增加對種群多樣性的關(guān)注度,通過對初代進(jìn)行內(nèi)部種群多樣性和外部種群多樣性的計算,提高起點個體在分類結(jié)果上的表現(xiàn),緩解收斂速度與種群多樣性之間的矛盾關(guān)系,同時縮短出現(xiàn)最優(yōu)個體所需要的繁衍代數(shù);3、對適應(yīng)度函數(shù)添加了維度的影響因子,以更全面的方式衡量個體的外在表現(xiàn);4、對交叉算子和變異算子使用自適應(yīng)的方式,加快種群收斂速度。將傳統(tǒng)遺傳算法和一般過濾式特征選擇算法與改進(jìn)后的遺傳算法進(jìn)行實驗對比,結(jié)果顯示,改進(jìn)過后的...
【文章來源】:中國人民公安大學(xué)北京市
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3.1 兩維空間下的二分類
簡單交叉驗證首先把用來訓(xùn)練模型的數(shù)據(jù)劃為訓(xùn)練部分和驗證部分,使用訓(xùn)練部分中的數(shù)據(jù)形成分類模型,再使用驗證部分中的數(shù)據(jù)測試,最后根據(jù)驗證部分在分類模型上的準(zhǔn)確率,體現(xiàn)此模型的分類能力。優(yōu)點是操作簡單方便,但得到的結(jié)果與訓(xùn)練集和驗證集的劃分有很大關(guān)系,得到的結(jié)果具有不確定性,評價能力不穩(wěn)定。簡單交叉驗證的示意圖如圖3.2所示。(2)k折交叉驗證
留一交叉驗證與k折交叉驗證的思想相似,只是把驗證部分中數(shù)據(jù)總量轉(zhuǎn)換成最小數(shù)量單位,將其余數(shù)據(jù)作為訓(xùn)練集,若數(shù)據(jù)總數(shù)量為N,則需要訓(xùn)練N次得到N個分類模型,以所有分類模型在驗證集上得到的正確率的算術(shù)平均數(shù)作為評價值。其長處在于訓(xùn)練模型時采用的數(shù)據(jù)比例大,最接近原始數(shù)據(jù)集的分布,與k折交叉驗證的缺點相同,提高了計算成本。3.4.2 召回率和精確率
本文編號:3129051
【文章來源】:中國人民公安大學(xué)北京市
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3.1 兩維空間下的二分類
簡單交叉驗證首先把用來訓(xùn)練模型的數(shù)據(jù)劃為訓(xùn)練部分和驗證部分,使用訓(xùn)練部分中的數(shù)據(jù)形成分類模型,再使用驗證部分中的數(shù)據(jù)測試,最后根據(jù)驗證部分在分類模型上的準(zhǔn)確率,體現(xiàn)此模型的分類能力。優(yōu)點是操作簡單方便,但得到的結(jié)果與訓(xùn)練集和驗證集的劃分有很大關(guān)系,得到的結(jié)果具有不確定性,評價能力不穩(wěn)定。簡單交叉驗證的示意圖如圖3.2所示。(2)k折交叉驗證
留一交叉驗證與k折交叉驗證的思想相似,只是把驗證部分中數(shù)據(jù)總量轉(zhuǎn)換成最小數(shù)量單位,將其余數(shù)據(jù)作為訓(xùn)練集,若數(shù)據(jù)總數(shù)量為N,則需要訓(xùn)練N次得到N個分類模型,以所有分類模型在驗證集上得到的正確率的算術(shù)平均數(shù)作為評價值。其長處在于訓(xùn)練模型時采用的數(shù)據(jù)比例大,最接近原始數(shù)據(jù)集的分布,與k折交叉驗證的缺點相同,提高了計算成本。3.4.2 召回率和精確率
本文編號:3129051
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3129051.html
最近更新
教材專著