極大不相關(guān)多元邏輯回歸及其在大規(guī)模文本分類中的應(yīng)用
發(fā)布時(shí)間:2021-12-10 06:29
隨著數(shù)據(jù)規(guī)模的不斷增大,普通的多元邏輯回歸已經(jīng)不能夠滿足大數(shù)據(jù)處理的需求。其一,大規(guī)模數(shù)據(jù)中通常含有較多重復(fù)冗余的信息,也就是說多個(gè)不同的類別之間可能包含相似或相同的特征,這些特征將嚴(yán)重影響分類算法的決策,最終導(dǎo)致錯(cuò)誤的分類結(jié)果。其二,隨著數(shù)據(jù)規(guī)模的增大,計(jì)算所需的資源已經(jīng)超過單一機(jī)器的極限,導(dǎo)致算法訓(xùn)練時(shí)間過長(zhǎng),或是根本無法進(jìn)行。針對(duì)數(shù)據(jù)冗余問題,本文提出了一種極大不相關(guān)多元邏輯回歸(Maximal Uncorrelated Multinomial Logistic Regression,MUMLR)分類模型。其主要思想是通過增加極大不相關(guān)正則項(xiàng)來降低數(shù)據(jù)中共同信息的權(quán)重,盡量保留更多不相關(guān)、有判別的信息。此外,鑒于多元邏輯回歸與神經(jīng)網(wǎng)絡(luò)的關(guān)系,本文將“極大不相關(guān)”在多元邏輯回歸中取得的成果應(yīng)用到了神經(jīng)網(wǎng)絡(luò)中,并提出了極大不相關(guān)神經(jīng)網(wǎng)絡(luò)(Maximal Uncorrelated Neural Networks,MUNN)。極大不相關(guān)神經(jīng)網(wǎng)絡(luò)同時(shí)具備了極大不相關(guān)多元邏輯回歸算法的高魯棒性和神經(jīng)網(wǎng)絡(luò)模型強(qiáng)大的擬合能力,使得該算法具有廣闊的應(yīng)用前景。針對(duì)數(shù)據(jù)規(guī)模超出單一機(jī)器處理極限的問題,...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
MNIST數(shù)據(jù)集中手寫體1和7
22(c) (d)圖 3.3 不同算法在各公開數(shù)據(jù)集上的收斂性(a) (b)0246810121 2 3 4 5 6 7 8 9 10NormMUMLR WDMLR SMLR02468101 3 5 7 9 11 13 15 17 19NormMUMLR WDMLR SMLR
(c) RCV1 (d) Realsim圖 4.1 一致性極大不相關(guān)多元邏輯回歸識(shí)別率根據(jù)圖 4.1-4.2 可知,隨著數(shù)據(jù)規(guī)模的增大,串行算法的計(jì)算時(shí)間顯著增用一致性極大不相關(guān)多元邏輯回歸可以顯著提高算法的運(yùn)行效率,并能在一度上提高算法的識(shí)別率。由圖 4.1(a)和圖 4.1(b)可以看出,當(dāng)數(shù)據(jù)分塊不太多的情況下,算法的識(shí)著分塊的個(gè)數(shù)線性增高,當(dāng)數(shù)據(jù)分塊個(gè)數(shù)過大時(shí),算法的識(shí)別率開始出現(xiàn)下成這種結(jié)果的主要原因是,當(dāng)數(shù)據(jù)塊數(shù)不是很多的情況下,每個(gè)節(jié)點(diǎn)都包含數(shù)據(jù)塊,這意味著每個(gè)節(jié)點(diǎn)都能夠得到充分的訓(xùn)練。當(dāng)數(shù)據(jù)塊數(shù)繼續(xù)增大時(shí)節(jié)點(diǎn)包含的數(shù)據(jù)逐漸減少,模型的泛化性能必然降低。對(duì)于圖 4.1(c)和圖 4.1(于數(shù)據(jù)集規(guī)模較大,雖然劃分為較多塊數(shù),每個(gè)節(jié)點(diǎn)仍然含有較多的數(shù)據(jù)進(jìn),因此在實(shí)驗(yàn)中,算法的識(shí)別率呈持續(xù)上升的趨勢(shì)。
【參考文獻(xiàn)】:
期刊論文
[1]利用年際增量法對(duì)西北東部汛期降水的定量預(yù)測(cè)研究[J]. 呂廷珍,鄧少格,胡軼佳,張凱. 干旱氣象. 2015(03)
本文編號(hào):3532074
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
MNIST數(shù)據(jù)集中手寫體1和7
22(c) (d)圖 3.3 不同算法在各公開數(shù)據(jù)集上的收斂性(a) (b)0246810121 2 3 4 5 6 7 8 9 10NormMUMLR WDMLR SMLR02468101 3 5 7 9 11 13 15 17 19NormMUMLR WDMLR SMLR
(c) RCV1 (d) Realsim圖 4.1 一致性極大不相關(guān)多元邏輯回歸識(shí)別率根據(jù)圖 4.1-4.2 可知,隨著數(shù)據(jù)規(guī)模的增大,串行算法的計(jì)算時(shí)間顯著增用一致性極大不相關(guān)多元邏輯回歸可以顯著提高算法的運(yùn)行效率,并能在一度上提高算法的識(shí)別率。由圖 4.1(a)和圖 4.1(b)可以看出,當(dāng)數(shù)據(jù)分塊不太多的情況下,算法的識(shí)著分塊的個(gè)數(shù)線性增高,當(dāng)數(shù)據(jù)分塊個(gè)數(shù)過大時(shí),算法的識(shí)別率開始出現(xiàn)下成這種結(jié)果的主要原因是,當(dāng)數(shù)據(jù)塊數(shù)不是很多的情況下,每個(gè)節(jié)點(diǎn)都包含數(shù)據(jù)塊,這意味著每個(gè)節(jié)點(diǎn)都能夠得到充分的訓(xùn)練。當(dāng)數(shù)據(jù)塊數(shù)繼續(xù)增大時(shí)節(jié)點(diǎn)包含的數(shù)據(jù)逐漸減少,模型的泛化性能必然降低。對(duì)于圖 4.1(c)和圖 4.1(于數(shù)據(jù)集規(guī)模較大,雖然劃分為較多塊數(shù),每個(gè)節(jié)點(diǎn)仍然含有較多的數(shù)據(jù)進(jìn),因此在實(shí)驗(yàn)中,算法的識(shí)別率呈持續(xù)上升的趨勢(shì)。
【參考文獻(xiàn)】:
期刊論文
[1]利用年際增量法對(duì)西北東部汛期降水的定量預(yù)測(cè)研究[J]. 呂廷珍,鄧少格,胡軼佳,張凱. 干旱氣象. 2015(03)
本文編號(hào):3532074
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3532074.html
最近更新
教材專著