基于改進(jìn)的Boosting的跨語(yǔ)言情感分類方法研究
發(fā)布時(shí)間:2021-08-28 04:59
情感分類旨在利用計(jì)算機(jī)技術(shù)充分挖掘和判斷文本發(fā)布者的情感態(tài)度,為決策者提供有價(jià)值的參考信息。但相關(guān)技術(shù)高度依賴訓(xùn)練語(yǔ)料的質(zhì)量和數(shù)量,而國(guó)內(nèi)外有效的高質(zhì)量分析語(yǔ)料、情感詞典資源等分布不均的現(xiàn)狀使得跨語(yǔ)言情感分類研究應(yīng)運(yùn)而生。研究者們對(duì)跨語(yǔ)言情感分類技術(shù)做了很多努力,但仍存在如下問(wèn)題:實(shí)現(xiàn)語(yǔ)言映射時(shí)忽略了詞語(yǔ)對(duì)所在語(yǔ)境和所屬領(lǐng)域的依賴性;主題遷移和翻譯錯(cuò)誤可能會(huì)導(dǎo)致數(shù)據(jù)分布存在差異;將源語(yǔ)言實(shí)例全部應(yīng)用于訓(xùn)練分類器,這些源實(shí)例可能會(huì)不同于目標(biāo)語(yǔ)言的分布。針對(duì)上述現(xiàn)有研究存在的問(wèn)題,本文的研究工作主要包括以下內(nèi)容:1)將遷移學(xué)習(xí)技術(shù)與Boosting算法相結(jié)合,提出ClAdaBoost算法并應(yīng)用于跨語(yǔ)言情感分類研究中。首先在由源語(yǔ)言和目標(biāo)語(yǔ)言組成的聯(lián)合訓(xùn)練集上訓(xùn)練獲得初始弱分類器,然后根據(jù)在目標(biāo)語(yǔ)言訓(xùn)練集上計(jì)算的錯(cuò)誤率對(duì)樣本權(quán)重進(jìn)行更新,重新訓(xùn)練獲得新的弱分類器,如此迭代,最后將多個(gè)弱分類器按照一定的規(guī)則相結(jié)合,從而構(gòu)造了一個(gè)對(duì)目標(biāo)語(yǔ)言友好的強(qiáng)分類器。2)在上述改進(jìn)算法的基礎(chǔ)上提出ClKAdaBoost算法,通過(guò)引入K近鄰算法對(duì)源語(yǔ)言訓(xùn)練實(shí)例進(jìn)行篩選。由于在上述改進(jìn)的Boosting算法(C...
【文章來(lái)源】:河北工業(yè)大學(xué)天津市 211工程院校
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于機(jī)器學(xué)習(xí)方法的情感分類過(guò)程
基于改進(jìn)的Boosting的跨語(yǔ)言情感分類方法研究12分類算法當(dāng)然是情感分類問(wèn)題中最為關(guān)鍵的內(nèi)容,常用的有支持向量機(jī)、樸素貝葉斯分類器、最大熵分類器、K近鄰分類器、決策樹分類器等,下面介紹在情感分類中主要使用的分類器。支持向量機(jī)(SupportVectorMachine)主要應(yīng)用于二元模式分類問(wèn)題,可以對(duì)線性和非線性任務(wù)進(jìn)行分類。對(duì)線性分類問(wèn)題,通過(guò)尋求最優(yōu)超平面來(lái)解決,如圖2.2所示。圖2.2最優(yōu)分離超平面與支持向量圖2.2中,方形點(diǎn)和圓形點(diǎn)代表兩類樣本,H為分類線,H1、H2分別為過(guò)各類中離分類線最近的樣本且平行于分類線的直線,H1、H2上的點(diǎn)(xi,yi)稱為支持向量,它們之間的距離叫做分類間隔(margin)。支持向量與紅線分類超平面的間隔距離為1w。對(duì)非線性分類任務(wù),一般使用核函數(shù)將其轉(zhuǎn)換為線性任務(wù)來(lái)解決。最初利用非線性映射將原來(lái)的低維輸入空間映射到一個(gè)高維特征空間,接著尋求最優(yōu)超平面。這里的核函數(shù)相當(dāng)于映射模型。SVM對(duì)文本二分類有較好的分類效果,性能也較穩(wěn)定,分隔面模式很好地消除了特征繁復(fù)、過(guò)擬合等成分的影響。但收斂速度較慢,因此必定占用大量的存儲(chǔ)空間和消耗較高的計(jì)算成本,導(dǎo)致在大數(shù)據(jù)集上的應(yīng)用較少。
基于改進(jìn)的Boosting的跨語(yǔ)言情感分類方法研究14圖2.3決策樹分類過(guò)程KNN分類器將在第四章詳細(xì)介紹。6)分類性能評(píng)估性能評(píng)估是為了評(píng)估分類器的性能。常用的評(píng)估標(biāo)準(zhǔn)有查準(zhǔn)率(Precision)、査全率(Recall)、F-Measure、Roc曲線等。下表反映了在二分類問(wèn)題中某一文本關(guān)于實(shí)際類別與分類器預(yù)測(cè)類別的關(guān)系,如表2.1所示。表2.1文本實(shí)際與預(yù)測(cè)類別表實(shí)際屬于類的文本數(shù)實(shí)際不屬于類的文本數(shù)分類器判別為的文本數(shù)ab分類器判別不為的文本數(shù)cd查準(zhǔn)率p是指在所有被預(yù)測(cè)為類別ic的文本中,真正為類別ic的文本數(shù)量。其計(jì)算公式如下:apab(2.14)查全率r是指在真正類別為ic的全部文本數(shù)中,被預(yù)測(cè)為ic的文本數(shù)。其計(jì)算公式如下:arac(2.15)由公式(2.14)和(2.15)可以看出,查準(zhǔn)率和查全率不同,分別表示分類器的準(zhǔn)確度和完備度。當(dāng)然希望訓(xùn)練出來(lái)的分類器能夠既準(zhǔn)確又完備,但是實(shí)驗(yàn)證明,兩者之間
本文編號(hào):3367844
【文章來(lái)源】:河北工業(yè)大學(xué)天津市 211工程院校
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于機(jī)器學(xué)習(xí)方法的情感分類過(guò)程
基于改進(jìn)的Boosting的跨語(yǔ)言情感分類方法研究12分類算法當(dāng)然是情感分類問(wèn)題中最為關(guān)鍵的內(nèi)容,常用的有支持向量機(jī)、樸素貝葉斯分類器、最大熵分類器、K近鄰分類器、決策樹分類器等,下面介紹在情感分類中主要使用的分類器。支持向量機(jī)(SupportVectorMachine)主要應(yīng)用于二元模式分類問(wèn)題,可以對(duì)線性和非線性任務(wù)進(jìn)行分類。對(duì)線性分類問(wèn)題,通過(guò)尋求最優(yōu)超平面來(lái)解決,如圖2.2所示。圖2.2最優(yōu)分離超平面與支持向量圖2.2中,方形點(diǎn)和圓形點(diǎn)代表兩類樣本,H為分類線,H1、H2分別為過(guò)各類中離分類線最近的樣本且平行于分類線的直線,H1、H2上的點(diǎn)(xi,yi)稱為支持向量,它們之間的距離叫做分類間隔(margin)。支持向量與紅線分類超平面的間隔距離為1w。對(duì)非線性分類任務(wù),一般使用核函數(shù)將其轉(zhuǎn)換為線性任務(wù)來(lái)解決。最初利用非線性映射將原來(lái)的低維輸入空間映射到一個(gè)高維特征空間,接著尋求最優(yōu)超平面。這里的核函數(shù)相當(dāng)于映射模型。SVM對(duì)文本二分類有較好的分類效果,性能也較穩(wěn)定,分隔面模式很好地消除了特征繁復(fù)、過(guò)擬合等成分的影響。但收斂速度較慢,因此必定占用大量的存儲(chǔ)空間和消耗較高的計(jì)算成本,導(dǎo)致在大數(shù)據(jù)集上的應(yīng)用較少。
基于改進(jìn)的Boosting的跨語(yǔ)言情感分類方法研究14圖2.3決策樹分類過(guò)程KNN分類器將在第四章詳細(xì)介紹。6)分類性能評(píng)估性能評(píng)估是為了評(píng)估分類器的性能。常用的評(píng)估標(biāo)準(zhǔn)有查準(zhǔn)率(Precision)、査全率(Recall)、F-Measure、Roc曲線等。下表反映了在二分類問(wèn)題中某一文本關(guān)于實(shí)際類別與分類器預(yù)測(cè)類別的關(guān)系,如表2.1所示。表2.1文本實(shí)際與預(yù)測(cè)類別表實(shí)際屬于類的文本數(shù)實(shí)際不屬于類的文本數(shù)分類器判別為的文本數(shù)ab分類器判別不為的文本數(shù)cd查準(zhǔn)率p是指在所有被預(yù)測(cè)為類別ic的文本中,真正為類別ic的文本數(shù)量。其計(jì)算公式如下:apab(2.14)查全率r是指在真正類別為ic的全部文本數(shù)中,被預(yù)測(cè)為ic的文本數(shù)。其計(jì)算公式如下:arac(2.15)由公式(2.14)和(2.15)可以看出,查準(zhǔn)率和查全率不同,分別表示分類器的準(zhǔn)確度和完備度。當(dāng)然希望訓(xùn)練出來(lái)的分類器能夠既準(zhǔn)確又完備,但是實(shí)驗(yàn)證明,兩者之間
本文編號(hào):3367844
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3367844.html
最近更新
教材專著