天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于改進(jìn)的Boosting的跨語(yǔ)言情感分類(lèi)方法研究

發(fā)布時(shí)間:2021-08-28 04:59
  情感分類(lèi)旨在利用計(jì)算機(jī)技術(shù)充分挖掘和判斷文本發(fā)布者的情感態(tài)度,為決策者提供有價(jià)值的參考信息。但相關(guān)技術(shù)高度依賴(lài)訓(xùn)練語(yǔ)料的質(zhì)量和數(shù)量,而國(guó)內(nèi)外有效的高質(zhì)量分析語(yǔ)料、情感詞典資源等分布不均的現(xiàn)狀使得跨語(yǔ)言情感分類(lèi)研究應(yīng)運(yùn)而生。研究者們對(duì)跨語(yǔ)言情感分類(lèi)技術(shù)做了很多努力,但仍存在如下問(wèn)題:實(shí)現(xiàn)語(yǔ)言映射時(shí)忽略了詞語(yǔ)對(duì)所在語(yǔ)境和所屬領(lǐng)域的依賴(lài)性;主題遷移和翻譯錯(cuò)誤可能會(huì)導(dǎo)致數(shù)據(jù)分布存在差異;將源語(yǔ)言實(shí)例全部應(yīng)用于訓(xùn)練分類(lèi)器,這些源實(shí)例可能會(huì)不同于目標(biāo)語(yǔ)言的分布。針對(duì)上述現(xiàn)有研究存在的問(wèn)題,本文的研究工作主要包括以下內(nèi)容:1)將遷移學(xué)習(xí)技術(shù)與Boosting算法相結(jié)合,提出ClAdaBoost算法并應(yīng)用于跨語(yǔ)言情感分類(lèi)研究中。首先在由源語(yǔ)言和目標(biāo)語(yǔ)言組成的聯(lián)合訓(xùn)練集上訓(xùn)練獲得初始弱分類(lèi)器,然后根據(jù)在目標(biāo)語(yǔ)言訓(xùn)練集上計(jì)算的錯(cuò)誤率對(duì)樣本權(quán)重進(jìn)行更新,重新訓(xùn)練獲得新的弱分類(lèi)器,如此迭代,最后將多個(gè)弱分類(lèi)器按照一定的規(guī)則相結(jié)合,從而構(gòu)造了一個(gè)對(duì)目標(biāo)語(yǔ)言友好的強(qiáng)分類(lèi)器。2)在上述改進(jìn)算法的基礎(chǔ)上提出ClKAdaBoost算法,通過(guò)引入K近鄰算法對(duì)源語(yǔ)言訓(xùn)練實(shí)例進(jìn)行篩選。由于在上述改進(jìn)的Boosting算法(C... 

【文章來(lái)源】:河北工業(yè)大學(xué)天津市 211工程院校

【文章頁(yè)數(shù)】:61 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于改進(jìn)的Boosting的跨語(yǔ)言情感分類(lèi)方法研究


基于機(jī)器學(xué)習(xí)方法的情感分類(lèi)過(guò)程

支持向量,超平面,分類(lèi)器


基于改進(jìn)的Boosting的跨語(yǔ)言情感分類(lèi)方法研究12分類(lèi)算法當(dāng)然是情感分類(lèi)問(wèn)題中最為關(guān)鍵的內(nèi)容,常用的有支持向量機(jī)、樸素貝葉斯分類(lèi)器、最大熵分類(lèi)器、K近鄰分類(lèi)器、決策樹(shù)分類(lèi)器等,下面介紹在情感分類(lèi)中主要使用的分類(lèi)器。支持向量機(jī)(SupportVectorMachine)主要應(yīng)用于二元模式分類(lèi)問(wèn)題,可以對(duì)線(xiàn)性和非線(xiàn)性任務(wù)進(jìn)行分類(lèi)。對(duì)線(xiàn)性分類(lèi)問(wèn)題,通過(guò)尋求最優(yōu)超平面來(lái)解決,如圖2.2所示。圖2.2最優(yōu)分離超平面與支持向量圖2.2中,方形點(diǎn)和圓形點(diǎn)代表兩類(lèi)樣本,H為分類(lèi)線(xiàn),H1、H2分別為過(guò)各類(lèi)中離分類(lèi)線(xiàn)最近的樣本且平行于分類(lèi)線(xiàn)的直線(xiàn),H1、H2上的點(diǎn)(xi,yi)稱(chēng)為支持向量,它們之間的距離叫做分類(lèi)間隔(margin)。支持向量與紅線(xiàn)分類(lèi)超平面的間隔距離為1w。對(duì)非線(xiàn)性分類(lèi)任務(wù),一般使用核函數(shù)將其轉(zhuǎn)換為線(xiàn)性任務(wù)來(lái)解決。最初利用非線(xiàn)性映射將原來(lái)的低維輸入空間映射到一個(gè)高維特征空間,接著尋求最優(yōu)超平面。這里的核函數(shù)相當(dāng)于映射模型。SVM對(duì)文本二分類(lèi)有較好的分類(lèi)效果,性能也較穩(wěn)定,分隔面模式很好地消除了特征繁復(fù)、過(guò)擬合等成分的影響。但收斂速度較慢,因此必定占用大量的存儲(chǔ)空間和消耗較高的計(jì)算成本,導(dǎo)致在大數(shù)據(jù)集上的應(yīng)用較少。

過(guò)程圖,決策樹(shù),過(guò)程,文本


基于改進(jìn)的Boosting的跨語(yǔ)言情感分類(lèi)方法研究14圖2.3決策樹(shù)分類(lèi)過(guò)程KNN分類(lèi)器將在第四章詳細(xì)介紹。6)分類(lèi)性能評(píng)估性能評(píng)估是為了評(píng)估分類(lèi)器的性能。常用的評(píng)估標(biāo)準(zhǔn)有查準(zhǔn)率(Precision)、査全率(Recall)、F-Measure、Roc曲線(xiàn)等。下表反映了在二分類(lèi)問(wèn)題中某一文本關(guān)于實(shí)際類(lèi)別與分類(lèi)器預(yù)測(cè)類(lèi)別的關(guān)系,如表2.1所示。表2.1文本實(shí)際與預(yù)測(cè)類(lèi)別表實(shí)際屬于類(lèi)的文本數(shù)實(shí)際不屬于類(lèi)的文本數(shù)分類(lèi)器判別為的文本數(shù)ab分類(lèi)器判別不為的文本數(shù)cd查準(zhǔn)率p是指在所有被預(yù)測(cè)為類(lèi)別ic的文本中,真正為類(lèi)別ic的文本數(shù)量。其計(jì)算公式如下:apab(2.14)查全率r是指在真正類(lèi)別為ic的全部文本數(shù)中,被預(yù)測(cè)為ic的文本數(shù)。其計(jì)算公式如下:arac(2.15)由公式(2.14)和(2.15)可以看出,查準(zhǔn)率和查全率不同,分別表示分類(lèi)器的準(zhǔn)確度和完備度。當(dāng)然希望訓(xùn)練出來(lái)的分類(lèi)器能夠既準(zhǔn)確又完備,但是實(shí)驗(yàn)證明,兩者之間


本文編號(hào):3367844

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3367844.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)c1ee5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com