天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于半監(jiān)督學(xué)習(xí)的情感分類方法研究

發(fā)布時(shí)間:2024-02-21 16:37
  隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,越來(lái)越多的用戶熱衷于在網(wǎng)絡(luò)上對(duì)產(chǎn)品、服務(wù)、時(shí)事等發(fā)表評(píng)論。如果能自動(dòng)挖掘出這些主觀性文本中蘊(yùn)含的情感傾向,對(duì)個(gè)人、企業(yè)、政府等有著巨大的應(yīng)用價(jià)值和經(jīng)濟(jì)價(jià)值。文本情感分類技術(shù)正是解決這一問(wèn)題最有效的工具。半監(jiān)督學(xué)習(xí)作為一種普適性的機(jī)器學(xué)習(xí)技術(shù),能夠充分利用未標(biāo)注樣本提升分類性能。針對(duì)文本情感分類很多場(chǎng)景面臨標(biāo)注語(yǔ)料不足、而標(biāo)注樣本費(fèi)時(shí)費(fèi)力的情況,本文主要圍繞半監(jiān)督學(xué)習(xí)情感分類展開(kāi)研究。本文主要?jiǎng)?chuàng)新點(diǎn)如下:一、本文提出了基于分層抽樣隨機(jī)子空間的協(xié)同訓(xùn)練情感分類算法。該算法采用分層抽樣的方法構(gòu)建子空間,改進(jìn)了將隨機(jī)特征子空間半監(jiān)督學(xué)習(xí)算法直接應(yīng)用于文本情感分類中可能會(huì)存在部分子空間不包含強(qiáng)相關(guān)屬性的缺點(diǎn),算法在確保子空間多樣性的前提下,有效提升了每個(gè)子空間的充分性。實(shí)驗(yàn)表明,本文算法的分類效果要優(yōu)于基于隨機(jī)特征子空間的半監(jiān)督學(xué)習(xí)算法以及其他部分常用的半監(jiān)督學(xué)習(xí)算法。二、本文提出了基于多樣性與高置信度估計(jì)的半監(jiān)督情感分類算法。該算法結(jié)合樣本的后驗(yàn)概率和先驗(yàn)分布信息,改善了增量式自訓(xùn)練算法在迭代訓(xùn)練的過(guò)程中易引入誤標(biāo)記樣本的問(wèn)題。其次,為了避免引入的樣本分布集中會(huì)造成數(shù)...

【文章頁(yè)數(shù)】:70 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖2初始標(biāo)注樣本5%時(shí)不同半肚$分類方法情啟分類性筑比較

圖2初始標(biāo)注樣本5%時(shí)不同半肚$分類方法情啟分類性筑比較

3期高偉等:基于集成學(xué)習(xí)的半監(jiān)督情感分類方法研究算法流程參見(jiàn)3.2.1節(jié)。(3)LabelPropagation:標(biāo)簽傳播算法,具體算法流程參見(jiàn)3.2.2節(jié)。(4)我們的方法:對(duì)每個(gè)子半監(jiān)督學(xué)習(xí)算法進(jìn)行一致性標(biāo)簽融合,選擇標(biāo)注一致的未標(biāo)注樣本更新初始標(biāo)注樣本,即本文重點(diǎn)提出的方法....


圖2-1向量空間模型圖??文檔的向量空間表示的主要任務(wù)是為特征向量找到合適的編碼

圖2-1向量空間模型圖??文檔的向量空間表示的主要任務(wù)是為特征向量找到合適的編碼

?.)?=?(&.?:wu,...,g:ww.),其中;表示文檔中的特征,w表示特征對(duì)應(yīng)的權(quán)重。在??^維向量空間中,用特征項(xiàng)來(lái)代表坐標(biāo)系,特征權(quán)重(%,,...,>〇代表??坐標(biāo)值,因此,文檔d可以由《維數(shù)值特征向量OpWj,...,w?)表示,如圖2-1所??7Jn?〇??,....


圖2-2?SVM基本原理圖??假設(shè)給定訓(xùn)練樣本集合T?=?%),(x2,%),...,(%,}^)丨,其中x,+?ef,??

圖2-2?SVM基本原理圖??假設(shè)給定訓(xùn)練樣本集合T?=?%),(x2,%),...,(%,}^)丨,其中x,+?ef,??

SVM是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的分類技術(shù),由Cortes和\^口11&[41]于1995??年提出。它的基本思想是試圖通過(guò)最大化最近鄰訓(xùn)練樣本與分離超平面的幾何間??隔找到最佳分離超平面?梢酝ㄟ^(guò)下圖2-2對(duì)SVM的算法原理有一個(gè)基本認(rèn)識(shí),??圖中正方形代表正例樣本,圓圈代表負(fù)例樣....


圖3-1初始比例為5%時(shí)各半監(jiān)督情感分類算法效果對(duì)比圖??-

圖3-1初始比例為5%時(shí)各半監(jiān)督情感分類算法效果對(duì)比圖??-

Stratified?Co-training:本章提出的算法,其算法流程參考算法3-2,同樣設(shè)置??子空間個(gè)數(shù)為m=2。??圖3-1給出了在三種語(yǔ)料下各種半監(jiān)督學(xué)習(xí)算法的性能對(duì)比。具體實(shí)驗(yàn)時(shí),??初始標(biāo)注樣本的比例為5%,測(cè)試數(shù)據(jù)的比例為20%,剩下的為未標(biāo)注樣本。??〇.8?n....



本文編號(hào):3905693

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3905693.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d6a78***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com