天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 論文百科 > 畢業(yè)論文 >

基于半監(jiān)督學(xué)習(xí)的文本分類(lèi)研究

發(fā)布時(shí)間:2016-11-05 07:48

基于半監(jiān)督學(xué)習(xí)的文本分類(lèi)研究


摘要:本文提出了一種基于蟻群聚集信息素濃度的半監(jiān)督文本分類(lèi)算法,該算法利用擴(kuò)展的蟻群信息素?cái)U(kuò)散模型,提出了基于Top-k 策略的螞蟻種群標(biāo)記,通過(guò)對(duì)未標(biāo)記螞蟻置信度的判斷隨機(jī)選擇候選螞蟻進(jìn)入分類(lèi)種群。本文通過(guò)利用20Newsgroups數(shù)據(jù)集進(jìn)行試驗(yàn)測(cè)試,EM算法作為對(duì)比算法,在查準(zhǔn)率、查全率和F-1度的指標(biāo)上均具有較明顯的優(yōu)勢(shì)。

關(guān)鍵詞:半監(jiān)督;文本分類(lèi);蟻群算法


1 中文文本分類(lèi)技術(shù)


文本分類(lèi)的重要工作是構(gòu)建分類(lèi)函數(shù)對(duì)文本進(jìn)行類(lèi)別劃分,其中比較重要的分類(lèi)算法包括以下幾種。

1.1 KNN算法
KNN(K-Nearest Neighbor)算法的核心思想是通過(guò)從待分類(lèi)文本中找到與訓(xùn)練文本集相似的K篇文本的方法對(duì)文本進(jìn)行分類(lèi)。其主要步驟包括:
第一步:利用訓(xùn)練文本的向量化求解特征項(xiàng)對(duì)訓(xùn)練本文集的分詞;
第二步:求解待分類(lèi)文本的特征向量;
第三步:計(jì)算待分類(lèi)文本與訓(xùn)練集的相似度:
其中: 表示待分類(lèi)文本的特征向量; 表示已分好了類(lèi)的第 類(lèi)文本的特征向量; 表示維度; 表示特征向量 的當(dāng)前維度。
第四步:利用權(quán)重對(duì)文本向量進(jìn)行屬性化,其權(quán)重計(jì)算方法為:
其中: 表示待分類(lèi)文本的特征向量; 表示文本類(lèi)別的屬性函數(shù),計(jì)算方法為:

第五步:根據(jù)權(quán)重最大的類(lèi)別優(yōu)先性將待分類(lèi)的文本進(jìn)行分類(lèi)。


2 基于粗糙集理論的文本分類(lèi)技術(shù)流程
3 決策表的屬性約簡(jiǎn)

4 基于蟻群聚集信息素的半監(jiān)督分類(lèi)算法


從結(jié)果數(shù)據(jù)中可以看出,本文提出的文本分類(lèi)算法明顯優(yōu)于EM算法,由于因此進(jìn)行種族訓(xùn)練時(shí)會(huì)出現(xiàn)大量置信度較高的螞蟻,已標(biāo)記樣本的比例逐漸增加使得分類(lèi)的復(fù)雜度降低,分類(lèi)錯(cuò)誤的幾率也大大降低。

在本文提出的基于蟻群聚集信息素濃度的半監(jiān)督文本分類(lèi)算法中,有一個(gè)重要的步驟就是需要對(duì)算法中的參數(shù)進(jìn)行人工設(shè)置,,并且參數(shù)選擇的好壞也會(huì)影響分類(lèi)的效果,因此下一步的工作,將是對(duì)算法中的參數(shù)優(yōu)化進(jìn)行研究,以期進(jìn)一步提高該算法的性能。


參考文獻(xiàn) 略



本文編號(hào):164851

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/caipu/164851.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)61e75***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com