基于半監(jiān)督學(xué)習(xí)的文本分類(lèi)研究
發(fā)布時(shí)間:2016-11-05 07:48
基于半監(jiān)督學(xué)習(xí)的文本分類(lèi)研究
關(guān)鍵詞:半監(jiān)督;文本分類(lèi);蟻群算法
文本分類(lèi)的重要工作是構(gòu)建分類(lèi)函數(shù)對(duì)文本進(jìn)行類(lèi)別劃分,其中比較重要的分類(lèi)算法包括以下幾種。
1.1 KNN算法KNN(K-Nearest Neighbor)算法的核心思想是通過(guò)從待分類(lèi)文本中找到與訓(xùn)練文本集相似的K篇文本的方法對(duì)文本進(jìn)行分類(lèi)。其主要步驟包括:
第一步:利用訓(xùn)練文本的向量化求解特征項(xiàng)對(duì)訓(xùn)練本文集的分詞;
第二步:求解待分類(lèi)文本的特征向量;
第三步:計(jì)算待分類(lèi)文本與訓(xùn)練集的相似度:
其中: 表示待分類(lèi)文本的特征向量; 表示已分好了類(lèi)的第 類(lèi)文本的特征向量; 表示維度; 表示特征向量 的當(dāng)前維度。
第四步:利用權(quán)重對(duì)文本向量進(jìn)行屬性化,其權(quán)重計(jì)算方法為:
其中: 表示待分類(lèi)文本的特征向量; 表示文本類(lèi)別的屬性函數(shù),計(jì)算方法為:
第五步:根據(jù)權(quán)重最大的類(lèi)別優(yōu)先性將待分類(lèi)的文本進(jìn)行分類(lèi)。
3 決策表的屬性約簡(jiǎn)
4 基于蟻群聚集信息素的半監(jiān)督分類(lèi)算法
在本文提出的基于蟻群聚集信息素濃度的半監(jiān)督文本分類(lèi)算法中,有一個(gè)重要的步驟就是需要對(duì)算法中的參數(shù)進(jìn)行人工設(shè)置,,并且參數(shù)選擇的好壞也會(huì)影響分類(lèi)的效果,因此下一步的工作,將是對(duì)算法中的參數(shù)優(yōu)化進(jìn)行研究,以期進(jìn)一步提高該算法的性能。
本文編號(hào):164851
本文鏈接:http://sikaile.net/wenshubaike/caipu/164851.html
最近更新
教材專(zhuān)著