基于混合特征的微博信息分類方法研究
發(fā)布時間:2021-08-14 05:46
近年來,微博的飛速發(fā)展使它成為了不可忽視的網(wǎng)絡(luò)力量。微博信息分類可以幫助用戶快速,準(zhǔn)確地獲取需要的微博信息,過濾無用的微博垃圾信息,有著重要的研究意義。本文根據(jù)微博的特點,提出了了如下方法提高了微博信息分類的準(zhǔn)確率。首先,在外國微博(twitter)的信息分類的8F(8Features)法的理論基礎(chǔ)上,把微博中除了微博正文以外的一些信息也作為微博分類的特征,和正文部分一起形成了微博的混合特征,這些包括3F法(作者信息+正文+鏈接)和4F法(作者信息+正文+鏈接+評論)等。然后,本文基于在同一種類別的微博中會重復(fù)出現(xiàn)多次的詞應(yīng)該和分類相關(guān)度較高的假設(shè),在傳統(tǒng)的卡方(CHI)統(tǒng)計量的基礎(chǔ)上,引入了頻度等因素,改進了傳統(tǒng)的特征選擇方法。并在傳統(tǒng)的特征項的權(quán)值計算的基礎(chǔ)上,提出了新的tf*idf*改進的卡方統(tǒng)計量的方法,改進了權(quán)重計算的效果。最后本文提出了結(jié)合正文部分和混合特征的1F-3F法(先只按正文部分分類,小于判定閾值時再按照3F法分類)。我們對上述提出的方法利用經(jīng)典的算法KNN或SVM進行了測試,證明了我們提出的方法對于提高微博信息分類的準(zhǔn)確率是有效的。
【文章來源】:北京工業(yè)大學(xué)北京市 211工程院校
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
SVM圖示
圖 3-1 微博混合特征示意圖Fig.3-1 picture of the micro-blog's mixed characteristics這只是個簡單的例子,當(dāng)點擊作者,鏈接,回復(fù)等超鏈接,我們可以獲得更的微博綜合特征。把 T1,T2,T3,T4 綜合起來,填補了缺失的信息,就比較容易判斷是屬于類的一條微博。因為填補了一些和體育類別高度相關(guān)的特征,如體育解說員,運動員,中場,中衛(wèi)等。這種方法是在我們后面的實驗中被證明是有效的傳統(tǒng)的分類方法只是基于微博的正文部分的分類,表示為圖 3-2:
圖 3-4 混合特征的引入對微博信息分類的影響(KNN)Fig.3-4 the effect of the mixed characteristics to the micro-blog information classification可以從圖 3-4 中看出,基于布爾統(tǒng)計普遍要好于基于詞頻統(tǒng)計,這與文本分類,新聞分類的研究結(jié)果一致。隨著微博混合特征的引入,分類準(zhǔn)確率得到了一定程度的提高。我們測試了所有 T1,T2,T3,T4 的排列組合,其中正文+鏈接作者信息(T1+T2+T3)的分類效果最好,我們定義它為基于混合特征的微博分類方法中的 3F(3Features)方法,如圖 3-5 所示:
本文編號:3341886
【文章來源】:北京工業(yè)大學(xué)北京市 211工程院校
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
SVM圖示
圖 3-1 微博混合特征示意圖Fig.3-1 picture of the micro-blog's mixed characteristics這只是個簡單的例子,當(dāng)點擊作者,鏈接,回復(fù)等超鏈接,我們可以獲得更的微博綜合特征。把 T1,T2,T3,T4 綜合起來,填補了缺失的信息,就比較容易判斷是屬于類的一條微博。因為填補了一些和體育類別高度相關(guān)的特征,如體育解說員,運動員,中場,中衛(wèi)等。這種方法是在我們后面的實驗中被證明是有效的傳統(tǒng)的分類方法只是基于微博的正文部分的分類,表示為圖 3-2:
圖 3-4 混合特征的引入對微博信息分類的影響(KNN)Fig.3-4 the effect of the mixed characteristics to the micro-blog information classification可以從圖 3-4 中看出,基于布爾統(tǒng)計普遍要好于基于詞頻統(tǒng)計,這與文本分類,新聞分類的研究結(jié)果一致。隨著微博混合特征的引入,分類準(zhǔn)確率得到了一定程度的提高。我們測試了所有 T1,T2,T3,T4 的排列組合,其中正文+鏈接作者信息(T1+T2+T3)的分類效果最好,我們定義它為基于混合特征的微博分類方法中的 3F(3Features)方法,如圖 3-5 所示:
本文編號:3341886
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3341886.html
最近更新
教材專著