天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于混合特征的微博信息分類方法研究

發(fā)布時間:2021-08-14 05:46
  近年來,微博的飛速發(fā)展使它成為了不可忽視的網(wǎng)絡(luò)力量。微博信息分類可以幫助用戶快速,準(zhǔn)確地獲取需要的微博信息,過濾無用的微博垃圾信息,有著重要的研究意義。本文根據(jù)微博的特點,提出了了如下方法提高了微博信息分類的準(zhǔn)確率。首先,在外國微博(twitter)的信息分類的8F(8Features)法的理論基礎(chǔ)上,把微博中除了微博正文以外的一些信息也作為微博分類的特征,和正文部分一起形成了微博的混合特征,這些包括3F法(作者信息+正文+鏈接)和4F法(作者信息+正文+鏈接+評論)等。然后,本文基于在同一種類別的微博中會重復(fù)出現(xiàn)多次的詞應(yīng)該和分類相關(guān)度較高的假設(shè),在傳統(tǒng)的卡方(CHI)統(tǒng)計量的基礎(chǔ)上,引入了頻度等因素,改進了傳統(tǒng)的特征選擇方法。并在傳統(tǒng)的特征項的權(quán)值計算的基礎(chǔ)上,提出了新的tf*idf*改進的卡方統(tǒng)計量的方法,改進了權(quán)重計算的效果。最后本文提出了結(jié)合正文部分和混合特征的1F-3F法(先只按正文部分分類,小于判定閾值時再按照3F法分類)。我們對上述提出的方法利用經(jīng)典的算法KNN或SVM進行了測試,證明了我們提出的方法對于提高微博信息分類的準(zhǔn)確率是有效的。 

【文章來源】:北京工業(yè)大學(xué)北京市 211工程院校

【文章頁數(shù)】:56 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于混合特征的微博信息分類方法研究


SVM圖示

示意圖,混合特征,示意圖


圖 3-1 微博混合特征示意圖Fig.3-1 picture of the micro-blog's mixed characteristics這只是個簡單的例子,當(dāng)點擊作者,鏈接,回復(fù)等超鏈接,我們可以獲得更的微博綜合特征。把 T1,T2,T3,T4 綜合起來,填補了缺失的信息,就比較容易判斷是屬于類的一條微博。因為填補了一些和體育類別高度相關(guān)的特征,如體育解說員,運動員,中場,中衛(wèi)等。這種方法是在我們后面的實驗中被證明是有效的傳統(tǒng)的分類方法只是基于微博的正文部分的分類,表示為圖 3-2:

混合特征,信息分類


圖 3-4 混合特征的引入對微博信息分類的影響(KNN)Fig.3-4 the effect of the mixed characteristics to the micro-blog information classification可以從圖 3-4 中看出,基于布爾統(tǒng)計普遍要好于基于詞頻統(tǒng)計,這與文本分類,新聞分類的研究結(jié)果一致。隨著微博混合特征的引入,分類準(zhǔn)確率得到了一定程度的提高。我們測試了所有 T1,T2,T3,T4 的排列組合,其中正文+鏈接作者信息(T1+T2+T3)的分類效果最好,我們定義它為基于混合特征的微博分類方法中的 3F(3Features)方法,如圖 3-5 所示:


本文編號:3341886

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3341886.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6f072***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com