一種半監(jiān)督的中文垃圾微博過濾方法
本文關(guān)鍵詞:一種半監(jiān)督的中文垃圾微博過濾方法
更多相關(guān)文章: 垃圾微博過濾 半監(jiān)督學習 EM算法 樸素貝葉斯
【摘要】:微博作為目前國內(nèi)外最活躍的信息分享平臺之一,其中卻充斥著大量的垃圾內(nèi)容。因此,如何從給定話題的微博數(shù)據(jù)中,過濾掉與話題不相關(guān)的垃圾微博、保留話題相關(guān)微博,成為迫切需要解決的問題。該文提出了一種半監(jiān)督的中文微博過濾方法,基于樸素貝葉斯分類模型和最大期望算法,實現(xiàn)了利用少量標注數(shù)據(jù)的垃圾微博過濾算法,其優(yōu)勢是僅僅利用少量標注數(shù)據(jù)就可以獲得較為理想的過濾性能。分別對十個話題140 000余條新浪微博數(shù)據(jù)進行過濾,該文提出的模型準確度和F值優(yōu)于樸素貝葉斯和支持向量機模型。
【作者單位】: 清華大學計算機科學與技術(shù)系;
【關(guān)鍵詞】: 垃圾微博過濾 半監(jiān)督學習 EM算法 樸素貝葉斯
【基金】:國家自然科學基金(61332007,61272227)
【分類號】:TP391.1;TP393.092
【正文快照】: 1引言微博(Microblog)是一種基于用戶關(guān)系的短文本信息分享平臺。根據(jù)文獻[1]統(tǒng)計顯示,截止到2014年8月,推特上注冊用戶數(shù)達到近十億,月活躍用戶達2.71億。微博已經(jīng)成為互聯(lián)網(wǎng)用戶獲取和傳遞信息的重要平臺。微博中的博文或推文(Tweets),涵蓋了多個話題,涉及經(jīng)濟、政治、科技
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 毛煜;余正濤;孟祥燕;張志坤;許洋波;郭劍毅;;中文問答對過濾方法研究[J];廣西師范大學學報(自然科學版);2009年03期
2 佟俊輝;李娜;金躍輝;;一種樹形過濾方法的設(shè)計與實現(xiàn)架構(gòu)[J];微計算機應(yīng)用;2007年11期
3 譚文堂;朱洪;葛斌;李芳芳;肖衛(wèi)東;;垃圾評論自動過濾方法[J];國防科技大學學報;2012年05期
4 張千龍;雷菁;;垃圾短信過濾方法的研究[J];科技信息(科學教研);2007年30期
5 段立娟,包振山,毛國君;多特征特定類型圖像過濾方法[J];北京工業(yè)大學學報;2005年04期
6 張睿;劉曉霞;;基于URN的特征沖突過濾方法[J];計算機工程;2009年21期
7 馬金鑫;袁丁;;一種特征代碼過濾方法的改進[J];計算機應(yīng)用與軟件;2010年08期
8 邢玲;馬建國;李幼平;劉志文;;一種基于UCL的中文網(wǎng)頁信息過濾方法[J];電子學報;2006年10期
9 葉欣;;智能手機短信過濾方法的研究[J];軟件導刊;2009年01期
10 鄧正杰;陳國源;王鳳偉;何書前;石春;;一種基于聯(lián)合雙邊濾波的網(wǎng)格細節(jié)過濾方法[J];電腦知識與技術(shù);2013年13期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 丁丹;袁華;張凌;;基于內(nèi)容的廣告垃圾圖像過濾方法的研究[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 溫都日娜;一種基于本體的敏感詞過濾方法研究[D];吉林大學;2014年
,本文編號:891106
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/891106.html