中文微博用戶性別分類方法研究
本文關(guān)鍵詞:中文微博用戶性別分類方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:該文旨在研究中文微博用戶的性別分類問題,即根據(jù)微博提供的中文文本信息對注冊用戶的性別進(jìn)行識別。雖然基于微博的性別分類已經(jīng)有一定研究,但是針對中文的性別分類工作還很缺乏。該文首先提出分別利用用戶名和微博文本構(gòu)建兩個分類器對用戶的性別類型進(jìn)行判別,并對不同的特征(例如,字特征、詞特征等)進(jìn)行了研究分析;其次,在針對用戶名和微博文本的兩個分類器的基礎(chǔ)上,使用貝葉斯融合方法進(jìn)行分類器融合,從而達(dá)到采用這兩種文本分類信息同時對用戶性別進(jìn)行性別判斷。實(shí)驗(yàn)結(jié)果表明該文的方法可以達(dá)到較高的識別準(zhǔn)確率,并且分類器融合的方法明顯優(yōu)于僅利用用戶名或者微博文本的分類方法。
【作者單位】: 蘇州大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院自然語言處理實(shí)驗(yàn)室;
【關(guān)鍵詞】: 性別分類 新浪微博 文本分類 社交網(wǎng)絡(luò)
【基金】:國家自然科學(xué)基金(61375073)
【分類號】:TP391.1;TP393.092
【正文快照】: 1引言近幾年來,隨著社交網(wǎng)絡(luò)的迅猛發(fā)展,各種類型的微博即微型博客(Microblog)備受用戶的青睞,例如,Twitter、Facebook等。新浪微博是國內(nèi)知名的微博網(wǎng)站,截止到2012年12月,新浪微博注冊用戶突破5.03億,用戶每日發(fā)博量超過1億條。由于微博既具有媒體傳播特性,又具有社交網(wǎng)絡(luò)特
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 張劍峰;夏云慶;姚建民;;微博文本處理研究綜述[J];中文信息學(xué)報;2012年04期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 饒潔;;基于內(nèi)容的移動社交網(wǎng)絡(luò)審計分析引擎[J];電腦知識與技術(shù);2014年10期
2 楊海;;基于微博的網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的研究[J];科技致富向?qū)?2013年30期
3 陽愛民;林江豪;周詠梅;;中文文本情感詞典構(gòu)建方法[J];計算機(jī)科學(xué)與探索;2013年11期
4 施詢之;孫寧遠(yuǎn);李騁罡;;基于微博信息庫和文本分詞的人機(jī)對話模型設(shè)計[J];計算機(jī)與現(xiàn)代化;2013年11期
5 高俊波;梅波;;基于文本內(nèi)容分析的微博廣告過濾模型研究[J];計算機(jī)工程;2014年05期
6 張輝;劉奕群;馬少平;;文本情感分類中生成式情感模型的發(fā)展[J];計算機(jī)應(yīng)用研究;2014年12期
7 王萌;張紅英;田娜;嚴(yán)大虎;;基于信息挖掘技術(shù)的大學(xué)生微博行為研究[J];中國信息技術(shù)教育;2014年23期
8 王連喜;;微博短文本預(yù)處理及學(xué)習(xí)研究綜述[J];圖書情報工作;2013年11期
9 李綱;陳t熀,
本文編號:474241
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/474241.html