面向不平衡微博數(shù)據(jù)集的轉(zhuǎn)發(fā)行為預(yù)測方法
發(fā)布時間:2017-10-27 01:03
本文關(guān)鍵詞:面向不平衡微博數(shù)據(jù)集的轉(zhuǎn)發(fā)行為預(yù)測方法
更多相關(guān)文章: 集合與微博主題詞集合之間的相似度計算采用向 微博 轉(zhuǎn)發(fā)預(yù)測 不均勻數(shù)據(jù)集 過采樣 隨機森林
【摘要】:針對微博轉(zhuǎn)發(fā)預(yù)測方法研究中的數(shù)據(jù)集不平衡問題,提出了一種融合過采樣技術(shù)和隨機森林(RF)算法的微博轉(zhuǎn)發(fā)行為預(yù)測方法。首先,定義了個體信息、社交關(guān)系和微博主題3類與微博轉(zhuǎn)發(fā)行為相關(guān)的特征,并基于信息增益算法實現(xiàn)了關(guān)鍵特征選取;其次,綜合微博特征數(shù)據(jù)的特點來改進少數(shù)類樣本合成過采樣技術(shù)(SMOTE),對原始數(shù)據(jù)集進行非參數(shù)概率分布估計,并根據(jù)近似概率分布對數(shù)據(jù)集進行過采樣處理,從而使正反例數(shù)據(jù)量達到平衡;最后,利用隨機森林算法,依據(jù)微博轉(zhuǎn)發(fā)關(guān)鍵特征進行分類器訓(xùn)練,并利用袋外(OOB)數(shù)據(jù)誤差估計來分析和設(shè)置隨機森林算法的相關(guān)參數(shù)。通過與基于決策樹(DT)、支持向量機(SVM)、樸素貝葉斯(NB)和隨機森林等算法的微博轉(zhuǎn)發(fā)預(yù)測方法進行對比,所提方法整體性能優(yōu)于基準方法中性能最優(yōu)的SVM方法,召回率提高了8%,F值提高了5%。實驗結(jié)果表明,所提方法在實際應(yīng)用中能夠有效提高微博轉(zhuǎn)發(fā)行為預(yù)測的準確率。
【作者單位】: 西安建筑科技大學(xué)管理學(xué)院;
【關(guān)鍵詞】: 集合與微博主題詞集合之間的相似度計算采用向 微博 轉(zhuǎn)發(fā)預(yù)測 不均勻數(shù)據(jù)集 過采樣 隨機森林
【基金】:國家自然科學(xué)基金資助項目(61272458)
【分類號】:TP393.092
【正文快照】: 0引言作為一種基于用戶關(guān)系的互聯(lián)網(wǎng)信息傳播媒介,微博傳播具有時效性、隨機性、自主性等特點,目前已成為互聯(lián)網(wǎng)輿情擴散的主要方式,是網(wǎng)絡(luò)大數(shù)據(jù)研究領(lǐng)域的焦點[1]。以騰訊微博為例,截止到2012年底,注冊用戶數(shù)量已達到5.4億人次,全年的熱門微博創(chuàng)建數(shù)達2 000萬[2]。轉(zhuǎn)發(fā)是構(gòu)
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前9條
1 于化龍;高尚;趙靖;秦斌;;基于過采樣技術(shù)和隨機森林的不平衡微陣列數(shù)據(jù)分類方法研究[J];計算機科學(xué);2012年05期
2 張e,
本文編號:1101214
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1101214.html
最近更新
教材專著