在線社交網絡用戶的特征分析與分類檢測
本文關鍵詞:在線社交網絡用戶的特征分析與分類檢測,,由筆耕文化傳播整理發(fā)布。
【摘要】:近年來,隨著互聯(lián)網技術的不斷發(fā)展,在線社交網站已逐漸成為人們生活中不可或缺的交往方式之一。不同于現(xiàn)實中的社交網絡,信息在在線社交網絡中的傳播速度更快,覆蓋人群更多,交互更頻繁。微博是一種已經被廣泛應用的信息傳播載體,是人們互動交流的重要方式。隨著時間的發(fā)展,微博平臺產生多種不同性質的用戶,包括僵尸賬戶、馬甲賬戶、垃圾賬戶等,它們出于不同的目的,擾亂著微博秩序。作為衡量微博用戶知名度及受歡迎程度的重要指標,粉絲數(shù)的真實性越發(fā)受到人們的關注。投機者受到經濟利益的驅使,制造大量的機器用戶,引發(fā)信任危機。機器用戶作為僵尸用戶的進化,它與僵尸用戶具有許多相似之處:同樣是利用程序產生的賬戶,一樣主要以“買賣粉絲”為存在的目的。不同的是這類進化的僵尸用戶更具活性,它們的行為更加接近正常用戶,以至于新浪微博不能檢測出這類賬戶,而對其封號。如何快速有效的識別機器用戶,已成為維護微博平臺正常秩序亟待解決的問題。為了探究這一問題,采用機器學習的方法,以新浪微博為例,對中文微博用戶特征進行了深入研究,并且對相關的分類算法進行了詳細學習及分析,提出了一種最優(yōu)分類模型,具體工作如下:1、數(shù)據采集。介紹了本研究數(shù)據采集的步驟,首先分別基于熱門話題及“買粉”獲得非機器用戶集和機器用戶集,又詳細介紹了新浪API的調用原理,最后通過本文提出的多方法組合的數(shù)據提取方案,得到用戶和微博的基本信息,構成了本研究的原始數(shù)據集。2、特征分析。首先結合新浪微博的特點,獲得13項原始特征。再通過分析用戶關系特征、用戶行為特征、微博內容特征,對原始特征進行再加工,得到9項有效特征,將其表示成向量,作為分類器的輸入。最后用累積分布函數(shù)圖對這些特征進行特征分析。3、最優(yōu)分類模型。本文首先運用SVM算法驗證了特征組合的有效性,用BP神經網絡和決策樹兩種曾經運用在用戶分類中的分類算法進行分類,其結果與SVM比較以期得到更好的分類效果。在結果不令人滿意的情況下,創(chuàng)造性的引入隨機森林算法,提高了分類效果。然后,為了進一步提高分類效率,采用剔減特征法得到最優(yōu)特征組合,提出了本研究的最優(yōu)分類模型SBS-Random Forest。4、實例驗證。本文隨機選取一個用戶,采用多方法組合的數(shù)據提取方案獲取其粉絲的信息,生成粉絲用戶的特征集,用SBS-Random Forest分類模型對這些用戶進行分類,再與人工投票結果進行比較,最終發(fā)現(xiàn)分類效果在接受范圍內,得到了用戶的機器用戶粉絲的比例,再與其他方法進行比較,證明本研究提出的分類模型有效可行,對機器用戶的甄別有積極的促進意義。
【關鍵詞】:社交網絡 微博 機器用戶 數(shù)據挖掘 用戶行為分析 機器學習
【學位授予單位】:河北師范大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP393.09
【目錄】:
- 摘要4-6
- Abstract6-11
- 1 緒論11-20
- 1.1 研究背景11-12
- 1.2 相關研究現(xiàn)狀綜述12-18
- 1.2.1 復雜網絡相關研究現(xiàn)狀12-13
- 1.2.2 在線社交網絡研究現(xiàn)狀13-15
- 1.2.3 微博用戶分類檢測研究現(xiàn)狀15-17
- 1.2.4 微博數(shù)據采集研究現(xiàn)狀17-18
- 1.3 本文所研究內容18
- 1.4 論文的組織結構18-20
- 2 在線社交網絡理論基礎20-27
- 2.1 復雜網絡20-21
- 2.1.1 復雜網絡理論基礎20-21
- 2.1.2 復雜網絡特征21
- 2.2 社交網絡21-24
- 2.2.1 社交網絡21-22
- 2.2.2 社交網絡節(jié)點分析22-23
- 2.2.3 在線社交網絡用戶分類23-24
- 2.3 微博24-26
- 2.3.1 微博的特征24-25
- 2.3.2 微博用戶分析25-26
- 2.4 本章小結26-27
- 3 數(shù)據采集27-35
- 3.1 獲取用戶集27-29
- 3.2 獲取用戶及微博數(shù)據29-34
- 3.2.1 OAUTH用戶身份認證29-30
- 3.2.2 微博API調用30-32
- 3.2.3 多方法組合的數(shù)據提取方案32-34
- 3.3 本章小結34-35
- 4 數(shù)據處理35-47
- 4.1 特征生成35-36
- 4.2 特征提取36-41
- 4.2.1 用戶關系特征36-38
- 4.2.2 用戶行為特征38-39
- 4.2.3 微博內容特征39-41
- 4.3 基于CDF圖的特征分析41-46
- 4.3.1 用戶關系特征分析41-42
- 4.3.2 用戶行為特征分析42-43
- 4.3.3 微博內容特征分析43-46
- 4.4 本章小結46-47
- 5 最優(yōu)分類模型47-66
- 5.1 SVM驗證特征組合有效性47-51
- 5.1.1 支持向量機分類器設計47-49
- 5.1.2 評估標準及分類結果49-51
- 5.2 用戶分類檢測的傳統(tǒng)算法51-57
- 5.2.1 BP神經網絡分類器及分類結果52-54
- 5.2.2 決策樹分類器及分類結果54-57
- 5.3 隨機森林分類算法57-61
- 5.3.1 隨機森林分類原理58
- 5.3.2 隨機森林分類器及分類結果58-61
- 5.4 最優(yōu)分類模型SBS-Random Forest61-65
- 5.4.1 最優(yōu)特征組合61-63
- 5.4.2 最優(yōu)分類模型建立及驗證63-65
- 5.5 本章小結65-66
- 6 總結與展望66-68
- 參考文獻68-73
- 致謝73-74
- 攻讀碩士學位期間的研究成果74
【相似文獻】
中國期刊全文數(shù)據庫 前10條
1 ;基于位置的手機社交網絡“貝多”正式發(fā)布[J];中國新通信;2008年06期
2 曹增輝;;社交網絡更偏向于用戶工具[J];信息網絡;2009年11期
3 ;美國:印刷企業(yè)青睞社交網絡營銷新方式[J];中國包裝工業(yè);2010年Z1期
4 李智惠;柳承燁;;韓國移動社交網絡服務的類型分析與促進方案[J];現(xiàn)代傳播(中國傳媒大學學報);2010年08期
5 賈富;;改變一切的社交網絡[J];互聯(lián)網天地;2011年04期
6 譚拯;;社交網絡:連接與發(fā)現(xiàn)[J];廣東通信技術;2011年07期
7 陳一舟;;社交網絡的發(fā)展趨勢[J];傳媒;2011年12期
8 殷樂;;全球社交網絡新態(tài)勢及文化影響[J];新聞與寫作;2012年01期
9 許麗;;社交網絡:孤獨年代的集體狂歡[J];上海信息化;2012年09期
10 李玲麗;吳新年;;科研社交網絡的發(fā)展現(xiàn)狀及趨勢分析[J];圖書館學研究;2013年01期
中國重要會議論文全文數(shù)據庫 前10條
1 趙云龍;李艷兵;;社交網絡用戶的人格預測與關系強度研究[A];第七屆(2012)中國管理學年會商務智能分會場論文集(選編)[C];2012年
2 宮廣宇;李開軍;;對社交網絡中信息傳播的分析和思考——以人人網為例[A];首屆華中地區(qū)新聞與傳播學科研究生學術論壇獲獎論文[C];2010年
3 楊子鵬;喬麗娟;王夢思;楊雪迎;孟子冰;張禹;;社交網絡與大學生焦慮緩解[A];心理學與創(chuàng)新能力提升——第十六屆全國心理學學術會議論文集[C];2013年
4 畢雪梅;;體育虛擬社區(qū)中的體育社交網絡解析[A];第九屆全國體育科學大會論文摘要匯編(4)[C];2011年
5 杜p
本文編號:389542
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/389542.html