垃圾微博信息過濾技術的研究
本文關鍵詞:垃圾微博信息過濾技術的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:社交網絡以其用戶量大,信息傳播速度快,范圍廣,互動性強的特點成為目前最大且活躍的社交平臺。如新浪微博,微信朋友圈,Google+等社交網絡平臺已經成為互聯(lián)網用戶生活的重要組成部分。社交網絡在給人們的生活帶來便利的同時,其本身也成為了一些廣告,傳銷分子散布垃圾微博信息的工具。所以,社交網絡中垃圾微博信息的過濾和微博僵尸賬號的識別已經成為了重要的熱點研究課題。 本文以新浪微博為研究平臺,采用數(shù)據(jù)挖掘和機器學習的方法,從分類和排序的兩種角度識別新浪微博中的僵尸賬號,從而有效地過濾垃圾微博信息,主要工作分為以下四個部分: 首先:采用統(tǒng)計機器學習中的在線主動學習算法,設計并實現(xiàn)了基于邏輯回歸,樸素貝葉斯,支持向量機三種統(tǒng)計機器學習模型的在線分類系統(tǒng),分別對單條微博信息進行分類。 其次:從分類的角度,由于微博屬于短文本,可以提取到的有價值的特征少,,特征向量稀疏,機器學習分類器對單條微博的分類效果有限。因此,引入序貫概率比模型,根據(jù)第一部分前端分類器對每個賬號發(fā)布的單條微博分類結果序列,來對微博賬號進行分類,從而有效識別微博僵尸賬號。 再次:以賬號為單位,從用戶社交行為和微博內容兩方面提取賬號的特征,通過數(shù)據(jù)分析選取有效的特征,采用libSVM的分類器進行離線建模和微博賬號分類。 最后:從排序的角度,通過對微博平臺上某個領域的子網中賬號之間的社交關系,構建這個子網的社交關系矩陣,采用PageRank算法對子網中賬號的價值度進行排序,根據(jù)排序結果來對賬號進行群體劃分,從而確定微博僵尸賬號的群體范圍。 綜上所述,本文從賬號發(fā)布的微博內容和賬號的社交行為等方面提取特征,采用統(tǒng)計機器學習的方法對微博僵尸賬號進行檢測識別,有效地從源頭上減少社交網絡平臺中的垃圾微博信息。
【關鍵詞】:垃圾信息過濾 機器學習 序貫概率比 PageRank
【學位授予單位】:哈爾濱理工大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092;TP391.1
【目錄】:
- 摘要5-6
- Abstract6-10
- 第1章 緒論10-16
- 1.1 課題研究的目的和意義10-11
- 1.2 國內外研究現(xiàn)狀11-14
- 1.3 本文研究的主要內容14
- 1.4 論文組織結構14-16
- 第2章 基于內容的垃圾微博過濾技術16-31
- 2.1 垃圾微博過濾方法16-17
- 2.1.1 人工審核的方式16
- 2.1.2 惡意鏈接黑名單過濾16-17
- 2.1.3 基于微博內容的統(tǒng)計機器學習方法17
- 2.2 微博的內容特征提取17-18
- 2.2.1 微博的內容特征17
- 2.2.2 基于字節(jié)流的 n-grams 的特征提取方式17-18
- 2.3 在線主動學習垃圾微博過濾框架18-19
- 2.4 機器學習算法19-26
- 2.4.1 貝葉斯算法20-23
- 2.4.2 邏輯回歸算法23-24
- 2.4.3 支持向量機24-26
- 2.5 實驗數(shù)據(jù)集以及評價指標26-28
- 2.6 實驗結果分析28-30
- 2.7 本章小結30-31
- 第3章 基于序貫概率比的微博僵尸賬號檢測31-42
- 3.1 序貫概率比算法31-34
- 3.1.1 基于貝努利分布的序貫概率比模型32-33
- 3.1.2 基于高斯分布的序貫概率比模型33-34
- 3.2 基于高斯分布的序貫概率比微博僵尸賬號檢測方法34-38
- 3.3 微博賬號標注和實驗結果分析38-41
- 3.3.1 微博賬號標注38-39
- 3.3.2 實驗結果分析39-41
- 3.4 本章小結41-42
- 第4章 基于行為特征的微博僵尸賬號檢測42-48
- 4.1 用戶社交行為特征42-44
- 4.1.1 賬號信譽度42
- 4.1.2 發(fā)布微博時間區(qū)間和時間間隔42-43
- 4.1.3 賬號粉絲數(shù)的變化量43-44
- 4.1.4 賬號所發(fā)微博的點贊數(shù)44
- 4.2 微博內容特征44-46
- 4.2.1 超鏈接和阿拉伯數(shù)字44-45
- 4.2.2 熱門話題和提到45
- 4.2.3 實詞的長度45-46
- 4.3 基于賬號特征微博僵尸賬號檢測方法46-47
- 4.4 實驗結果分析47
- 4.5 本章小結47-48
- 第5章 基于 PageRank 的微博僵尸賬號檢測48-54
- 5.1 PageRank 算法介紹48-49
- 5.2 PageRank 算法在微博僵尸賬號檢測中的應用49-52
- 5.2.1 平均分配的 PageRank 算法的實例化49-51
- 5.2.2 不平均分配的 PageRank 算法的實例化51-52
- 5.3 實驗數(shù)據(jù)和試驗結果分析52-53
- 5.4 本章小結53-54
- 結論54-55
- 參考文獻55-59
- 攻讀碩士學位期間發(fā)表的學術論文59-60
- 致謝60
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 樹子;;把一切垃圾短信拒之門外[J];數(shù)字通信;2007年12期
2 王炳晨;;全球共網,筑起反垃圾墻——Cloudmark Fingerprinting技術全面對抗垃圾信息[J];微電腦世界;2007年08期
3 李志宇;;對付垃圾短信消費者動力不足[J];通信世界;2008年23期
4 江林芯;蔣艷青;;四川成立12321網絡不良與垃圾信息舉報受理中心[J];通信與信息技術;2010年01期
5 楊風雷;黎建輝;;用戶生成內容中的垃圾意見研究綜述[J];計算機應用研究;2011年10期
6 孫升蕓;田萱;;產品垃圾評論檢測研究綜述[J];計算機科學;2011年S1期
7 程德杰;;互聯(lián)網時代垃圾信息的預防和遏制[J];互聯(lián)網天地;2012年05期
8 孫升蕓;田萱;何軍;;基于評論行為的商品垃圾評論的識別研究[J];計算機工程與設計;2012年11期
9 常漢生;;期刊中垃圾信息的初步分析與處理[J];武漢科技大學學報(社會科學版);2006年05期
10 ;關于開展垃圾短信息整治專項行動工作方案的通知[J];信息安全與通信保密;2008年07期
中國重要報紙全文數(shù)據(jù)庫 前10條
1 ;立法打擊垃圾信息成為共識[N];網絡世界;2005年
2 李韜;保衛(wèi)手機[N];計算機世界;2006年
3 程蓉 記者 王春;上海:呼吁立法控制垃圾信息[N];科技日報;2006年
4 谷慧;垃圾短信重打不下[N];民營經濟報;2006年
5 通訊員 周 鶯;上海市人大代表呼吁制定反垃圾信息法[N];人民代表報;2006年
6 劉恒 通訊員 田源;重慶聯(lián)通大力整治垃圾短信[N];人民郵電;2006年
7 周戎;巴基斯坦:垃圾信息不勝煩[N];光明日報;2008年
8 洪黎明;部開通網絡不良與垃圾信息舉報受理中心[N];人民郵電;2008年
9 中國互聯(lián)網協(xié)會秘書長 黃澄清;治理垃圾信息 營造綠色網絡[N];人民郵電;2008年
10 周凈;垃圾短信人均每周12條[N];消費日報;2008年
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 黃文良;垃圾短信過濾關鍵技術研究[D];浙江大學;2008年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 吉超;論垃圾短信的法律規(guī)制[D];內蒙古大學;2012年
2 李春野;我國垃圾信息的法律規(guī)制[D];吉林大學;2010年
3 石晶;一種高效垃圾短信過濾系統(tǒng)的實現(xiàn)[D];電子科技大學;2010年
4 李文龍;論垃圾短信的法律規(guī)制[D];延邊大學;2009年
5 賈曉舟;中國“垃圾短信”法律治理探究[D];吉林大學;2013年
6 張婷;一種基于數(shù)據(jù)挖掘技術的垃圾短信用戶預識別方法[D];蘭州大學;2013年
7 劉夢玲;廣告型垃圾短信法律問題研究[D];中國政法大學;2009年
8 黃誠;智能手機垃圾短信過濾技術的研究[D];華中科技大學;2012年
9 付少波;我國手機垃圾短信法律問題研究[D];西南政法大學;2011年
10 李愷明;廣東移動通信垃圾信息分析與治理方案設計[D];北京郵電大學;2011年
本文關鍵詞:垃圾微博信息過濾技術的研究,由筆耕文化傳播整理發(fā)布。
本文編號:258023
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/258023.html