面向可信用戶和主題社區(qū)的社交網(wǎng)絡(luò)在線話題識(shí)別方法研究
本文關(guān)鍵詞:面向可信用戶和主題社區(qū)的社交網(wǎng)絡(luò)在線話題識(shí)別方法研究
更多相關(guān)文章: 面向 可信 用戶 主題 社區(qū) 社交 網(wǎng)絡(luò) 在線 話題 識(shí)別 方法研究
【摘要】:微博是當(dāng)前最流行的社交網(wǎng)絡(luò)平臺(tái)之一,用戶可以通過計(jì)算機(jī)或移動(dòng)終端關(guān)注和分享自己感興趣的信息,發(fā)表個(gè)人觀點(diǎn)等。微博已經(jīng)成了一個(gè)實(shí)時(shí)信息獲取、分享、交流和傳播的平臺(tái)。互聯(lián)網(wǎng)上每天都產(chǎn)生著數(shù)以億計(jì)的微博數(shù)據(jù),這些由用戶所產(chǎn)生的海量微博數(shù)據(jù)背后蘊(yùn)含著巨大的商業(yè)價(jià)值。社交網(wǎng)絡(luò)日趨發(fā)達(dá)和成熟,用戶的參與度到達(dá)一個(gè)前所未有的高度。社交網(wǎng)絡(luò)現(xiàn)已成為了大多數(shù)新聞事件的最早傳播源,對(duì)于社交網(wǎng)絡(luò)中新事件的檢測(cè)已經(jīng)成為學(xué)術(shù)界和政府機(jī)構(gòu)關(guān)注的焦點(diǎn)。社交網(wǎng)絡(luò)中的事件以用戶發(fā)送或者轉(zhuǎn)發(fā)狀態(tài)進(jìn)行傳播,其中的部分核心用戶對(duì)事件傳播有著極其重要的作用,所以對(duì)于社交網(wǎng)絡(luò)中核心用戶的挖掘一直是學(xué)術(shù)界研究的熱點(diǎn)。本文以傳統(tǒng)的新事件檢測(cè)算法為基礎(chǔ),為滿足社交網(wǎng)絡(luò)話題識(shí)別的可信度、多樣性和實(shí)時(shí)性等需求,提出面向可信用戶和主題社區(qū)的在線話題識(shí)別算法。本文通過實(shí)驗(yàn)證明了該算法在獲得較高效率、穩(wěn)定性及話題多樣性結(jié)果的同時(shí),基本不會(huì)改變新事件檢測(cè)的缺失率誤報(bào)率,以此證明該算法的可行性和有效性。本文主要工作如下:1.詳細(xì)地介紹了傳統(tǒng)新事件檢測(cè)所用到的關(guān)鍵技術(shù)以及研究成果,包括基于新聞流的新事件檢測(cè)和基于社交網(wǎng)絡(luò)的新事件檢測(cè),提出了面向可信用戶和主題社區(qū)的在線話題識(shí)別框架。2.通過HttpWatch 9.1截取和分析網(wǎng)頁數(shù)據(jù)流,并基于模擬瀏覽器行為技術(shù)和清洗模式規(guī)則技術(shù),自動(dòng)化爬取、采集和清洗海量微博數(shù)據(jù);3.分析了廣義不可信用戶的定義和判斷特征,提出一種信譽(yù)度的計(jì)算方法TR-Score (Trust Relevance Score Propagation Algorithm),來度量用戶的可信程度。TR-Score算法將會(huì)給每個(gè)用戶分配一個(gè)TR-Score值以度量每個(gè)用戶的惡意程度,并最終將惡意用戶篩除掉。4.為了增加話題的多樣性,在進(jìn)行不可信用戶清除后,我們引入主題信息的社區(qū)劃分算法,并在公開數(shù)據(jù)集上進(jìn)行評(píng)估,算法取得很好的效果。此外社區(qū)劃分也可以大大降低新事件檢測(cè)(NED)算法的時(shí)間復(fù)雜度,且各個(gè)社區(qū)的話題識(shí)別可以并行化。5.基于傳統(tǒng)的微博主題權(quán)威人物分析,引入用戶事件特征,提出基于事件的核心權(quán)威人物EBUAR模型,并詳細(xì)闡述了細(xì)節(jié),最后對(duì)該模型進(jìn)行了評(píng)估。6.基于微博置信度和微博傳播度來進(jìn)行種子微博篩選,實(shí)現(xiàn)了基于SVM的事件合并模型(Event-MergingModel)并對(duì)該算法進(jìn)行了評(píng)估。最后,本文從缺失率、誤報(bào)率、平均檢測(cè)事件三個(gè)維度評(píng)估了權(quán)威用戶模型、微博置信度模型對(duì)于NED算法的影響。實(shí)驗(yàn)結(jié)果表明我們只需要監(jiān)測(cè)權(quán)威用戶而不需要掃描所有用戶,在大大降低平均檢測(cè)時(shí)間的同時(shí)基本不影響缺失率和誤報(bào)率。
【關(guān)鍵詞】:
【學(xué)位授予單位】:華東理工大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092
【目錄】:
- 摘要5-7
- Abstract7-13
- 第1章 緒論13-26
- 1.1 研究背景13-15
- 1.1.1 社交網(wǎng)絡(luò)發(fā)展?fàn)顩r13-14
- 1.1.2 社交網(wǎng)絡(luò)研究14-15
- 1.2 研究現(xiàn)狀和存在的問題15-22
- 1.2.1 傳統(tǒng)新事件檢測(cè)15-19
- 1.2.2 社交網(wǎng)絡(luò)新事件檢測(cè)19-21
- 1.2.3 社交網(wǎng)絡(luò)新事件檢測(cè)的特殊性21-22
- 1.2.4 社交網(wǎng)絡(luò)新事件檢測(cè)存在的問題22
- 1.3 研究內(nèi)容及意義22-24
- 1.3.1 研究內(nèi)容22-23
- 1.3.2 主要研究貢獻(xiàn)23-24
- 1.4 本文的組織24-26
- 第2章 社交網(wǎng)絡(luò)事件檢測(cè)框架26-37
- 2.1 事件檢測(cè)基本框架26-28
- 2.1.1 用戶獲取26
- 2.1.2 微博獲取26-27
- 2.1.3 新事件檢測(cè)模塊27-28
- 2.2 相關(guān)基礎(chǔ)技術(shù)28-31
- 2.2.1 中文切詞技術(shù)28-29
- 2.2.2 關(guān)鍵詞抽取技術(shù)29-30
- 2.2.3 向量空間模型30
- 2.2.4 文本相似度計(jì)算30-31
- 2.2.5 基本NED方法31
- 2.3 社交網(wǎng)絡(luò)特性分析31-34
- 2.3.1 話題的生命周期31-32
- 2.3.2 僵尸用戶現(xiàn)象32-33
- 2.3.3 話題的單一性33
- 2.3.4 社會(huì)傳染特性33-34
- 2.4 改進(jìn)的在線話題識(shí)別框架34-36
- 2.4.1 數(shù)據(jù)爬取處理模塊34
- 2.4.2 不可信用戶篩除34-35
- 2.4.3 主題社區(qū)劃分35
- 2.4.4 改進(jìn)的話題識(shí)別生成模塊35-36
- 2.5 本章小結(jié)36-37
- 第3章 微博數(shù)據(jù)采集與存儲(chǔ)37-56
- 3.1 概述37
- 3.2 基于微博API的數(shù)據(jù)采集方案37-41
- 3.2.1 應(yīng)用創(chuàng)建流程與OAuth2.0授權(quán)37-38
- 3.2.2 微博API數(shù)據(jù)采集實(shí)現(xiàn)38-41
- 3.2.3 基于微博API采集微博數(shù)據(jù)優(yōu)缺點(diǎn)41
- 3.3 模擬瀏覽器的微博數(shù)據(jù)采集方案41-52
- 3.3.1 網(wǎng)頁數(shù)據(jù)分析工具(HttpWatch)41-44
- 3.3.2 微博模擬登錄44-46
- 3.3.3 微博數(shù)據(jù)抓取46-50
- 3.3.4 微博數(shù)據(jù)解析50-51
- 3.3.5 微博數(shù)據(jù)存儲(chǔ)51
- 3.3.6 基于模擬瀏覽器行為爬取采集微博數(shù)據(jù)優(yōu)缺點(diǎn)51-52
- 3.4 數(shù)值實(shí)驗(yàn)與結(jié)果分析52-55
- 3.4.1 實(shí)驗(yàn)結(jié)果52-55
- 3.4.2 實(shí)驗(yàn)分析55
- 3.5 本章小結(jié)55-56
- 第4章 社交網(wǎng)絡(luò)中惡意用戶篩除56-68
- 4.1 社交網(wǎng)絡(luò)平臺(tái)中惡意用戶識(shí)別的研究現(xiàn)狀56-58
- 4.2 基于半監(jiān)督學(xué)習(xí)的惡意用戶識(shí)別算法58-64
- 4.3 惡意用戶識(shí)別實(shí)驗(yàn)效果與評(píng)估64-66
- 4.3.1 實(shí)驗(yàn)環(huán)境及實(shí)驗(yàn)數(shù)據(jù)64-65
- 4.3.2 基準(zhǔn)方法的選擇65
- 4.3.3 實(shí)驗(yàn)結(jié)果分析65-66
- 4.4 本章小結(jié)66-68
- 第5章 社交網(wǎng)絡(luò)中基于主題信息的社區(qū)劃分算法68-85
- 5.1 社會(huì)網(wǎng)絡(luò)中社區(qū)的定義68
- 5.2 社區(qū)劃分的研究現(xiàn)狀68-70
- 5.2.1 基于優(yōu)化的復(fù)雜網(wǎng)絡(luò)聚類方法69-70
- 5.2.2 啟發(fā)式的復(fù)雜網(wǎng)絡(luò)聚類方法70
- 5.3 用戶關(guān)系鏈中的主題相似度傳播與計(jì)算70-78
- 5.3.1 用戶間主題相似關(guān)系強(qiáng)度計(jì)算70-75
- 5.3.2 用戶關(guān)系鏈中的主題相似度計(jì)算75-78
- 5.4 主題相似度計(jì)算算法框架78
- 5.5 數(shù)據(jù)預(yù)處理模塊78-79
- 5.6 用戶相似度更新模塊79-80
- 5.7 社區(qū)傳播模塊80-81
- 5.8 算法分析81
- 5.9 實(shí)驗(yàn)結(jié)果81-84
- 5.9.1 實(shí)驗(yàn)環(huán)境及實(shí)驗(yàn)數(shù)據(jù)81-82
- 5.9.2 精準(zhǔn)度對(duì)比82-83
- 5.9.3 可擴(kuò)展性83-84
- 5.10 本章小結(jié)84-85
- 第6章 社交網(wǎng)絡(luò)在線話題識(shí)別85-114
- 6.1 權(quán)威用戶篩選85-92
- 6.1.1 領(lǐng)域權(quán)威用戶概念85-86
- 6.1.2 研究現(xiàn)狀86-87
- 6.1.3 基礎(chǔ)權(quán)威性人物分析模型87-92
- 6.2 基于事件的權(quán)威用戶篩選92-101
- 6.2.1 事件獲取93-94
- 6.2.2 構(gòu)建事件轉(zhuǎn)發(fā)圖94-95
- 6.2.3 模型和關(guān)系95-97
- 6.2.4 篩選和驗(yàn)證97-98
- 6.2.5 實(shí)驗(yàn)及評(píng)估98-100
- 6.2.6 EBUAR小結(jié)100-101
- 6.3 種子微博篩選101-104
- 6.3.1 微博置信度模型101-102
- 6.3.2 微博傳播度102-104
- 6.3.3 種子微博104
- 6.4 基于支持向量機(jī)的事件合并模型104-108
- 6.5 NED實(shí)驗(yàn)和評(píng)估108-113
- 6.5.1 評(píng)估指標(biāo)108-109
- 6.5.2 平均準(zhǔn)確率109
- 6.5.3 缺失率vs平均檢測(cè)時(shí)間109-110
- 6.5.4 缺失率vs誤報(bào)率vs平均檢測(cè)時(shí)間110-111
- 6.5.5 核心用戶篩選對(duì)NED的影響111
- 6.5.6 微博置信度對(duì)NED的影響111-112
- 6.5.7 主題社區(qū)對(duì)NED的影響112-113
- 6.6 本章小結(jié)113-114
- 第7章 總結(jié)和展望114-116
- 7.1 全文總結(jié)114-115
- 7.2 展望115-116
- 參考文獻(xiàn)116-127
- 致謝127-128
- 附錄1 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文12
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前4條
1 小號(hào)德芙;;FLASH[J];計(jì)算機(jī)教與學(xué).IT搜索;2002年03期
2 徐彬;趙長寬;張昱;;基于LDA的博客網(wǎng)絡(luò)主題社區(qū)挖掘方法研究[J];計(jì)算機(jī)與數(shù)字工程;2012年11期
3 何翔;顧春華;丁軍;;基于微博的主題社區(qū)發(fā)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2013年06期
4 ;[J];;年期
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 記者 劉修兵;“主題社區(qū)建設(shè)模式實(shí)踐與推廣”項(xiàng)目通過驗(yàn)收[N];中國文化報(bào);2014年
2 張正為;醫(yī)療主題社區(qū)浮現(xiàn)京城[N];中國房地產(chǎn)報(bào);2003年
3 本報(bào)駐湖北記者 程芙蓉;農(nóng)家旅游主題社區(qū)?新鮮![N];中國旅游報(bào);2012年
4 記者 孟堅(jiān);京城首家運(yùn)動(dòng)主題社區(qū)開盤[N];中國證券報(bào);2001年
5 劉笑一;首個(gè)童話主題社區(qū)現(xiàn)身滬上[N];中國房地產(chǎn)報(bào);2003年
6 董明邋本報(bào)記者 王榮琦;沙河口區(qū)12個(gè)主題社區(qū)公園開園[N];遼寧日?qǐng)?bào);2008年
7 記者 李峰龍;亙?cè)y子湖·水都引領(lǐng)居住新理念[N];銀川晚報(bào);2010年
8 本報(bào)實(shí)習(xí)記者 郭萌;地產(chǎn)商按年齡開發(fā)戶型[N];北京科技報(bào);2004年
9 記者 倪明;廣氮地區(qū)將建運(yùn)動(dòng)社區(qū)[N];廣州日?qǐng)?bào);2009年
10 立平;北京打造郊區(qū)教育主題社區(qū)[N];中國房地產(chǎn)報(bào);2003年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 丁軍;面向可信用戶和主題社區(qū)的社交網(wǎng)絡(luò)在線話題識(shí)別方法研究[D];華東理工大學(xué);2015年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 劉東升;主題驅(qū)動(dòng)的Blog社區(qū)發(fā)現(xiàn)技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2008年
2 鄭國慶;針對(duì)鏈接語料的主題社區(qū)挖掘[D];上海交通大學(xué);2012年
3 何翔;基于微博的主題社區(qū)發(fā)現(xiàn)[D];華東理工大學(xué);2013年
,本文編號(hào):915853
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/915853.html