【摘要】:隨著Web 2.0技術(shù)的飛速發(fā)展,在線社交網(wǎng)絡(luò)已經(jīng)成為人們獲取、發(fā)表和傳播信息的重要渠道。社交網(wǎng)絡(luò)不僅將用戶在線下現(xiàn)實社會的社交關(guān)系如同學(xué)、同事、朋友關(guān)系等遷移至互聯(lián)網(wǎng),而且拉近了用戶與網(wǎng)絡(luò)大V、知名人士、政府機構(gòu)等的關(guān)系,促進了人類社會的扁平化發(fā)展。現(xiàn)實世界中發(fā)生的事件、活動等信息通常以話題的形式在社交網(wǎng)絡(luò)中存在,并隨著用戶之間的社交關(guān)系結(jié)構(gòu)而“核裂變”式地快速傳播和演化,其在給人們獲取、發(fā)表和傳播信息帶來便利的同時,也會形成網(wǎng)絡(luò)輿論并反過來影響現(xiàn)實世界中事件、活動等的發(fā)展。因此,對社交網(wǎng)絡(luò)話題傳播分析技術(shù)進行研究對于促進有益信息傳播、抑制不良信息傳播和國家的長治久安意義重大,具有重要的理論意義和現(xiàn)實意義。對社交網(wǎng)絡(luò)話題傳播分析技術(shù)進行研究面臨巨大的挑戰(zhàn),與傳統(tǒng)信息網(wǎng)絡(luò)不同,社交網(wǎng)絡(luò)具有話題信息短、噪聲多、語義復(fù)雜、博文數(shù)量巨大、關(guān)系網(wǎng)絡(luò)復(fù)雜和信息快速傳播演化等特點,因此其在分析方法和目標上與傳統(tǒng)信息網(wǎng)絡(luò)有很大差異,給話題傳播分析技術(shù)帶來了巨大的挑戰(zhàn)。本文在已有研究基礎(chǔ)上,針對社交網(wǎng)絡(luò)的短文本特性、話題傳播群體檢測、話題推廣用戶檢測、話題快速推廣方法等進行了研究,主要研究內(nèi)容和成果如下:(1)在話題文本表示模型方面,針對社交網(wǎng)絡(luò)話題信息的短文本特性,提出了基于外部知識庫概念的話題文本表示模型。經(jīng)典的“詞袋”模型是基于詞匯間的共現(xiàn)關(guān)系進行語義相似度計算,忽略了詞語之間的語義關(guān)系。由于社交網(wǎng)絡(luò)話題文本不僅較短,而且用詞不規(guī)范,特征項的共現(xiàn)較少,“詞袋”模型難以適用。本研究點以外部知識庫維基百科為例,提出了一種基于概念的話題文本表示模型,增大了話題文本表示向量中特征項的共現(xiàn)概率。然后基于概念之間的語義關(guān)系,構(gòu)建概念之間的語義矩陣,增強表示模型的語義。本研究點首先在維基百科概念的解釋文檔上建立“詞語-概念”的倒排索引,并基于此倒排索引將文本表示為維基百科概念的向量,然后我們計算各個概念之間的語義相關(guān)度以構(gòu)建概念間的語義矩陣,最后基于語義矩陣增強維基百科概念向量的語義。在文本分類應(yīng)用數(shù)據(jù)集上的實驗發(fā)現(xiàn),我們的方法在短文本上比經(jīng)典的“詞袋”模型在統(tǒng)計學(xué)上顯著更好。(2)在話題傳播熱度預(yù)測方面,提出了一種基于用戶情感的話題熱度預(yù)測方法。傳統(tǒng)方法是基于在線內(nèi)容的前期熱度來預(yù)測其在未來的熱度,本文預(yù)測尚未發(fā)生的話題的熱度,其基本假設(shè)是:用戶在最近一段時間對某一事物的情感傾向在一定程度上決定了未來此用戶對與此事物相關(guān)的話題的關(guān)心程度。本文首先計算社區(qū)中每個用戶對話題關(guān)鍵詞和關(guān)鍵短語的情感傾向,然后基于馬爾科夫隨機場模型和圖熵模型來計算整個社區(qū)在此話題上的潛在情感能量。實驗分析發(fā)現(xiàn),社區(qū)在某個話題上的潛在情感能量與話題在此社區(qū)的熱度之間存在顯著的線性相關(guān)關(guān)系。在此發(fā)現(xiàn)的基礎(chǔ)上,我們提出了兩種基于社區(qū)潛在情感能量的話題熱度預(yù)測方法,實驗證明了兩種預(yù)測模型的有效性。(3)在話題傳播群體檢測方面,針對社交網(wǎng)絡(luò)水軍發(fā)布大量話題推廣博文和話題非自然傳播的問題,提出了一種有效的網(wǎng)絡(luò)水軍檢測方法。當前網(wǎng)絡(luò)水軍檢測方法主要利用水軍的個體特征,而忽略水軍作為群體而表現(xiàn)出的群體特征。本文首先研究了水軍的群體特征,然后基于邏輯回歸模型綜合利用水軍的個體特征和群體特征進行檢測。在多個真實數(shù)據(jù)集上的實驗顯示,本文方法比傳統(tǒng)方法在準確度和F1值上效果更好。在發(fā)現(xiàn)的水軍基礎(chǔ)上,本文分析水軍的群體特性和發(fā)現(xiàn)網(wǎng)絡(luò)推手。基于水軍之間的朋友/粉絲關(guān)系和共現(xiàn)關(guān)系,采用InfoMap社區(qū)發(fā)現(xiàn)算法檢測水軍的社區(qū),發(fā)現(xiàn)絕大多數(shù)的水軍都出現(xiàn)在少量的社區(qū)中,而且在同一個社區(qū)中的水軍通常都持有相同的觀點傾向,驗證了水軍的群體特性。本文進一步分析網(wǎng)絡(luò)推手,發(fā)現(xiàn)絕大多數(shù)的水軍都在推廣來自極少數(shù)推手發(fā)布的博文。(4)在用戶話題興趣分析方面,為了更好地進行話題的快速推廣,針對已有方法主要是基于用戶發(fā)布的博文內(nèi)容進行用戶話題興趣挖掘而導(dǎo)致算法的計算量過大,難以適用用戶數(shù)以億計的社交網(wǎng)絡(luò)的問題,提出了一種基于部分用戶的自定義話題興趣標簽快速挖掘其他用戶話題興趣特征的方法。據(jù)統(tǒng)計,新浪微博中有21.8%的用戶給自己標注了話題興趣標簽,而有多達78.2%的用戶沒有自定義話題興趣標簽。本研究點的基本假設(shè)是:如果用戶之間有轉(zhuǎn)發(fā)、提及、回復(fù)等直接交互關(guān)系,則說明兩者之間有共同的話題興趣,那么可以通過交互圖中鄰居節(jié)點的話題興趣來分析此用戶的話題興趣。本研究點基于用戶歷史上的轉(zhuǎn)發(fā)、提及關(guān)系構(gòu)建起用戶間的交互關(guān)系圖,然后在交互關(guān)系圖上基于隨機游走算法分析用戶的話題興趣標簽,并對話題興趣標簽進行排序。算法在包含1.4億用戶的真實新浪微博數(shù)據(jù)集上進行實驗,采用MapReduce分布式處理框架進行計算,分析發(fā)現(xiàn)本文提出的方法比當前存在的用戶話題興趣挖掘方法準確度更高。綜上所述,本文研究了社交網(wǎng)絡(luò)話題文本表示模型、話題傳播熱度預(yù)測、話題傳播群體檢測和用戶話題興趣分析等關(guān)鍵技術(shù),在真實數(shù)據(jù)集上的實驗驗證了本文方法的有效性,對于信息傳播具有重要的理論和現(xiàn)實意義。
【學(xué)位授予單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:G206
【相似文獻】
相關(guān)期刊論文 前10條
1 Bruce Antelman;李雯;;社交網(wǎng)絡(luò)[J];高校圖書館工作;2008年01期
2 ;基于位置的手機社交網(wǎng)絡(luò)“貝多”正式發(fā)布[J];中國新通信;2008年06期
3 曹增輝;;社交網(wǎng)絡(luò)更偏向于用戶工具[J];信息網(wǎng)絡(luò);2009年11期
4 ;美國:印刷企業(yè)青睞社交網(wǎng)絡(luò)營銷新方式[J];中國包裝工業(yè);2010年Z1期
5 李智惠;柳承燁;;韓國移動社交網(wǎng)絡(luò)服務(wù)的類型分析與促進方案[J];現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報);2010年08期
6 賈富;;改變一切的社交網(wǎng)絡(luò)[J];互聯(lián)網(wǎng)天地;2011年04期
7 譚拯;;社交網(wǎng)絡(luò):連接與發(fā)現(xiàn)[J];廣東通信技術(shù);2011年07期
8 陳一舟;;社交網(wǎng)絡(luò)的發(fā)展趨勢[J];傳媒;2011年12期
9 殷樂;;全球社交網(wǎng)絡(luò)新態(tài)勢及文化影響[J];新聞與寫作;2012年01期
10 許麗;;社交網(wǎng)絡(luò):孤獨年代的集體狂歡[J];上海信息化;2012年09期
相關(guān)會議論文 前10條
1 趙云龍;李艷兵;;社交網(wǎng)絡(luò)用戶的人格預(yù)測與關(guān)系強度研究[A];第七屆(2012)中國管理學(xué)年會商務(wù)智能分會場論文集(選編)[C];2012年
2 宮廣宇;李開軍;;對社交網(wǎng)絡(luò)中信息傳播的分析和思考——以人人網(wǎng)為例[A];首屆華中地區(qū)新聞與傳播學(xué)科研究生學(xué)術(shù)論壇獲獎?wù)撐腫C];2010年
3 楊子鵬;喬麗娟;王夢思;楊雪迎;孟子冰;張禹;;社交網(wǎng)絡(luò)與大學(xué)生焦慮緩解[A];心理學(xué)與創(chuàng)新能力提升——第十六屆全國心理學(xué)學(xué)術(shù)會議論文集[C];2013年
4 畢雪梅;;體育虛擬社區(qū)中的體育社交網(wǎng)絡(luò)解析[A];第九屆全國體育科學(xué)大會論文摘要匯編(4)[C];2011年
5 杜p
本文編號:2802039
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/2802039.html