基于深度學習的微博轉(zhuǎn)發(fā)預(yù)測系統(tǒng)
發(fā)布時間:2020-06-06 05:10
【摘要】:社交媒體是近些年發(fā)展迅速的互聯(lián)網(wǎng)領(lǐng)域之一,每天都有大量的用戶在社交媒體網(wǎng)絡(luò)上進行信息共享和狀態(tài)分發(fā)。微博作為起步最早發(fā)展速度較快的社交媒體網(wǎng)絡(luò)平臺,吸引了大量的用戶注冊和使用。轉(zhuǎn)發(fā)是微博實現(xiàn)信息傳播的一個重要機制,用戶接收其他用戶分享的信息之后,可以將信息轉(zhuǎn)發(fā)到自己的社交媒體平臺上,從而將信息分享給更多的用戶。而且隨著移動互聯(lián)網(wǎng)的興起,如4G網(wǎng)絡(luò),Wi-Fi網(wǎng)絡(luò)的大規(guī)模覆蓋,智能手機的迅速普及,進一步吸引了更多用戶使用微博;谶@樣的應(yīng)用場景,對微博轉(zhuǎn)發(fā)過程進行分析就具有非凡的意義。對于公司而言,預(yù)測微博轉(zhuǎn)發(fā)數(shù)量可以幫助公司進行流量監(jiān)控和設(shè)備調(diào)整,從而提高用戶體驗。對于政府而言,輿情分析的重要組成部分就是設(shè)法得到當前社交媒體用戶關(guān)注的焦點,而微博轉(zhuǎn)發(fā)預(yù)測可以在一定程度上幫助政府及時應(yīng)對由于信息爆發(fā)性傳播而產(chǎn)生的群體事件。本文主要通過三個角度描述微博轉(zhuǎn)發(fā)過程的特征,即用戶社交網(wǎng)絡(luò)結(jié)構(gòu),用戶轉(zhuǎn)發(fā)微博時序間隔和微博文本自然語言特征,利用深度學習框架,預(yù)測一條給定微博的轉(zhuǎn)發(fā)數(shù)量。本論文的研究內(nèi)容主要由兩部分組成:其一在給定用戶的社交媒體網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,利用圖嵌入方法提取每一位用戶的網(wǎng)絡(luò)結(jié)構(gòu)特征,其基本思想是將由節(jié)點和連接邊構(gòu)成的圖向量化,從而達到降維和提取信息的目的。網(wǎng)絡(luò)結(jié)構(gòu)特征可以在一定程度上反映用戶所在在線社交社區(qū)的特點(如社區(qū)用戶之間連接是否緊密,不同用戶的相似性高低),從而為微博轉(zhuǎn)發(fā)預(yù)測提供信息;其二是通過使用遞歸神經(jīng)網(wǎng)絡(luò),整合用戶的網(wǎng)絡(luò)結(jié)構(gòu)特征,用戶轉(zhuǎn)發(fā)微博的時間間隔和規(guī)律以及微博文本的自然語言特征,得到一條給定微博的深度學習模型的轉(zhuǎn)發(fā)預(yù)測特征,之后即可利用深度學習網(wǎng)絡(luò)訓練得到的轉(zhuǎn)發(fā)預(yù)測特征進行微博轉(zhuǎn)發(fā)數(shù)量預(yù)測。本論文提出了基于社交網(wǎng)絡(luò)一階相似性和二階相似性的Fast Line圖嵌入算法和基于遞歸神經(jīng)網(wǎng)絡(luò)的微博轉(zhuǎn)發(fā)預(yù)測系統(tǒng),Fast Line和微博預(yù)測系統(tǒng)均是吸取了近幾年最先進的算法的優(yōu)點,并對先進算法存在的缺陷和不足進行改進。本論文的Fast Line圖嵌入算法利用近似優(yōu)化目標方程的方法,使得參數(shù)訓練速度相比較基線方法提高了一倍以上,同時圖嵌入結(jié)果的準確度與基線方法持平。本論文的微博預(yù)測系統(tǒng)與DeepCas方法的預(yù)測結(jié)果相比可以提高30%的預(yù)測準確率。
【圖文】:
大量語料庫中句子的分析,我們就可以得到一種語言或者對應(yīng)語料庫的分布和特征。同樣的,對于隨機游走產(chǎn)生的大量節(jié)點序列的分析,我們可以得到對應(yīng)原始網(wǎng)絡(luò)圖的結(jié)構(gòu)分布和特征信息。如圖2.3的給出的示例。圖 2.3 基于隨機游走的圖嵌入技術(shù)示例Fig. 2.3 The example of Graph embedding algorithm based on random walk.DeepWalk[31]是典型的使用隨機游走對網(wǎng)絡(luò)進行采樣的圖嵌入算法。DeepWalk一大亮點在于將語言模型Word2Vec[32,33]用于網(wǎng)絡(luò)表示學習,將隨機游走的路程視作語言模型中的句子,隨機游走的節(jié)點視作句子中的單詞。語言模型中的優(yōu)化目標是,給定一個單詞,預(yù)測其鄰居單詞,即最大化給定單詞的鄰居單詞的出現(xiàn)概率。應(yīng)用于網(wǎng)絡(luò)表示學習中,在圖結(jié)構(gòu)上進行隨機游走,隨機游走的路徑類比為語言模型中的句子,給定圖節(jié)點的表示特征,最大化游走中鄰居節(jié)點的概率。Word2Vec使用一個包含輸入層,一層隱藏層和輸入層的深度學習網(wǎng)絡(luò)求解單詞的低維嵌入表示,Word2Vec輸入網(wǎng)絡(luò)的數(shù)據(jù)每個單詞對應(yīng)的One-Hot向量表示(只有一個位置為1
遼寧科技大學碩士畢業(yè)論文下文,也就是節(jié)點的鄰域。NLP中,單詞的上下文是當前單詞周圍的字,DeepWalk用隨機游走得到網(wǎng)絡(luò)中節(jié)點的鄰域。都是給定一個中心節(jié)點的數(shù)據(jù),調(diào)整參數(shù),也就是節(jié)點的圖嵌入表示向量,,使得中心節(jié)點周圍的上下文出現(xiàn)的概率最大。因為在原始框架中,優(yōu)化以上提出的目標方程時間消耗和空間消耗很大,所以一般采用Hierarchy Softmax和負采樣等方法近似求解最優(yōu)值,加速深度神經(jīng)網(wǎng)絡(luò)參數(shù)學習過程。我們將會在第三章給出關(guān)于這兩個加速算法的更多細節(jié)。2.1.5 Node2VecNode2vec是DeepWalk的改進方法。在DeepWalk中,隨機游走的轉(zhuǎn)換概率一般遵循均勻分布,即與節(jié)點的度成反比關(guān)系。Node2Vec認為DeepWalk的隨機游走策略會偏向于深度優(yōu)先搜索,而節(jié)點鄰域的信息可能無法得到有效的采樣。因此,Node2Vec改進了隨機游走的策略,從而使得隨機游走得到的節(jié)點序列可以保持廣度優(yōu)先和深度優(yōu)先的所有特征,同時考慮到局部和宏觀的信息,以達到很高的適用性。圖2.4 給出Node2Vec隨機游走的示例。
【學位授予單位】:遼寧科技大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP393.092;TP18
【圖文】:
大量語料庫中句子的分析,我們就可以得到一種語言或者對應(yīng)語料庫的分布和特征。同樣的,對于隨機游走產(chǎn)生的大量節(jié)點序列的分析,我們可以得到對應(yīng)原始網(wǎng)絡(luò)圖的結(jié)構(gòu)分布和特征信息。如圖2.3的給出的示例。圖 2.3 基于隨機游走的圖嵌入技術(shù)示例Fig. 2.3 The example of Graph embedding algorithm based on random walk.DeepWalk[31]是典型的使用隨機游走對網(wǎng)絡(luò)進行采樣的圖嵌入算法。DeepWalk一大亮點在于將語言模型Word2Vec[32,33]用于網(wǎng)絡(luò)表示學習,將隨機游走的路程視作語言模型中的句子,隨機游走的節(jié)點視作句子中的單詞。語言模型中的優(yōu)化目標是,給定一個單詞,預(yù)測其鄰居單詞,即最大化給定單詞的鄰居單詞的出現(xiàn)概率。應(yīng)用于網(wǎng)絡(luò)表示學習中,在圖結(jié)構(gòu)上進行隨機游走,隨機游走的路徑類比為語言模型中的句子,給定圖節(jié)點的表示特征,最大化游走中鄰居節(jié)點的概率。Word2Vec使用一個包含輸入層,一層隱藏層和輸入層的深度學習網(wǎng)絡(luò)求解單詞的低維嵌入表示,Word2Vec輸入網(wǎng)絡(luò)的數(shù)據(jù)每個單詞對應(yīng)的One-Hot向量表示(只有一個位置為1
遼寧科技大學碩士畢業(yè)論文下文,也就是節(jié)點的鄰域。NLP中,單詞的上下文是當前單詞周圍的字,DeepWalk用隨機游走得到網(wǎng)絡(luò)中節(jié)點的鄰域。都是給定一個中心節(jié)點的數(shù)據(jù),調(diào)整參數(shù),也就是節(jié)點的圖嵌入表示向量,,使得中心節(jié)點周圍的上下文出現(xiàn)的概率最大。因為在原始框架中,優(yōu)化以上提出的目標方程時間消耗和空間消耗很大,所以一般采用Hierarchy Softmax和負采樣等方法近似求解最優(yōu)值,加速深度神經(jīng)網(wǎng)絡(luò)參數(shù)學習過程。我們將會在第三章給出關(guān)于這兩個加速算法的更多細節(jié)。2.1.5 Node2VecNode2vec是DeepWalk的改進方法。在DeepWalk中,隨機游走的轉(zhuǎn)換概率一般遵循均勻分布,即與節(jié)點的度成反比關(guān)系。Node2Vec認為DeepWalk的隨機游走策略會偏向于深度優(yōu)先搜索,而節(jié)點鄰域的信息可能無法得到有效的采樣。因此,Node2Vec改進了隨機游走的策略,從而使得隨機游走得到的節(jié)點序列可以保持廣度優(yōu)先和深度優(yōu)先的所有特征,同時考慮到局部和宏觀的信息,以達到很高的適用性。圖2.4 給出Node2Vec隨機游走的示例。
【學位授予單位】:遼寧科技大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP393.092;TP18
【參考文獻】
相關(guān)期刊論文 前6條
1 黃英來;孫曉芳;劉鎮(zhèn)波;高萌;;微博轉(zhuǎn)發(fā)預(yù)測算法評測系統(tǒng)的建立及性能比較[J];哈爾濱理工大學學報;2013年04期
2 李英樂;于洪濤;劉力雄;;基于SVM的微博轉(zhuǎn)發(fā)規(guī)模預(yù)測方法[J];計算機應(yīng)用研究;2013年09期
3 謝婧;劉功申;蘇波;孟魁;;社交網(wǎng)絡(luò)中的用戶轉(zhuǎn)發(fā)行為預(yù)測[J];上海交通大學學報;2013年04期
4 吳凱;季新生;劉彩霞;;基于行為預(yù)測的微博網(wǎng)絡(luò)信息傳播建模[J];計算機應(yīng)用研究;2013年06期
5 張e
本文編號:2699209
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2699209.html
最近更新
教材專著