基于網絡表示學習的社區(qū)發(fā)現(xiàn)技術研究
發(fā)布時間:2021-08-17 16:39
隨著在線社交網絡的日趨復雜,網絡節(jié)點逐漸成為負載多源信息的富節(jié)點,除了網絡的拓撲結構信息,節(jié)點本身的其他信息也是重要的數(shù)據(jù)源,譬如,社交網絡中用戶的屬性資料和生成文本,F(xiàn)有的社區(qū)發(fā)現(xiàn)算法多數(shù)是針對網絡拓撲結構實現(xiàn)社區(qū)劃分的,并沒有充分利用用戶特征,檢測得到的社區(qū)結構不能準確反映社交網絡的組織機理,對現(xiàn)實世界社區(qū)發(fā)現(xiàn)問題的研究提出不小的挑戰(zhàn)。針對上述問題,本文從如何融合多源信息來準確刻畫用戶特征及如何基于用戶的特征表示實現(xiàn)社區(qū)劃分兩個問題展開研究,主要的研究工作包括以下兩個方面:第一,為了更準確地刻畫復雜多源網絡的用戶特征,研究了一種基于網絡表示學習的用戶表示模型User2vec。首先,建立三個獨立的特征表示向量。其中,從用戶的屬性信息提取特征并建立屬性表示向量info2vec;從用戶生成文本分離出多粒度的文本內容,采用TF-IDF、LDA、Doc2vec多種算法從不同文本內容提取特征并生成文本表示向量blog2vec;從用戶的文本內容擴展稀疏的網絡結構,并將網絡表示學習技術應用到擴展網絡結構中,建立增強網絡表示向量graph2vec。然后,提出兩種融合多源信息的用戶表示模型User2v...
【文章來源】:國防科技大學湖南省 211工程院校 985工程院校
【文章頁數(shù)】:81 頁
【學位級別】:碩士
【部分圖文】:
社區(qū)發(fā)現(xiàn)算法總覽圖
綾塵跋律縝?⑾至煊虼嬖詰奈侍庖約懊媼俚奶粽。?1.1 社區(qū)發(fā)現(xiàn)算法總覽圖1.2.1 非重疊社區(qū)發(fā)現(xiàn)算法社區(qū)發(fā)現(xiàn),從本質上講,等同于圖分割問題,即將網絡的圖結構分割成若干個子圖,其劃分依據(jù)是網絡的拓撲結構。那么,傳統(tǒng)的圖劃分和圖聚類算法能夠有效地解決簡單的社區(qū)發(fā)現(xiàn)問題。圖劃分算法關注如何識別網絡的強弱連邊關系。Kernighan-Lin 算法[2]采用貪婪的優(yōu)化策略實現(xiàn)圖劃分,其主要思想是先為網絡定義一個增益函數(shù),通過貪婪搜索的方式尋找最優(yōu)的社區(qū)劃分結果,而且此時的增益函數(shù)值達到最大。該算法給出最優(yōu)的網絡劃分,且通過樹狀圖實現(xiàn)層次社區(qū)結構的可視化,但是該算法的缺點在于需要首先指定兩個子社區(qū)的規(guī)模。另外,譜二分法是另一種應用于社區(qū)發(fā)現(xiàn)問題的經典算法。如果計算得到的拉普拉斯矩陣的第二特征值越小,則劃分得到的社區(qū)效果越好。于是,譜二分法劃分社區(qū)的關鍵在于 Laplacian 矩陣特征值中第二小值的計算,算法的缺點是多個社區(qū)結構的劃分效率比較低。
圖 1.3 派系過濾算法主要思想示意圖將標簽傳播思想應用到重疊社區(qū)發(fā)現(xiàn)問題。其中,Steve Gregory 改進 LPA 算法,提出 COPRA 算法[22]。算法引入標簽二元組(c,b),通過計算鄰接點標簽的隸屬度來度量其傳播能力,同時該算法改變 LPA 算法原先的終止條件,通過跟蹤每輪計算結束后剩余標簽集合的大小來判斷算法是否結束,即當集合的大小不再變化更新,則算法結束,對應的社區(qū)劃分即為最終的社區(qū)結構。社區(qū)結構是一種局部結構,某個社區(qū)的形成只取決于網絡局部的連接關系,其他區(qū)域的拓撲結構對其無任何影響。于是,Andrea Lancichinetti 等人于 2009 年根據(jù)局部擴展優(yōu)化的思想,提出了 LFM 算法[23],以若干個節(jié)點為種子社區(qū),不斷擴大節(jié)點社區(qū)的覆蓋范圍,從而迭代生成所有節(jié)點的歸屬社區(qū),得到原始網絡結構的最終社區(qū)劃分,但是算法發(fā)現(xiàn)的社區(qū)結構重疊程度較低。除此之外,2010 年,ConradLee 等人提出了另一種局部擴展優(yōu)化算法 GCE[24],可以發(fā)現(xiàn)重疊度更高的社區(qū)結構。Huang 等人于 2011 年提出了一種無參的層次網絡聚類算法 DenShrink[25],將基于密度的層次聚類算法與模塊度優(yōu)化算法相結合,解決大規(guī)模加權有向網絡的層次社區(qū)結構檢測問題。
【參考文獻】:
期刊論文
[1]網絡表示學習綜述[J]. 涂存超,楊成,劉知遠,孫茂松. 中國科學:信息科學. 2017(08)
[2]網絡表示學習[J]. 陳維政,張巖,李曉明. 大數(shù)據(jù). 2015(03)
[3]一種基于主題相似性和網絡拓撲的微博社區(qū)發(fā)現(xiàn)方法[J]. 王衛(wèi)平,范田. 計算機系統(tǒng)應用. 2013(06)
[4]復雜網絡社團發(fā)現(xiàn)算法研究新進展[J]. 駱志剛,丁凡,蔣曉舟,石金龍. 國防科技大學學報. 2011(01)
本文編號:3348118
【文章來源】:國防科技大學湖南省 211工程院校 985工程院校
【文章頁數(shù)】:81 頁
【學位級別】:碩士
【部分圖文】:
社區(qū)發(fā)現(xiàn)算法總覽圖
綾塵跋律縝?⑾至煊虼嬖詰奈侍庖約懊媼俚奶粽。?1.1 社區(qū)發(fā)現(xiàn)算法總覽圖1.2.1 非重疊社區(qū)發(fā)現(xiàn)算法社區(qū)發(fā)現(xiàn),從本質上講,等同于圖分割問題,即將網絡的圖結構分割成若干個子圖,其劃分依據(jù)是網絡的拓撲結構。那么,傳統(tǒng)的圖劃分和圖聚類算法能夠有效地解決簡單的社區(qū)發(fā)現(xiàn)問題。圖劃分算法關注如何識別網絡的強弱連邊關系。Kernighan-Lin 算法[2]采用貪婪的優(yōu)化策略實現(xiàn)圖劃分,其主要思想是先為網絡定義一個增益函數(shù),通過貪婪搜索的方式尋找最優(yōu)的社區(qū)劃分結果,而且此時的增益函數(shù)值達到最大。該算法給出最優(yōu)的網絡劃分,且通過樹狀圖實現(xiàn)層次社區(qū)結構的可視化,但是該算法的缺點在于需要首先指定兩個子社區(qū)的規(guī)模。另外,譜二分法是另一種應用于社區(qū)發(fā)現(xiàn)問題的經典算法。如果計算得到的拉普拉斯矩陣的第二特征值越小,則劃分得到的社區(qū)效果越好。于是,譜二分法劃分社區(qū)的關鍵在于 Laplacian 矩陣特征值中第二小值的計算,算法的缺點是多個社區(qū)結構的劃分效率比較低。
圖 1.3 派系過濾算法主要思想示意圖將標簽傳播思想應用到重疊社區(qū)發(fā)現(xiàn)問題。其中,Steve Gregory 改進 LPA 算法,提出 COPRA 算法[22]。算法引入標簽二元組(c,b),通過計算鄰接點標簽的隸屬度來度量其傳播能力,同時該算法改變 LPA 算法原先的終止條件,通過跟蹤每輪計算結束后剩余標簽集合的大小來判斷算法是否結束,即當集合的大小不再變化更新,則算法結束,對應的社區(qū)劃分即為最終的社區(qū)結構。社區(qū)結構是一種局部結構,某個社區(qū)的形成只取決于網絡局部的連接關系,其他區(qū)域的拓撲結構對其無任何影響。于是,Andrea Lancichinetti 等人于 2009 年根據(jù)局部擴展優(yōu)化的思想,提出了 LFM 算法[23],以若干個節(jié)點為種子社區(qū),不斷擴大節(jié)點社區(qū)的覆蓋范圍,從而迭代生成所有節(jié)點的歸屬社區(qū),得到原始網絡結構的最終社區(qū)劃分,但是算法發(fā)現(xiàn)的社區(qū)結構重疊程度較低。除此之外,2010 年,ConradLee 等人提出了另一種局部擴展優(yōu)化算法 GCE[24],可以發(fā)現(xiàn)重疊度更高的社區(qū)結構。Huang 等人于 2011 年提出了一種無參的層次網絡聚類算法 DenShrink[25],將基于密度的層次聚類算法與模塊度優(yōu)化算法相結合,解決大規(guī)模加權有向網絡的層次社區(qū)結構檢測問題。
【參考文獻】:
期刊論文
[1]網絡表示學習綜述[J]. 涂存超,楊成,劉知遠,孫茂松. 中國科學:信息科學. 2017(08)
[2]網絡表示學習[J]. 陳維政,張巖,李曉明. 大數(shù)據(jù). 2015(03)
[3]一種基于主題相似性和網絡拓撲的微博社區(qū)發(fā)現(xiàn)方法[J]. 王衛(wèi)平,范田. 計算機系統(tǒng)應用. 2013(06)
[4]復雜網絡社團發(fā)現(xiàn)算法研究新進展[J]. 駱志剛,丁凡,蔣曉舟,石金龍. 國防科技大學學報. 2011(01)
本文編號:3348118
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3348118.html
最近更新
教材專著