基于網(wǎng)絡(luò)表示學(xué)習(xí)的社區(qū)發(fā)現(xiàn)技術(shù)研究
發(fā)布時(shí)間:2021-08-17 16:39
隨著在線社交網(wǎng)絡(luò)的日趨復(fù)雜,網(wǎng)絡(luò)節(jié)點(diǎn)逐漸成為負(fù)載多源信息的富節(jié)點(diǎn),除了網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息,節(jié)點(diǎn)本身的其他信息也是重要的數(shù)據(jù)源,譬如,社交網(wǎng)絡(luò)中用戶的屬性資料和生成文本,F(xiàn)有的社區(qū)發(fā)現(xiàn)算法多數(shù)是針對(duì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)實(shí)現(xiàn)社區(qū)劃分的,并沒(méi)有充分利用用戶特征,檢測(cè)得到的社區(qū)結(jié)構(gòu)不能準(zhǔn)確反映社交網(wǎng)絡(luò)的組織機(jī)理,對(duì)現(xiàn)實(shí)世界社區(qū)發(fā)現(xiàn)問(wèn)題的研究提出不小的挑戰(zhàn)。針對(duì)上述問(wèn)題,本文從如何融合多源信息來(lái)準(zhǔn)確刻畫(huà)用戶特征及如何基于用戶的特征表示實(shí)現(xiàn)社區(qū)劃分兩個(gè)問(wèn)題展開(kāi)研究,主要的研究工作包括以下兩個(gè)方面:第一,為了更準(zhǔn)確地刻畫(huà)復(fù)雜多源網(wǎng)絡(luò)的用戶特征,研究了一種基于網(wǎng)絡(luò)表示學(xué)習(xí)的用戶表示模型User2vec。首先,建立三個(gè)獨(dú)立的特征表示向量。其中,從用戶的屬性信息提取特征并建立屬性表示向量info2vec;從用戶生成文本分離出多粒度的文本內(nèi)容,采用TF-IDF、LDA、Doc2vec多種算法從不同文本內(nèi)容提取特征并生成文本表示向量blog2vec;從用戶的文本內(nèi)容擴(kuò)展稀疏的網(wǎng)絡(luò)結(jié)構(gòu),并將網(wǎng)絡(luò)表示學(xué)習(xí)技術(shù)應(yīng)用到擴(kuò)展網(wǎng)絡(luò)結(jié)構(gòu)中,建立增強(qiáng)網(wǎng)絡(luò)表示向量graph2vec。然后,提出兩種融合多源信息的用戶表示模型User2v...
【文章來(lái)源】:國(guó)防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
社區(qū)發(fā)現(xiàn)算法總覽圖
綾塵跋律縝?⑾至煊虼嬖詰奈侍庖約懊媼俚奶粽。?1.1 社區(qū)發(fā)現(xiàn)算法總覽圖1.2.1 非重疊社區(qū)發(fā)現(xiàn)算法社區(qū)發(fā)現(xiàn),從本質(zhì)上講,等同于圖分割問(wèn)題,即將網(wǎng)絡(luò)的圖結(jié)構(gòu)分割成若干個(gè)子圖,其劃分依據(jù)是網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。那么,傳統(tǒng)的圖劃分和圖聚類算法能夠有效地解決簡(jiǎn)單的社區(qū)發(fā)現(xiàn)問(wèn)題。圖劃分算法關(guān)注如何識(shí)別網(wǎng)絡(luò)的強(qiáng)弱連邊關(guān)系。Kernighan-Lin 算法[2]采用貪婪的優(yōu)化策略實(shí)現(xiàn)圖劃分,其主要思想是先為網(wǎng)絡(luò)定義一個(gè)增益函數(shù),通過(guò)貪婪搜索的方式尋找最優(yōu)的社區(qū)劃分結(jié)果,而且此時(shí)的增益函數(shù)值達(dá)到最大。該算法給出最優(yōu)的網(wǎng)絡(luò)劃分,且通過(guò)樹(shù)狀圖實(shí)現(xiàn)層次社區(qū)結(jié)構(gòu)的可視化,但是該算法的缺點(diǎn)在于需要首先指定兩個(gè)子社區(qū)的規(guī)模。另外,譜二分法是另一種應(yīng)用于社區(qū)發(fā)現(xiàn)問(wèn)題的經(jīng)典算法。如果計(jì)算得到的拉普拉斯矩陣的第二特征值越小,則劃分得到的社區(qū)效果越好。于是,譜二分法劃分社區(qū)的關(guān)鍵在于 Laplacian 矩陣特征值中第二小值的計(jì)算,算法的缺點(diǎn)是多個(gè)社區(qū)結(jié)構(gòu)的劃分效率比較低。
圖 1.3 派系過(guò)濾算法主要思想示意圖將標(biāo)簽傳播思想應(yīng)用到重疊社區(qū)發(fā)現(xiàn)問(wèn)題。其中,Steve Gregory 改進(jìn) LPA 算法,提出 COPRA 算法[22]。算法引入標(biāo)簽二元組(c,b),通過(guò)計(jì)算鄰接點(diǎn)標(biāo)簽的隸屬度來(lái)度量其傳播能力,同時(shí)該算法改變 LPA 算法原先的終止條件,通過(guò)跟蹤每輪計(jì)算結(jié)束后剩余標(biāo)簽集合的大小來(lái)判斷算法是否結(jié)束,即當(dāng)集合的大小不再變化更新,則算法結(jié)束,對(duì)應(yīng)的社區(qū)劃分即為最終的社區(qū)結(jié)構(gòu)。社區(qū)結(jié)構(gòu)是一種局部結(jié)構(gòu),某個(gè)社區(qū)的形成只取決于網(wǎng)絡(luò)局部的連接關(guān)系,其他區(qū)域的拓?fù)浣Y(jié)構(gòu)對(duì)其無(wú)任何影響。于是,Andrea Lancichinetti 等人于 2009 年根據(jù)局部擴(kuò)展優(yōu)化的思想,提出了 LFM 算法[23],以若干個(gè)節(jié)點(diǎn)為種子社區(qū),不斷擴(kuò)大節(jié)點(diǎn)社區(qū)的覆蓋范圍,從而迭代生成所有節(jié)點(diǎn)的歸屬社區(qū),得到原始網(wǎng)絡(luò)結(jié)構(gòu)的最終社區(qū)劃分,但是算法發(fā)現(xiàn)的社區(qū)結(jié)構(gòu)重疊程度較低。除此之外,2010 年,ConradLee 等人提出了另一種局部擴(kuò)展優(yōu)化算法 GCE[24],可以發(fā)現(xiàn)重疊度更高的社區(qū)結(jié)構(gòu)。Huang 等人于 2011 年提出了一種無(wú)參的層次網(wǎng)絡(luò)聚類算法 DenShrink[25],將基于密度的層次聚類算法與模塊度優(yōu)化算法相結(jié)合,解決大規(guī)模加權(quán)有向網(wǎng)絡(luò)的層次社區(qū)結(jié)構(gòu)檢測(cè)問(wèn)題。
【參考文獻(xiàn)】:
期刊論文
[1]網(wǎng)絡(luò)表示學(xué)習(xí)綜述[J]. 涂存超,楊成,劉知遠(yuǎn),孫茂松. 中國(guó)科學(xué):信息科學(xué). 2017(08)
[2]網(wǎng)絡(luò)表示學(xué)習(xí)[J]. 陳維政,張巖,李曉明. 大數(shù)據(jù). 2015(03)
[3]一種基于主題相似性和網(wǎng)絡(luò)拓?fù)涞奈⒉┥鐓^(qū)發(fā)現(xiàn)方法[J]. 王衛(wèi)平,范田. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2013(06)
[4]復(fù)雜網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)算法研究新進(jìn)展[J]. 駱志剛,丁凡,蔣曉舟,石金龍. 國(guó)防科技大學(xué)學(xué)報(bào). 2011(01)
本文編號(hào):3348118
【文章來(lái)源】:國(guó)防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
社區(qū)發(fā)現(xiàn)算法總覽圖
綾塵跋律縝?⑾至煊虼嬖詰奈侍庖約懊媼俚奶粽。?1.1 社區(qū)發(fā)現(xiàn)算法總覽圖1.2.1 非重疊社區(qū)發(fā)現(xiàn)算法社區(qū)發(fā)現(xiàn),從本質(zhì)上講,等同于圖分割問(wèn)題,即將網(wǎng)絡(luò)的圖結(jié)構(gòu)分割成若干個(gè)子圖,其劃分依據(jù)是網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。那么,傳統(tǒng)的圖劃分和圖聚類算法能夠有效地解決簡(jiǎn)單的社區(qū)發(fā)現(xiàn)問(wèn)題。圖劃分算法關(guān)注如何識(shí)別網(wǎng)絡(luò)的強(qiáng)弱連邊關(guān)系。Kernighan-Lin 算法[2]采用貪婪的優(yōu)化策略實(shí)現(xiàn)圖劃分,其主要思想是先為網(wǎng)絡(luò)定義一個(gè)增益函數(shù),通過(guò)貪婪搜索的方式尋找最優(yōu)的社區(qū)劃分結(jié)果,而且此時(shí)的增益函數(shù)值達(dá)到最大。該算法給出最優(yōu)的網(wǎng)絡(luò)劃分,且通過(guò)樹(shù)狀圖實(shí)現(xiàn)層次社區(qū)結(jié)構(gòu)的可視化,但是該算法的缺點(diǎn)在于需要首先指定兩個(gè)子社區(qū)的規(guī)模。另外,譜二分法是另一種應(yīng)用于社區(qū)發(fā)現(xiàn)問(wèn)題的經(jīng)典算法。如果計(jì)算得到的拉普拉斯矩陣的第二特征值越小,則劃分得到的社區(qū)效果越好。于是,譜二分法劃分社區(qū)的關(guān)鍵在于 Laplacian 矩陣特征值中第二小值的計(jì)算,算法的缺點(diǎn)是多個(gè)社區(qū)結(jié)構(gòu)的劃分效率比較低。
圖 1.3 派系過(guò)濾算法主要思想示意圖將標(biāo)簽傳播思想應(yīng)用到重疊社區(qū)發(fā)現(xiàn)問(wèn)題。其中,Steve Gregory 改進(jìn) LPA 算法,提出 COPRA 算法[22]。算法引入標(biāo)簽二元組(c,b),通過(guò)計(jì)算鄰接點(diǎn)標(biāo)簽的隸屬度來(lái)度量其傳播能力,同時(shí)該算法改變 LPA 算法原先的終止條件,通過(guò)跟蹤每輪計(jì)算結(jié)束后剩余標(biāo)簽集合的大小來(lái)判斷算法是否結(jié)束,即當(dāng)集合的大小不再變化更新,則算法結(jié)束,對(duì)應(yīng)的社區(qū)劃分即為最終的社區(qū)結(jié)構(gòu)。社區(qū)結(jié)構(gòu)是一種局部結(jié)構(gòu),某個(gè)社區(qū)的形成只取決于網(wǎng)絡(luò)局部的連接關(guān)系,其他區(qū)域的拓?fù)浣Y(jié)構(gòu)對(duì)其無(wú)任何影響。于是,Andrea Lancichinetti 等人于 2009 年根據(jù)局部擴(kuò)展優(yōu)化的思想,提出了 LFM 算法[23],以若干個(gè)節(jié)點(diǎn)為種子社區(qū),不斷擴(kuò)大節(jié)點(diǎn)社區(qū)的覆蓋范圍,從而迭代生成所有節(jié)點(diǎn)的歸屬社區(qū),得到原始網(wǎng)絡(luò)結(jié)構(gòu)的最終社區(qū)劃分,但是算法發(fā)現(xiàn)的社區(qū)結(jié)構(gòu)重疊程度較低。除此之外,2010 年,ConradLee 等人提出了另一種局部擴(kuò)展優(yōu)化算法 GCE[24],可以發(fā)現(xiàn)重疊度更高的社區(qū)結(jié)構(gòu)。Huang 等人于 2011 年提出了一種無(wú)參的層次網(wǎng)絡(luò)聚類算法 DenShrink[25],將基于密度的層次聚類算法與模塊度優(yōu)化算法相結(jié)合,解決大規(guī)模加權(quán)有向網(wǎng)絡(luò)的層次社區(qū)結(jié)構(gòu)檢測(cè)問(wèn)題。
【參考文獻(xiàn)】:
期刊論文
[1]網(wǎng)絡(luò)表示學(xué)習(xí)綜述[J]. 涂存超,楊成,劉知遠(yuǎn),孫茂松. 中國(guó)科學(xué):信息科學(xué). 2017(08)
[2]網(wǎng)絡(luò)表示學(xué)習(xí)[J]. 陳維政,張巖,李曉明. 大數(shù)據(jù). 2015(03)
[3]一種基于主題相似性和網(wǎng)絡(luò)拓?fù)涞奈⒉┥鐓^(qū)發(fā)現(xiàn)方法[J]. 王衛(wèi)平,范田. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2013(06)
[4]復(fù)雜網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)算法研究新進(jìn)展[J]. 駱志剛,丁凡,蔣曉舟,石金龍. 國(guó)防科技大學(xué)學(xué)報(bào). 2011(01)
本文編號(hào):3348118
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3348118.html
最近更新
教材專著