天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于蟻群算法的文本網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)方法研究

發(fā)布時(shí)間:2020-03-26 11:30
【摘要】:文本作為信息載體,是互聯(lián)網(wǎng)資源傳播的主要途徑,海量的數(shù)據(jù)信息使用戶在查詢時(shí)選擇太多,真假難辨,如何高效準(zhǔn)確搜尋目標(biāo)信息是一個(gè)亟待解決的問(wèn)題.復(fù)雜網(wǎng)絡(luò)的興起開(kāi)拓了社區(qū)結(jié)構(gòu)研究的視野,學(xué)者們相繼從各種網(wǎng)絡(luò)數(shù)據(jù)集中有效發(fā)現(xiàn)社區(qū)結(jié)構(gòu),因此對(duì)文本網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)的研究成為一個(gè)重要課題.而重疊社區(qū)檢測(cè)在研究真實(shí)網(wǎng)絡(luò)的隱藏結(jié)構(gòu)方面效果突出,本文對(duì)文本加權(quán)復(fù)雜網(wǎng)絡(luò)進(jìn)行基于蟻群算法的文本網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)研究.首先,本文基于文本相似度構(gòu)建加權(quán)網(wǎng)絡(luò)模型.利用詞語(yǔ)共現(xiàn)網(wǎng)中節(jié)點(diǎn)的綜合特性提取可反映文本主題的關(guān)鍵詞,并借助維基百科知識(shí)庫(kù),進(jìn)行詞語(yǔ)-概念匹配,通過(guò)鏈接距離和類別距離綜合度量詞語(yǔ)間相關(guān)度.然后提出一種綜合考慮語(yǔ)義信息與語(yǔ)言結(jié)構(gòu)的文本相似度方法,進(jìn)而構(gòu)建出以文本為節(jié)點(diǎn),以相似度為邊權(quán)的文本集復(fù)雜網(wǎng)絡(luò).其次,本文提出了一種改進(jìn)蟻群算法優(yōu)化重疊社區(qū)發(fā)現(xiàn)算法(LEAC-OCD).該算法將核心節(jié)點(diǎn)與鄰居普通節(jié)點(diǎn)構(gòu)成三角形模體,以模體作為蟻群算法的初始值.然后構(gòu)造模體加權(quán)社區(qū)聚類函數(shù)作為算法的適應(yīng)性函數(shù),用于判斷和量化社區(qū)結(jié)構(gòu)的穩(wěn)定性,并采用模體有序表編碼方法,實(shí)現(xiàn)粗糙劃分社區(qū)結(jié)構(gòu).算法通過(guò)螞蟻在轉(zhuǎn)移機(jī)制的啟發(fā)下自由移動(dòng)改變螞蟻位置的歸屬,再利用后處理策略得到重疊社區(qū)劃分結(jié)果.實(shí)驗(yàn)表明,在模擬數(shù)據(jù)集與人工數(shù)據(jù)上,LEAC-OCD算法優(yōu)于其它經(jīng)典算法.最后,將LEAC-OCD算法應(yīng)用于文本網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)中.先利用GN算法對(duì)不同數(shù)據(jù)集進(jìn)行劃分,確定文本相似度的有效閾值區(qū)間,進(jìn)而構(gòu)建不同閾值的文本網(wǎng)絡(luò),再運(yùn)用LEAC-OCD算法及其他經(jīng)典重疊社區(qū)發(fā)現(xiàn)方法劃分文本網(wǎng)絡(luò),結(jié)果表明本文的算法模塊度函數(shù)值較高,能有效劃分出高質(zhì)量文本社區(qū).
【圖文】:

平分法,社區(qū)


圖 1-3 Karate 網(wǎng)絡(luò)的譜平分法劃分結(jié)果區(qū)發(fā)現(xiàn)方法區(qū)發(fā)現(xiàn)方法旨在將復(fù)雜網(wǎng)絡(luò)劃分為若干個(gè)彼此獨(dú)立分離的社區(qū), 但是在實(shí)際網(wǎng)絡(luò)中存在許多彼此重疊、相互關(guān)聯(lián)的社網(wǎng)絡(luò)中, 一個(gè)企業(yè)集團(tuán)可能同時(shí)運(yùn)營(yíng)房地產(chǎn)、影視娛樂(lè)、文幾個(gè)不同的社團(tuán)中; 語(yǔ)義網(wǎng)絡(luò)中, 每個(gè)單詞因具有多個(gè)詞性在科學(xué)研究合作網(wǎng)中, 科學(xué)家或研究員具有研究不同領(lǐng)域的質(zhì)功能劃分社區(qū), 許多蛋白質(zhì)具備多個(gè)功能, 該網(wǎng)絡(luò)是重疊同時(shí)隸屬于多個(gè)不同的社區(qū), 更能真實(shí)反映網(wǎng)絡(luò)的組成結(jié)構(gòu)同原理的研究, 本文分為以下六類: 派系過(guò)濾算法(Cli擴(kuò)展和優(yōu)化方法、鏈接劃分算法、模糊檢測(cè)算法、標(biāo)簽傳過(guò)濾算法(Clique percolation method)[22]由 Palla 等最先提出, 是通過(guò)

集網(wǎng),算法


圖 4-4 算法在模擬數(shù)據(jù)集上的 NMI 值對(duì)比結(jié)果LEAC-OCD 算法、CPM 算法、LPPB 算法和 COPRA 算法在真實(shí)數(shù)據(jù)集網(wǎng)絡(luò)得到的SQ值均在0.5以上, 表明具有劃分較清楚的重疊社區(qū)結(jié)構(gòu), 如下圖4-5將LEAC-OCD算法與其他算法作對(duì)比, 在真實(shí)數(shù)據(jù)集網(wǎng)絡(luò)得到的 SQ 值比其他三種算法較高, 除在較大節(jié)點(diǎn)的 PGP 網(wǎng)絡(luò)中, LEAC-OCD 算法 SQ 值低于 LPPB 和 COPRA, 但高于 CPM 算法.該算法無(wú)論在大規(guī)模還是小規(guī)模的數(shù)據(jù)集上都有較穩(wěn)定的精度.圖 4-5 算法在真實(shí)數(shù)據(jù)集網(wǎng)絡(luò)上得到的 SQ 值2 2.5 3 3
【學(xué)位授予單位】:武漢理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:O157.5;TP18

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 汪明霓;BASIC文本系統(tǒng)[J];計(jì)算機(jī)應(yīng)用研究;1988年01期

2 易樹(shù)鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期

3 婁道國(guó);李若斌;劉冰;張冬冬;;云計(jì)算下各分散文本數(shù)據(jù)的全方位集成融合方法[J];科技通報(bào);2019年02期

4 潘大勝;;不確定噪聲下海量文本數(shù)據(jù)的模糊挖掘算法研究[J];微電子學(xué)與計(jì)算機(jī);2017年09期

5 王珊珊;馮利鑫;;基于新詞識(shí)別的大數(shù)據(jù)聊天文本輿情熱點(diǎn)挖掘[J];電子商務(wù);2018年01期

6 陳曉峰;如何在flash中讀入外部文本數(shù)據(jù)[J];電腦知識(shí)與技術(shù);2004年13期

7 馬欣欣;林克;;大文本數(shù)據(jù)快速分析統(tǒng)計(jì)理論與算法[J];電子元器件與信息技術(shù);2019年01期

8 施瑞朗;;基于社交平臺(tái)數(shù)據(jù)的文本分類算法研究[J];電子科技;2018年10期

9 張玉紅;陳偉;胡學(xué)鋼;;一種面向不完全標(biāo)記的文本數(shù)據(jù)流自適應(yīng)分類方法[J];計(jì)算機(jī)科學(xué);2016年12期

10 袁鵬;江媛媛;;多元化文本數(shù)據(jù)的智能提取[J];測(cè)繪與空間地理信息;2015年09期

相關(guān)會(huì)議論文 前10條

1 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年

2 陳光強(qiáng);楊樹(shù)強(qiáng);張曉輝;李潤(rùn)恒;賈焰;;面向海量文本數(shù)據(jù)的多任務(wù)并行調(diào)度加載技術(shù)研究與實(shí)現(xiàn)[A];第15屆全國(guó)信息存儲(chǔ)技術(shù)學(xué)術(shù)會(huì)議論文集[C];2008年

3 周純潔;黎],

本文編號(hào):2601379


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/yysx/2601379.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶246b9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com