基于MapReduce模型的海量郵件社交關系分析研究
發(fā)布時間:2017-03-30 05:05
本文關鍵詞:基于MapReduce模型的海量郵件社交關系分析研究,由筆耕文化傳播整理發(fā)布。
【摘要】:進入新世紀以來,隨著Internet的高速發(fā)展,電子郵件作為Internet上的一種溝通交流方式,已經成為人們日常生活中必不可少的交流通信方式之一。電子郵件網(wǎng)絡作為社會網(wǎng)絡的一種,能夠在一定程度上反映人們的社交關系。研究電子郵件網(wǎng)絡拓撲模型的結構,可以為網(wǎng)絡中消息或者病毒的傳播模式以及人們的通信行為提供理論基礎。然而,對于我們來說,如何快速有效地處理網(wǎng)絡爆炸時代的海量電子郵件數(shù)據(jù)并從中挖掘分析其中蘊含的社交關系,如尋找網(wǎng)絡中存在的用戶之間的關系鏈以及發(fā)現(xiàn)網(wǎng)絡中的朋友圈等社交關系,是一個難度不小的挑戰(zhàn)。本文的主要研究內容如下:(1)由于電子郵件網(wǎng)絡的復雜性,本文在充分研究復雜網(wǎng)絡理論之后,從實際電子郵件網(wǎng)絡出發(fā),采用復雜網(wǎng)絡理論處理電子郵件網(wǎng)絡,構造了有向加權的電子郵件網(wǎng)絡拓撲模型,并分析其拓撲特性。(2)參考復雜網(wǎng)絡的搜索策略原理,從搜索路徑的可靠性出發(fā),提出了一種基于點權和邊權(WNE)的電子郵件網(wǎng)絡搜索策略,在兼顧搜索速度和搜索代價的基礎上,找到一條可靠性高的路徑。(3)提出了改進的邊聚類系數(shù)社團劃分(ICPECC)算法。該算法考慮電子郵件網(wǎng)絡的社會網(wǎng)絡特性,在社團劃分之初,引入Canopy算法對網(wǎng)絡進行初始粗糙劃分,將網(wǎng)絡劃分為若干個較為緊密結合的子集,在此基礎上,采用適宜社會網(wǎng)絡分析的Radicchi社團劃分算法對Canopy集合中的弱標記節(jié)點集進行處理,降低算法計算量,提高算法效率。本文提出的這種社團劃分算法最終劃分的結果比較適合分析社會網(wǎng)絡的“圈子”特性,且算法的執(zhí)行效率有了一定提升,同時優(yōu)化后的算法流程非常適合在并行計算模型MapReduce上實現(xiàn),對海量郵件數(shù)據(jù)的處理具有很高的實用價值。(4)就以上三個方面的研究內容,在某合作單位提供的電子郵件語料集上進行實驗,詳細分析驗證模型及算法的效果,驗證其合理性和有效性。
【關鍵詞】:電子郵件網(wǎng)絡 復雜網(wǎng)絡 點權 邊權 搜索策略 社團劃分 Radicchi算法 Canopy算法 MapReduce
【學位授予單位】:南京理工大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.098
【目錄】:
- 摘要3-4
- Abstract4-8
- 1 緒論8-13
- 1.1 研究背景8
- 1.2 國內外研究現(xiàn)狀8-11
- 1.2.1 社會網(wǎng)絡研究現(xiàn)狀8-9
- 1.2.2 復雜網(wǎng)絡研究現(xiàn)狀9-10
- 1.2.3 電子郵件網(wǎng)絡研究現(xiàn)狀10
- 1.2.4 MapReduce模型應用研究現(xiàn)狀10-11
- 1.3 研究內容11
- 1.4 組織結構11-13
- 2 基于復雜網(wǎng)絡的電子郵件網(wǎng)絡建模與分析13-26
- 2.1 復雜網(wǎng)絡相關原理13-18
- 2.1.1 復雜網(wǎng)絡的基本性質13-15
- 2.1.2 復雜網(wǎng)絡的基本模型15-18
- 2.2 電子郵件網(wǎng)絡的建模18-21
- 2.2.1 電子郵件必要信息提取18-19
- 2.2.2 郵件網(wǎng)絡關聯(lián)關系分析19-20
- 2.2.3 電子郵件網(wǎng)絡的拓撲建模及形式化表達20-21
- 2.3 電子郵件網(wǎng)絡的拓撲特性分析21-25
- 2.3.1 實驗數(shù)據(jù)介紹22-23
- 2.3.2 電子郵件數(shù)據(jù)預處理23-24
- 2.3.3 網(wǎng)絡拓撲特性計算與分析24-25
- 2.4 小結25-26
- 3 基于點權和邊權的電子郵件網(wǎng)絡搜索策略研究26-39
- 3.1 現(xiàn)有復雜網(wǎng)絡基本搜索策略26-29
- 3.1.1 廣度優(yōu)先搜索策略26-27
- 3.1.2 隨機游走搜索策略27-28
- 3.1.3 最大度搜索策略28-29
- 3.2 基于點權和邊權的電子郵件網(wǎng)絡搜索策略29-30
- 3.3 搜索評價指標30-31
- 3.3.1 平均搜索步數(shù)31
- 3.3.2 平均搜索代價31
- 3.4 基于點權和邊權的電子郵件網(wǎng)絡搜索策略的實現(xiàn)31-35
- 3.4.1 搜索相關數(shù)據(jù)類的設計31-32
- 3.4.2 搜索過程的實現(xiàn)32-35
- 3.5 仿真實驗分析35-38
- 3.5.1 不同搜索策略的搜索結果36
- 3.5.2 結果分析評價36-38
- 3.6 小結38-39
- 4 改進的邊聚類系數(shù)社團劃分算法及并行化實現(xiàn)39-64
- 4.1 復雜網(wǎng)絡的社團發(fā)現(xiàn)方法39-44
- 4.1.1 基于優(yōu)化的算法40-42
- 4.1.2 基于啟發(fā)的算法42-43
- 4.1.3 社團劃分評價指標43-44
- 4.2 改進的邊聚類系數(shù)社團劃分算法ICPECC44-54
- 4.2.1 理論基礎45-46
- 4.2.2 算法思想46-47
- 4.2.3 算法步驟47-49
- 4.2.4 實驗與結果分析49-54
- 4.3 MapReduce計算模型相關介紹54-57
- 4.3.1 MapReduce并行計算模型54-56
- 4.3.2 HDFS文件系統(tǒng)56-57
- 4.4 ICPECC算法的并行化實現(xiàn)57-62
- 4.4.1 ICPECC算法并行化設計57-59
- 4.4.2 實驗與結果分析59-62
- 4.6 小結62-64
- 5 總結展望64-66
- 5.1 研究工作總結64
- 5.2 研究展望64-66
- 致謝66-67
- 參考文獻67-71
- 附錄71
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前7條
1 方錦清;汪小帆;鄭志剛;;非線性網(wǎng)絡的動力學復雜性的研究[J];復雜系統(tǒng)與復雜性科學;2010年Z1期
2 陶永才;薛正元;石磊;;基于MapReduce的貝葉斯垃圾郵件過濾機制[J];計算機應用;2011年09期
3 牛長喜;李樂民;許都;;一種用于電子郵件網(wǎng)絡中的綜合利用網(wǎng)絡拓撲與傳播參數(shù)的免疫方法設計[J];計算機應用研究;2012年01期
4 趙之瀅;于海;朱志良;汪小帆;;基于網(wǎng)絡社團結構的節(jié)點傳播影響力分析[J];計算機學報;2014年04期
5 許春玲;張廣泉;;分布式文件系統(tǒng)Hadoop HDFS與傳統(tǒng)文件系統(tǒng)Linux FS的比較與分析[J];蘇州大學學報(工科版);2010年04期
6 許峰;毛鋼;秦臻;;復雜網(wǎng)絡特征量度及典型網(wǎng)絡模型分析[J];通信技術;2010年09期
7 彭玲;徐汀榮;喬志偉;;基于核心圖聚類的郵件網(wǎng)絡社區(qū)發(fā)現(xiàn)[J];微型機與應用;2010年17期
本文關鍵詞:基于MapReduce模型的海量郵件社交關系分析研究,由筆耕文化傳播整理發(fā)布。
,本文編號:276271
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/276271.html
最近更新
教材專著