面向生物領域的復雜網(wǎng)絡社團檢測和關鍵結點識別研究
發(fā)布時間:2020-08-16 21:27
【摘要】:近年來,國際上關于生物領域研究團隊發(fā)展趨勢研究的文獻大量涌現(xiàn),涉及內容及研究熱點非常廣泛并且呈現(xiàn)出了多種學科相結合的新態(tài)勢,這也對其研究提出了更高的要求。基于以上背景,本課題運用復雜網(wǎng)絡社團檢測的方法,在對生物領域文獻數(shù)據(jù)構建異質網(wǎng)絡的基礎上,對研究者互合著、研究機構的社團結構和關鍵結點進行了分析。具體工作如下:第一,基于生物領域文獻數(shù)據(jù)構建了“論文-研究者-團隊”的多層異質復雜網(wǎng)絡,形式化描述了論文層、研究者層以及團隊層的網(wǎng)絡結構,介紹定義了網(wǎng)絡統(tǒng)計特性指標,并對研究者網(wǎng)絡及研究團隊網(wǎng)絡的網(wǎng)絡統(tǒng)計特性進行了分析。第二,提出了一個動態(tài)網(wǎng)絡社團檢測的PPNMF算法,運用該算法對構建的多層異質復雜網(wǎng)絡進行了社團檢測。接著介紹了結點重要性評估指標c-index的形式化定義,對檢測得到的社團中的重要性結點進行了識別和分析。運用可視化工具呈現(xiàn)出社團檢測結果,標注出每個社團中的關鍵性結點以及這些結點之間的聯(lián)系。本課題基于生物領域文獻數(shù)據(jù)完成了多層異質復雜網(wǎng)絡的構建,提出了動態(tài)網(wǎng)絡的社團檢測方法。并且分析了研究者網(wǎng)絡和研究者團隊網(wǎng)絡的統(tǒng)計特性,對這兩個網(wǎng)絡進行了社團檢測,識別出社團中的關鍵性的研究者以及研究者團隊,以及分析了這些關鍵性結點之間的關系。最后通過可視化工具,將復雜網(wǎng)絡社團檢測及關鍵性結點識別的結果呈現(xiàn)出來。
【學位授予單位】:天津大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:O157.5
【圖文】:
圖 3-1 生物研究總數(shù)據(jù)集脈絡3.1.2生物領域研究者和研究團隊數(shù)據(jù)集構建生物領域研究者和研究團隊數(shù)據(jù)集,首先要獲取生物領域已發(fā)表的相文獻數(shù)據(jù),進而從論文數(shù)據(jù)中提取出研究者和研究團隊的數(shù)據(jù)。為構建生物領多層異質復雜網(wǎng)絡,本文從 PudMed 數(shù)據(jù)庫中,對生物領域影響因子大于 20top 期刊論文進行了數(shù)據(jù)爬取,其數(shù)據(jù)字段包括:論文 ID 號、論文題目、論文究者、論文所屬單位、單位位置、關鍵詞、摘要、期卷號、發(fā)表期刊或會議、表時間、參考文獻、被引用量、被引論文信息(研究者、單位、關鍵詞、摘要發(fā)表時間、發(fā)表期刊)。其基本數(shù)據(jù)集信息見表 3-1。爬取的論文數(shù)據(jù)可直接建論文層網(wǎng)絡,其中以論文作為結點,以論文間的引用關系作為邊。抽取論文據(jù)中的研究者信息,構建研究者層網(wǎng)絡,以研究作為結點者,研究者之間的合關系作為邊,以同樣的方法抽取研究團隊信息,以研究團隊作為結點,團隊間
圖 3-2 研究者層網(wǎng)絡度分布里,構建研究者層網(wǎng)絡時運用的是有向網(wǎng)絡類型,但根據(jù)研究知,兩個研究者結點之間有邊代表的是兩人共同合著一篇文章從結點 a 到結點 b 的邊,必然存在一條從 b 到 a 的邊。從研究圖中也可以得到,結點出度和入度分布相差不大,也是與網(wǎng)絡相符。從總度分布圖來看,度數(shù)較低的結點較多,而度數(shù)較高結點的度大致呈冪律分布,計算后得到網(wǎng)絡的平均度為 102.0般性規(guī)律。對已構建研究團隊層網(wǎng)絡進行分析,得到研究團隊互引合作網(wǎng)-3 所示。這里構建的研究團隊層網(wǎng)絡采用的是有向網(wǎng)絡類型,和研究者合著關系可以得知,兩個研究團隊之間如果存在一條 的邊,代表的是團隊 a 中的研究者引用了團隊 b 的為文章,或者與團隊b中的研究者有所合作。計算得到研究團隊的平均度為隊層網(wǎng)絡度分布可以看出,出度、入度、總度的分布都是呈現(xiàn)冪
20圖 3-3 研究團隊互引合作網(wǎng)絡度分布2最短路徑長度、半徑及介數(shù)本節(jié)主要對生物領域異質復雜網(wǎng)絡的平均路徑長度、半徑、特征向量中絡特性進行了分析。首先本文分析了研究者層網(wǎng)絡的連通分支大小的分布,如圖 3-4(a)所示算,得到研究者層網(wǎng)絡的若連通分支大小數(shù)量為 581,強連通分支大小033,從圖 3-4 (a)中也可以看出,網(wǎng)絡中是存在 200 個左右的獨立結點他結點相連通的,即網(wǎng)絡中的孤立點,大部分連通子圖的結點數(shù)量在間,也就是我們平時說的小團體。
本文編號:2794971
【學位授予單位】:天津大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:O157.5
【圖文】:
圖 3-1 生物研究總數(shù)據(jù)集脈絡3.1.2生物領域研究者和研究團隊數(shù)據(jù)集構建生物領域研究者和研究團隊數(shù)據(jù)集,首先要獲取生物領域已發(fā)表的相文獻數(shù)據(jù),進而從論文數(shù)據(jù)中提取出研究者和研究團隊的數(shù)據(jù)。為構建生物領多層異質復雜網(wǎng)絡,本文從 PudMed 數(shù)據(jù)庫中,對生物領域影響因子大于 20top 期刊論文進行了數(shù)據(jù)爬取,其數(shù)據(jù)字段包括:論文 ID 號、論文題目、論文究者、論文所屬單位、單位位置、關鍵詞、摘要、期卷號、發(fā)表期刊或會議、表時間、參考文獻、被引用量、被引論文信息(研究者、單位、關鍵詞、摘要發(fā)表時間、發(fā)表期刊)。其基本數(shù)據(jù)集信息見表 3-1。爬取的論文數(shù)據(jù)可直接建論文層網(wǎng)絡,其中以論文作為結點,以論文間的引用關系作為邊。抽取論文據(jù)中的研究者信息,構建研究者層網(wǎng)絡,以研究作為結點者,研究者之間的合關系作為邊,以同樣的方法抽取研究團隊信息,以研究團隊作為結點,團隊間
圖 3-2 研究者層網(wǎng)絡度分布里,構建研究者層網(wǎng)絡時運用的是有向網(wǎng)絡類型,但根據(jù)研究知,兩個研究者結點之間有邊代表的是兩人共同合著一篇文章從結點 a 到結點 b 的邊,必然存在一條從 b 到 a 的邊。從研究圖中也可以得到,結點出度和入度分布相差不大,也是與網(wǎng)絡相符。從總度分布圖來看,度數(shù)較低的結點較多,而度數(shù)較高結點的度大致呈冪律分布,計算后得到網(wǎng)絡的平均度為 102.0般性規(guī)律。對已構建研究團隊層網(wǎng)絡進行分析,得到研究團隊互引合作網(wǎng)-3 所示。這里構建的研究團隊層網(wǎng)絡采用的是有向網(wǎng)絡類型,和研究者合著關系可以得知,兩個研究團隊之間如果存在一條 的邊,代表的是團隊 a 中的研究者引用了團隊 b 的為文章,或者與團隊b中的研究者有所合作。計算得到研究團隊的平均度為隊層網(wǎng)絡度分布可以看出,出度、入度、總度的分布都是呈現(xiàn)冪
20圖 3-3 研究團隊互引合作網(wǎng)絡度分布2最短路徑長度、半徑及介數(shù)本節(jié)主要對生物領域異質復雜網(wǎng)絡的平均路徑長度、半徑、特征向量中絡特性進行了分析。首先本文分析了研究者層網(wǎng)絡的連通分支大小的分布,如圖 3-4(a)所示算,得到研究者層網(wǎng)絡的若連通分支大小數(shù)量為 581,強連通分支大小033,從圖 3-4 (a)中也可以看出,網(wǎng)絡中是存在 200 個左右的獨立結點他結點相連通的,即網(wǎng)絡中的孤立點,大部分連通子圖的結點數(shù)量在間,也就是我們平時說的小團體。
【參考文獻】
相關期刊論文 前5條
1 初大智;羅耒;;中國生物技術研究的區(qū)域發(fā)展與區(qū)際合作研究[J];科技與經(jīng)濟;2015年04期
2 邱桃榮;黃瑤;劉璐;余宇婷;;社團挖掘的粒計算方法研究[J];南昌工程學院學報;2015年04期
3 趙曉宇;盛立;刁天喜;;埃博拉病毒研究文獻計量與可視化分析[J];軍事醫(yī)學;2014年09期
4 王偉;吳信嵐;;基于Web of Science的我國生物技術文獻的計量研究[J];現(xiàn)代情報;2011年11期
5 王寧;盛立;;生物安全相關文獻知識圖譜分析[J];軍事醫(yī)學科學院院刊;2010年04期
本文編號:2794971
本文鏈接:http://sikaile.net/kejilunwen/yysx/2794971.html
最近更新
教材專著