基于文獻計量的國內LDA主題模型研究進展分析
發(fā)布時間:2020-10-02 06:12
[目的/意義]梳理"LDA主題模型"提出以來的國內研究現(xiàn)狀,總結其研究趨勢和發(fā)展情況,為進一步在情報學領域利用該模型進行研究提供參考和借鑒。[方法/過程]在CNKI中進行相關檢索,得到符合要求的文獻作為數(shù)據(jù)集,從年度發(fā)文量、高產出作者、高產出機構、作者之間的合著情況、高產科研機構之間的合作情況、文獻來源情況以及相關文獻的關鍵詞之間的共現(xiàn)情況等方面進行分析,并通過可視化軟件進行結果展示。[結果/結論]從年度發(fā)文量來看,LDA主題模型的研究論文呈現(xiàn)出數(shù)量逐步上升的趨勢,說明進行該模型的有關研究具有一定的可行性;結合高產出作者和作者之間的合著情況來看,LDA主題模型的有關研究更加趨向于計算機相關領域;從高產出機構的情況來看,地理位置在東部和南部的相關科研機構更容易在LDA主題模型的有關領域占據(jù)領先位置,"985"、"211"以及"雙一流"高校憑借自身優(yōu)勢更容易獲得科研資源,產生出大量成果;從關鍵詞之間的共現(xiàn)情況來分析,以"LDA"為主要出發(fā)點開展相關研究,主要涉及到"主題模型"和"主題挖掘"內容,這一點可以和"大數(shù)據(jù)"背景下的情報領域相關發(fā)展結合起來。
【部分圖文】:
利用Bibexcel、ucinet6.0以及NetDraw2.084軟件,結合表4中的“高產機構統(tǒng)計結構”生成合作關系矩陣,進而繪制出合作關系圖,如圖4所示。經計算,高產機構合作關系矩陣的密度為0.016 7,密度較小,反映到圖4上的趨勢即點與點之間的聯(lián)系較為分散,無法形成比較緊密的聯(lián)系。同時部分高產機構同一般機構合作,或者是獨立完成科研任務,因此在圖4中單獨一列。在ucinet6.0中計算點度中心度和出度中心度,如下表4和表5所示,來尋找在該網(wǎng)絡中重要性最高的科研機構,以及影響力較強的科研機構。該矩陣的點度中心度最高值為5.769,最低為0.000,平均值1.306。最高值出現(xiàn)在“閩南師范大學計算機學院”、“武漢大學信息管理學院”,其次重要性程度較高的科研機構還有“安徽理工大學經濟與管理學院”、“合肥工業(yè)大學計算機與信息學院”、“吉林大學計算機科學與技術學院”等。從表4可以看出,科研機構大部分都同“計算機”以及“信息管理”相關,說明對于“LDA主題模型”的研究同這兩個領域有著緊密的聯(lián)系。隨著數(shù)據(jù)的爆發(fā)式增長,各種非結構化和半結構化的數(shù)據(jù)隨之越來越多,這種數(shù)據(jù)結構有別于傳統(tǒng)的數(shù)據(jù)形式,在分析起來有相當?shù)碾y度[7],應用傳統(tǒng)的直觀統(tǒng)計或者分析方法往往難以完成相應的分析任務。因此借助計算機領域的相關編程手段,如R語言和Python語言等來幫助對上述數(shù)據(jù)進行分析成為大多數(shù)研究人員進行文本挖掘,主題探究,文檔相似性檢測等活動的選擇。
為充分達到本文的研究目的,擬將文獻研究法、社會網(wǎng)絡分析法、統(tǒng)計分析法等各種可視化分析方法綜合應用。各方法在本研究中所發(fā)揮的作用如下圖1所示。由圖1可知,統(tǒng)計分析法貫穿整個研究的始終,從開始的確定統(tǒng)計口徑和指標一直到最后的社會網(wǎng)絡分析法都離不開統(tǒng)計與分析,文獻研究法負責基礎的資料搜集與處理,為下一步的研究提供符合要求的材料,社會網(wǎng)絡分析法在本次研究中起主要作用,從系統(tǒng)的角度對文本進行分析,從而揭示“LDA主題模型”在不同領域之間的研究趨勢發(fā)展情況。
表1 各年度發(fā)文量統(tǒng)計 年份 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 發(fā)文數(shù)目 1 3 3 8 13 16 37 47 61 88 91 107結合圖1和表1可知,符合要求的文章發(fā)文數(shù)目從2007年開始呈現(xiàn)出遞增的趨勢,其中2008年和2009年的發(fā)文數(shù)量持平,均為3篇。在2012年之后遞增幅度明顯增大。從2007年發(fā)表相關文章1篇,到2018年的107篇,趨勢如圖1虛線所示,該趨勢可以用一個R2=0.9 928的一元回歸模型來進行表示,且該趨勢線可以擬合12個年份中的10個年份,能夠較好的同論文的發(fā)文數(shù)量趨勢相擬合。該趨勢可以用y=0.0 012×x6-14.796×x5+74 437×x4-2×108×x3+3×1 011×x2-2×1 014×x+8×1 016來表示,其中y代表年度發(fā)文數(shù)目,x代表從2007年開始直到2018年的每一年,利用上述一元回歸模型進行計算,可知2018年的發(fā)文數(shù)目將近是2014年的2.27倍,說明使用該模型進行研究仍然是一個熱點,使用該模型的上升趨勢較為明顯。
【部分圖文】:
利用Bibexcel、ucinet6.0以及NetDraw2.084軟件,結合表4中的“高產機構統(tǒng)計結構”生成合作關系矩陣,進而繪制出合作關系圖,如圖4所示。經計算,高產機構合作關系矩陣的密度為0.016 7,密度較小,反映到圖4上的趨勢即點與點之間的聯(lián)系較為分散,無法形成比較緊密的聯(lián)系。同時部分高產機構同一般機構合作,或者是獨立完成科研任務,因此在圖4中單獨一列。在ucinet6.0中計算點度中心度和出度中心度,如下表4和表5所示,來尋找在該網(wǎng)絡中重要性最高的科研機構,以及影響力較強的科研機構。該矩陣的點度中心度最高值為5.769,最低為0.000,平均值1.306。最高值出現(xiàn)在“閩南師范大學計算機學院”、“武漢大學信息管理學院”,其次重要性程度較高的科研機構還有“安徽理工大學經濟與管理學院”、“合肥工業(yè)大學計算機與信息學院”、“吉林大學計算機科學與技術學院”等。從表4可以看出,科研機構大部分都同“計算機”以及“信息管理”相關,說明對于“LDA主題模型”的研究同這兩個領域有著緊密的聯(lián)系。隨著數(shù)據(jù)的爆發(fā)式增長,各種非結構化和半結構化的數(shù)據(jù)隨之越來越多,這種數(shù)據(jù)結構有別于傳統(tǒng)的數(shù)據(jù)形式,在分析起來有相當?shù)碾y度[7],應用傳統(tǒng)的直觀統(tǒng)計或者分析方法往往難以完成相應的分析任務。因此借助計算機領域的相關編程手段,如R語言和Python語言等來幫助對上述數(shù)據(jù)進行分析成為大多數(shù)研究人員進行文本挖掘,主題探究,文檔相似性檢測等活動的選擇。
為充分達到本文的研究目的,擬將文獻研究法、社會網(wǎng)絡分析法、統(tǒng)計分析法等各種可視化分析方法綜合應用。各方法在本研究中所發(fā)揮的作用如下圖1所示。由圖1可知,統(tǒng)計分析法貫穿整個研究的始終,從開始的確定統(tǒng)計口徑和指標一直到最后的社會網(wǎng)絡分析法都離不開統(tǒng)計與分析,文獻研究法負責基礎的資料搜集與處理,為下一步的研究提供符合要求的材料,社會網(wǎng)絡分析法在本次研究中起主要作用,從系統(tǒng)的角度對文本進行分析,從而揭示“LDA主題模型”在不同領域之間的研究趨勢發(fā)展情況。
表1 各年度發(fā)文量統(tǒng)計 年份 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 發(fā)文數(shù)目 1 3 3 8 13 16 37 47 61 88 91 107結合圖1和表1可知,符合要求的文章發(fā)文數(shù)目從2007年開始呈現(xiàn)出遞增的趨勢,其中2008年和2009年的發(fā)文數(shù)量持平,均為3篇。在2012年之后遞增幅度明顯增大。從2007年發(fā)表相關文章1篇,到2018年的107篇,趨勢如圖1虛線所示,該趨勢可以用一個R2=0.9 928的一元回歸模型來進行表示,且該趨勢線可以擬合12個年份中的10個年份,能夠較好的同論文的發(fā)文數(shù)量趨勢相擬合。該趨勢可以用y=0.0 012×x6-14.796×x5+74 437×x4-2×108×x3+3×1 011×x2-2×1 014×x+8×1 016來表示,其中y代表年度發(fā)文數(shù)目,x代表從2007年開始直到2018年的每一年,利用上述一元回歸模型進行計算,可知2018年的發(fā)文數(shù)目將近是2014年的2.27倍,說明使用該模型進行研究仍然是一個熱點,使用該模型的上升趨勢較為明顯。
【相似文獻】
相關期刊論文 前10條
1 歐衛(wèi);謝贊福;謝彬彬;歐繽憶;;基于LDA模型的社交網(wǎng)絡主題社區(qū)挖掘[J];計算機與現(xiàn)代化;2014年08期
2 林麗麗;馬秀峰;;基于LDA模型的國內圖書情報學研究主題發(fā)現(xiàn)及演化分析[J];情報科學;2019年12期
3 蔣明敏;王雪芬;劉s
本文編號:2832027
本文鏈接:http://sikaile.net/tushudanganlunwen/2832027.html
教材專著