基于主題模型的機構(gòu)研究狀況可視分析
發(fā)布時間:2021-01-06 01:50
在互聯(lián)網(wǎng)時代,由于信息技術(shù)的迅速發(fā)展,數(shù)據(jù)呈現(xiàn)出一種爆炸式增長。對于學(xué)術(shù)研究領(lǐng)域來說,科研人員的增加導(dǎo)致學(xué)術(shù)文獻也與日俱增。利用和理解這些數(shù)據(jù)能更好地了解科學(xué)本身的結(jié)構(gòu)和動態(tài),這就需要數(shù)據(jù)分析和可視化的結(jié)合。不同的研究機構(gòu)所涉及的研究領(lǐng)域、方法以及模型有很大的區(qū)別,對學(xué)術(shù)文獻進行主題建模和可視分析能反映一個機構(gòu)在各個研究領(lǐng)域的發(fā)展和態(tài)勢。主題模型成為研究學(xué)術(shù)文獻的主要文本挖掘算法,用來提取文獻中隱藏的信息—主題。然后結(jié)合可視化方法將主題和其他數(shù)據(jù)信息通過可視化圖元展示并分析,以此來了解和掌握一個機構(gòu)的科研發(fā)展趨勢。針對以上需求,本文提出一種基于主題模型的機構(gòu)研究狀況的可視分析方法。幫助用戶了解機構(gòu)當(dāng)前的研究狀況,尋找最有影響力的科研領(lǐng)域,發(fā)現(xiàn)學(xué)科優(yōu)勢。本文主要做了如下研究工作:1.提出了基于主題模型的機構(gòu)研究狀況分析的研究方法。該方法的主要流程為:首先對收集的SCI學(xué)術(shù)文獻進行數(shù)據(jù)清洗得到主題建模的語料庫;其次利用主題建模算法提取語料庫的主題,然后進行文獻聚類;最后將文獻數(shù)據(jù)的其他維度信息與提取的主題進行數(shù)據(jù)融合,從不同角度對機構(gòu)研究狀況進行可視分析并做出預(yù)測。2.結(jié)合本文所提出的方法...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
學(xué)術(shù)數(shù)據(jù)中的引文可視化
重慶郵電大學(xué)碩士學(xué)位論文第1章緒論4可視化技術(shù)應(yīng)用在學(xué)術(shù)數(shù)據(jù)中,使得研究人員在理解學(xué)術(shù)數(shù)據(jù)并加以利用就變得容易得多。例如,在學(xué)術(shù)數(shù)據(jù)中學(xué)術(shù)網(wǎng)絡(luò)是它的研究中心[15],它可以幫助研究人員了解科學(xué)家之間如何相互作用,它還可以使研究人員能夠挖掘隱藏在引文網(wǎng)絡(luò)中的隱含關(guān)系,特別是在共引網(wǎng)絡(luò)[16]中。在數(shù)據(jù)可視化工具中,CiteSpace[17,18]通過對科學(xué)信息研究所、中國社會科學(xué)院、中國國家知識基礎(chǔ)設(shè)施的可視化,以及對其他文獻數(shù)據(jù)庫的分析,可以幫助跟蹤研究領(lǐng)域的熱點和趨勢。它有助于研究人員了解研究前沿和關(guān)鍵途徑、重要文獻、作者和機構(gòu)的演變。如圖1.2總結(jié)了學(xué)術(shù)數(shù)據(jù)可視化的總體思路。本部分將介紹學(xué)術(shù)數(shù)據(jù)集中的實體以及如何實現(xiàn)它們的可視化。圖1.2學(xué)術(shù)數(shù)據(jù)可視化框架1.文本內(nèi)容學(xué)術(shù)數(shù)據(jù)中文本內(nèi)容是它的核心組成部分,因為它記錄了其主要的科學(xué)研究焦點。自然語言處理用于對文本內(nèi)容多個部分進行編碼,包括標(biāo)題、摘要、文本主體和結(jié)論。一些以文本形式存儲的信息可以自動提取,例如:文本內(nèi)容中每個引用的原因,以及正在使用或者提出的技術(shù)概念。從多個文獻的文本中提取結(jié)構(gòu)信息,如流行的研究主題以及隨時間的流行程度。由于自動分析文本本身就是一項困難的任務(wù),所以很自然地要將人參與到分析循環(huán)中來指導(dǎo)分析。一些可視化方法直接
重慶郵電大學(xué)碩士學(xué)位論文第2章可視分析技術(shù)與主題模型13第2章可視分析技術(shù)與主題模型本章主要介紹了基于可視分析技術(shù)和主題模型來分析機構(gòu)學(xué)術(shù)數(shù)據(jù)所用到的技術(shù)和理論。學(xué)術(shù)數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),而主題模型通常用于處理此類數(shù)據(jù),從中提取出有價值的信息。國內(nèi)外的研究人員為了能夠更好地表示學(xué)術(shù)數(shù)據(jù)集的結(jié)構(gòu),揭示數(shù)據(jù)中隱藏的模式,將各種可視分析技術(shù)相結(jié)合應(yīng)用在學(xué)術(shù)數(shù)據(jù)可視化和可視分析中。可視分析技術(shù)和主題模型等文本數(shù)據(jù)挖掘方法的結(jié)合,與純視覺呈現(xiàn)相比,能夠分析更加復(fù)雜且大量的數(shù)據(jù)。學(xué)術(shù)數(shù)據(jù)可視化屬于文本可視化的范圍,圖2.1展示了人們利用文本可視化系統(tǒng)對文本進行分析和理解的基本過程,其中主要部分包括以下3個方面:1.文本分析。文本分析就是對文本信息進行挖掘的過程。它主要依賴數(shù)據(jù)挖掘、自然語言處理等技術(shù)。根據(jù)用戶需求對原始數(shù)據(jù)進行特征提娶分析、歸一化和轉(zhuǎn)換,把數(shù)據(jù)從其原始的非結(jié)構(gòu)狀態(tài)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),可以由計算機靈活地對其進行處理以進行可視化呈現(xiàn)和交互。2.可視化呈現(xiàn)。運用可視化技術(shù),以合適的視覺編碼和布局方式呈現(xiàn)轉(zhuǎn)換后的數(shù)據(jù),以表示文本信息中的各種特征。3.交互。對同一個可視化結(jié)果,不同用戶可能有不一樣的感興趣程度的部分,交互操作給用戶提供可視化分析中探索和洞悉隱藏在文本信息背后的特征和規(guī)律的一種手段。圖2.1文本可視化的基本框架[6]
【參考文獻】:
期刊論文
[1]大數(shù)據(jù)可視分析綜述[J]. 任磊,杜一,馬帥,張小龍,戴國忠. 軟件學(xué)報. 2014(09)
[2]基于主題的文本可視分析研究[J]. 巫英才,崔為煒,宋陽秋,陳楊,劉世霞. 計算機輔助設(shè)計與圖形學(xué)學(xué)報. 2012(10)
[3]EM算法研究與應(yīng)用[J]. 王愛平,張功營,劉方. 計算機技術(shù)與發(fā)展. 2009(09)
[4]信息可視化初探[J]. 趙剛,崔軍. 晉圖學(xué)刊. 2007(02)
[5]基于多層次信息的可視化研究[J]. 王非,趙強,唐定勇. 微計算機信息. 2006(19)
碩士論文
[1]大數(shù)據(jù)時代背景下的數(shù)據(jù)可視化概念研究[D]. 曾悠.浙江大學(xué) 2014
本文編號:2959694
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
學(xué)術(shù)數(shù)據(jù)中的引文可視化
重慶郵電大學(xué)碩士學(xué)位論文第1章緒論4可視化技術(shù)應(yīng)用在學(xué)術(shù)數(shù)據(jù)中,使得研究人員在理解學(xué)術(shù)數(shù)據(jù)并加以利用就變得容易得多。例如,在學(xué)術(shù)數(shù)據(jù)中學(xué)術(shù)網(wǎng)絡(luò)是它的研究中心[15],它可以幫助研究人員了解科學(xué)家之間如何相互作用,它還可以使研究人員能夠挖掘隱藏在引文網(wǎng)絡(luò)中的隱含關(guān)系,特別是在共引網(wǎng)絡(luò)[16]中。在數(shù)據(jù)可視化工具中,CiteSpace[17,18]通過對科學(xué)信息研究所、中國社會科學(xué)院、中國國家知識基礎(chǔ)設(shè)施的可視化,以及對其他文獻數(shù)據(jù)庫的分析,可以幫助跟蹤研究領(lǐng)域的熱點和趨勢。它有助于研究人員了解研究前沿和關(guān)鍵途徑、重要文獻、作者和機構(gòu)的演變。如圖1.2總結(jié)了學(xué)術(shù)數(shù)據(jù)可視化的總體思路。本部分將介紹學(xué)術(shù)數(shù)據(jù)集中的實體以及如何實現(xiàn)它們的可視化。圖1.2學(xué)術(shù)數(shù)據(jù)可視化框架1.文本內(nèi)容學(xué)術(shù)數(shù)據(jù)中文本內(nèi)容是它的核心組成部分,因為它記錄了其主要的科學(xué)研究焦點。自然語言處理用于對文本內(nèi)容多個部分進行編碼,包括標(biāo)題、摘要、文本主體和結(jié)論。一些以文本形式存儲的信息可以自動提取,例如:文本內(nèi)容中每個引用的原因,以及正在使用或者提出的技術(shù)概念。從多個文獻的文本中提取結(jié)構(gòu)信息,如流行的研究主題以及隨時間的流行程度。由于自動分析文本本身就是一項困難的任務(wù),所以很自然地要將人參與到分析循環(huán)中來指導(dǎo)分析。一些可視化方法直接
重慶郵電大學(xué)碩士學(xué)位論文第2章可視分析技術(shù)與主題模型13第2章可視分析技術(shù)與主題模型本章主要介紹了基于可視分析技術(shù)和主題模型來分析機構(gòu)學(xué)術(shù)數(shù)據(jù)所用到的技術(shù)和理論。學(xué)術(shù)數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),而主題模型通常用于處理此類數(shù)據(jù),從中提取出有價值的信息。國內(nèi)外的研究人員為了能夠更好地表示學(xué)術(shù)數(shù)據(jù)集的結(jié)構(gòu),揭示數(shù)據(jù)中隱藏的模式,將各種可視分析技術(shù)相結(jié)合應(yīng)用在學(xué)術(shù)數(shù)據(jù)可視化和可視分析中。可視分析技術(shù)和主題模型等文本數(shù)據(jù)挖掘方法的結(jié)合,與純視覺呈現(xiàn)相比,能夠分析更加復(fù)雜且大量的數(shù)據(jù)。學(xué)術(shù)數(shù)據(jù)可視化屬于文本可視化的范圍,圖2.1展示了人們利用文本可視化系統(tǒng)對文本進行分析和理解的基本過程,其中主要部分包括以下3個方面:1.文本分析。文本分析就是對文本信息進行挖掘的過程。它主要依賴數(shù)據(jù)挖掘、自然語言處理等技術(shù)。根據(jù)用戶需求對原始數(shù)據(jù)進行特征提娶分析、歸一化和轉(zhuǎn)換,把數(shù)據(jù)從其原始的非結(jié)構(gòu)狀態(tài)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),可以由計算機靈活地對其進行處理以進行可視化呈現(xiàn)和交互。2.可視化呈現(xiàn)。運用可視化技術(shù),以合適的視覺編碼和布局方式呈現(xiàn)轉(zhuǎn)換后的數(shù)據(jù),以表示文本信息中的各種特征。3.交互。對同一個可視化結(jié)果,不同用戶可能有不一樣的感興趣程度的部分,交互操作給用戶提供可視化分析中探索和洞悉隱藏在文本信息背后的特征和規(guī)律的一種手段。圖2.1文本可視化的基本框架[6]
【參考文獻】:
期刊論文
[1]大數(shù)據(jù)可視分析綜述[J]. 任磊,杜一,馬帥,張小龍,戴國忠. 軟件學(xué)報. 2014(09)
[2]基于主題的文本可視分析研究[J]. 巫英才,崔為煒,宋陽秋,陳楊,劉世霞. 計算機輔助設(shè)計與圖形學(xué)學(xué)報. 2012(10)
[3]EM算法研究與應(yīng)用[J]. 王愛平,張功營,劉方. 計算機技術(shù)與發(fā)展. 2009(09)
[4]信息可視化初探[J]. 趙剛,崔軍. 晉圖學(xué)刊. 2007(02)
[5]基于多層次信息的可視化研究[J]. 王非,趙強,唐定勇. 微計算機信息. 2006(19)
碩士論文
[1]大數(shù)據(jù)時代背景下的數(shù)據(jù)可視化概念研究[D]. 曾悠.浙江大學(xué) 2014
本文編號:2959694
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2959694.html
最近更新
教材專著