CTM主題模型在學科主題識別與學科文獻分類中的應用研究
發(fā)布時間:2022-02-12 23:39
科學技術突飛猛進促進了學科間交流合作,帶動了各學科發(fā)展。學科文獻作為學科知識的承載體,其數(shù)量呈高速膨脹的增長態(tài)勢。要想從繁雜的文獻中快速地探測學科研究趨勢掌握研究熱點并且準確地檢索到自己的目標文獻,就需要文本數(shù)據(jù)分析技術的支持。近年來,機器學習的廣泛應用使得主題模型得到研究者們重點關注。其中相關主題模型(Correlated Topic Model,CTM)不僅能夠挖掘主題粒度的語義信息,還可以利用主題對文本數(shù)據(jù)進行降維。與主題模型家族中另一個優(yōu)秀模型——潛在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)相比,CTM主題模型能夠捕獲主題與主題之間的相關性,具有豐富的文本表示能力。因而,該模型在自然語言處理、數(shù)據(jù)挖掘和人工智能等領域占領一席之地。此外,該模型不僅可以處理文本數(shù)據(jù),還可以作用于圖像數(shù)據(jù)、語音數(shù)據(jù)等實體;谝延醒芯,本文重點探究如何利用CTM主題模型對學科主題識別以及學科文獻自動分類。具體內(nèi)容如下:前兩章主要對國內(nèi)外主題模型發(fā)展以及在學科主題識別與學科文獻分類方面的研究做了詳細的綜述,指出研究中存在的不足。介紹了文本挖掘流程以及各個流程的...
【文章來源】:曲阜師范大學山東省
【文章頁數(shù)】:52 頁
【學位級別】:碩士
【部分圖文】:
文本挖掘基本流程
圖 2.2 LDA 主題模型圖表示型中,M 表示文檔集合,N 表示某篇文檔包含的詞數(shù)級別的參數(shù),是狄利克雷先驗分布的超參數(shù)。θ是文 w是單詞層變量, z代表某篇文檔的某個主題,由是唯一可觀察到的變量,由z和共同 生成的。LDA( , , , ) ( ) ( ) ( , )2.n n np θ z w= α β p θ α ∏ p z θ p w zβ( 就是根據(jù)給定的一篇文檔推測其主題分布。在 LDA: 中的每個單詞(詞):識(超參數(shù)α)確定文章的主題分布θ。對應得多項式分布(主題分布)θ 中提取一個主題 z知識(超參數(shù) β )確定當前主題的詞分布 。
圖 2.3 CTM 主題模型圖表示型中,詞(紅色實心圈表示)是唯一可觀察到的隨機變量的語義信息,某個主題的文檔會使用與該主題相關的單詞在文檔中一起出現(xiàn)的單詞組來發(fā)現(xiàn)潛在主題。以這種方式混合模型,其中每個主題的特征在于其自身對詞匯的特定題模型文檔生成過程集D,假設包含M 篇文檔,共有 N 個不同的特征詞項。dW成的dN 維向量,d ,nW表示第 d 篇文檔中第n個特征詞。方差矩陣,表示主題間相關程度,是 K 維均值向量,表示檔 d 中的主題概率分布,β代表主題-詞項概率分布,Z詞(即d ,nW)的所屬主題。合D:文檔集中所含主題的詞項分布,即主題-詞項概率分布 β
【參考文獻】:
期刊論文
[1]我國大數(shù)據(jù)時代數(shù)字圖書館研究前沿分析——基于共詞分析的視角[J]. 趙麗梅,張花. 情報科學. 2019(03)
[2]一種基于詞加權LDA模型的專利文獻分類方法[J]. 孫偉,劉文靜,葛麗閣,余璇. 計算機技術與發(fā)展. 2019(03)
[3]面向LDA主題模型的文本分類研究進展與趨勢[J]. 趙樂,張興旺. 計算機系統(tǒng)應用. 2018(08)
[4]中國2001—2016年肥胖大學生運動干預的可視化分析[J]. 馮海成. 中國學校衛(wèi)生. 2018(03)
[5]基于隱含狄利克雷分布的文本主題提取對比研究[J]. 王靜茹,陳震. 情報科學. 2018(01)
[6]基于Rao-Stirling指數(shù)的學科交叉文獻發(fā)現(xiàn)——以納米科學與納米技術為例[J]. 韓正琪,劉小平,徐涵. 圖書情報工作. 2018(01)
[7]基于LDA模型特征選擇的在線醫(yī)療社區(qū)文本分類及用戶聚類研究[J]. 吳江,侯紹新,靳萌萌,胡忠義. 情報學報. 2017(11)
[8]基于LDA挖掘計算機科學文獻的研究主題[J]. 楊海霞,高寶俊,孫含林. 現(xiàn)代圖書情報技術. 2016(11)
[9]科技情報分析中LDA主題模型最優(yōu)主題數(shù)確定方法研究[J]. 關鵬,王曰芬. 現(xiàn)代圖書情報技術. 2016(09)
[10]基于DTM的國內(nèi)外情報學研究主題熱度演化對比研究[J]. 齊亞雙,祝娜,翟羽佳. 圖書情報工作. 2016(16)
博士論文
[1]基于知識圖譜的學科主題識別方法研究[D]. 劉敏娟.中國農(nóng)業(yè)科學院 2016
碩士論文
[1]基于主題概率模型的科技論文分類算法研究[D]. 吳東叡.吉林大學 2018
[2]基于相關主題建模的短文本過濾引擎研究與應用[D]. 薛玥.北京郵電大學 2018
[3]優(yōu)化特征選擇的CTM模型在文本分類中的應用研究[D]. 楊正良.華中師范大學 2016
[4]國內(nèi)競爭情報研究演進態(tài)勢—共詞分析視角[D]. 李穎.湘潭大學 2010
本文編號:3622597
【文章來源】:曲阜師范大學山東省
【文章頁數(shù)】:52 頁
【學位級別】:碩士
【部分圖文】:
文本挖掘基本流程
圖 2.2 LDA 主題模型圖表示型中,M 表示文檔集合,N 表示某篇文檔包含的詞數(shù)級別的參數(shù),是狄利克雷先驗分布的超參數(shù)。θ是文 w是單詞層變量, z代表某篇文檔的某個主題,由是唯一可觀察到的變量,由z和共同 生成的。LDA( , , , ) ( ) ( ) ( , )2.n n np θ z w= α β p θ α ∏ p z θ p w zβ( 就是根據(jù)給定的一篇文檔推測其主題分布。在 LDA: 中的每個單詞(詞):識(超參數(shù)α)確定文章的主題分布θ。對應得多項式分布(主題分布)θ 中提取一個主題 z知識(超參數(shù) β )確定當前主題的詞分布 。
圖 2.3 CTM 主題模型圖表示型中,詞(紅色實心圈表示)是唯一可觀察到的隨機變量的語義信息,某個主題的文檔會使用與該主題相關的單詞在文檔中一起出現(xiàn)的單詞組來發(fā)現(xiàn)潛在主題。以這種方式混合模型,其中每個主題的特征在于其自身對詞匯的特定題模型文檔生成過程集D,假設包含M 篇文檔,共有 N 個不同的特征詞項。dW成的dN 維向量,d ,nW表示第 d 篇文檔中第n個特征詞。方差矩陣,表示主題間相關程度,是 K 維均值向量,表示檔 d 中的主題概率分布,β代表主題-詞項概率分布,Z詞(即d ,nW)的所屬主題。合D:文檔集中所含主題的詞項分布,即主題-詞項概率分布 β
【參考文獻】:
期刊論文
[1]我國大數(shù)據(jù)時代數(shù)字圖書館研究前沿分析——基于共詞分析的視角[J]. 趙麗梅,張花. 情報科學. 2019(03)
[2]一種基于詞加權LDA模型的專利文獻分類方法[J]. 孫偉,劉文靜,葛麗閣,余璇. 計算機技術與發(fā)展. 2019(03)
[3]面向LDA主題模型的文本分類研究進展與趨勢[J]. 趙樂,張興旺. 計算機系統(tǒng)應用. 2018(08)
[4]中國2001—2016年肥胖大學生運動干預的可視化分析[J]. 馮海成. 中國學校衛(wèi)生. 2018(03)
[5]基于隱含狄利克雷分布的文本主題提取對比研究[J]. 王靜茹,陳震. 情報科學. 2018(01)
[6]基于Rao-Stirling指數(shù)的學科交叉文獻發(fā)現(xiàn)——以納米科學與納米技術為例[J]. 韓正琪,劉小平,徐涵. 圖書情報工作. 2018(01)
[7]基于LDA模型特征選擇的在線醫(yī)療社區(qū)文本分類及用戶聚類研究[J]. 吳江,侯紹新,靳萌萌,胡忠義. 情報學報. 2017(11)
[8]基于LDA挖掘計算機科學文獻的研究主題[J]. 楊海霞,高寶俊,孫含林. 現(xiàn)代圖書情報技術. 2016(11)
[9]科技情報分析中LDA主題模型最優(yōu)主題數(shù)確定方法研究[J]. 關鵬,王曰芬. 現(xiàn)代圖書情報技術. 2016(09)
[10]基于DTM的國內(nèi)外情報學研究主題熱度演化對比研究[J]. 齊亞雙,祝娜,翟羽佳. 圖書情報工作. 2016(16)
博士論文
[1]基于知識圖譜的學科主題識別方法研究[D]. 劉敏娟.中國農(nóng)業(yè)科學院 2016
碩士論文
[1]基于主題概率模型的科技論文分類算法研究[D]. 吳東叡.吉林大學 2018
[2]基于相關主題建模的短文本過濾引擎研究與應用[D]. 薛玥.北京郵電大學 2018
[3]優(yōu)化特征選擇的CTM模型在文本分類中的應用研究[D]. 楊正良.華中師范大學 2016
[4]國內(nèi)競爭情報研究演進態(tài)勢—共詞分析視角[D]. 李穎.湘潭大學 2010
本文編號:3622597
本文鏈接:http://sikaile.net/tushudanganlunwen/3622597.html