天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 社科論文 > 圖書檔案論文 >

CTM主題模型在學(xué)科主題識(shí)別與學(xué)科文獻(xiàn)分類中的應(yīng)用研究

發(fā)布時(shí)間:2022-02-12 23:39
  科學(xué)技術(shù)突飛猛進(jìn)促進(jìn)了學(xué)科間交流合作,帶動(dòng)了各學(xué)科發(fā)展。學(xué)科文獻(xiàn)作為學(xué)科知識(shí)的承載體,其數(shù)量呈高速膨脹的增長態(tài)勢(shì)。要想從繁雜的文獻(xiàn)中快速地探測學(xué)科研究趨勢(shì)掌握研究熱點(diǎn)并且準(zhǔn)確地檢索到自己的目標(biāo)文獻(xiàn),就需要文本數(shù)據(jù)分析技術(shù)的支持。近年來,機(jī)器學(xué)習(xí)的廣泛應(yīng)用使得主題模型得到研究者們重點(diǎn)關(guān)注。其中相關(guān)主題模型(Correlated Topic Model,CTM)不僅能夠挖掘主題粒度的語義信息,還可以利用主題對(duì)文本數(shù)據(jù)進(jìn)行降維。與主題模型家族中另一個(gè)優(yōu)秀模型——潛在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)相比,CTM主題模型能夠捕獲主題與主題之間的相關(guān)性,具有豐富的文本表示能力。因而,該模型在自然語言處理、數(shù)據(jù)挖掘和人工智能等領(lǐng)域占領(lǐng)一席之地。此外,該模型不僅可以處理文本數(shù)據(jù),還可以作用于圖像數(shù)據(jù)、語音數(shù)據(jù)等實(shí)體;谝延醒芯,本文重點(diǎn)探究如何利用CTM主題模型對(duì)學(xué)科主題識(shí)別以及學(xué)科文獻(xiàn)自動(dòng)分類。具體內(nèi)容如下:前兩章主要對(duì)國內(nèi)外主題模型發(fā)展以及在學(xué)科主題識(shí)別與學(xué)科文獻(xiàn)分類方面的研究做了詳細(xì)的綜述,指出研究中存在的不足。介紹了文本挖掘流程以及各個(gè)流程的... 

【文章來源】:曲阜師范大學(xué)山東省

【文章頁數(shù)】:52 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

CTM主題模型在學(xué)科主題識(shí)別與學(xué)科文獻(xiàn)分類中的應(yīng)用研究


文本挖掘基本流程

模型圖,主題,模型圖,超參數(shù)


圖 2.2 LDA 主題模型圖表示型中,M 表示文檔集合,N 表示某篇文檔包含的詞數(shù)級(jí)別的參數(shù),是狄利克雷先驗(yàn)分布的超參數(shù)。θ是文 w是單詞層變量, z代表某篇文檔的某個(gè)主題,由是唯一可觀察到的變量,由z和共同 生成的。LDA( , , , ) ( ) ( ) ( , )2.n n np θ z w= α β p θ α ∏ p z θ p w zβ( 就是根據(jù)給定的一篇文檔推測其主題分布。在 LDA: 中的每個(gè)單詞(詞):識(shí)(超參數(shù)α)確定文章的主題分布θ。對(duì)應(yīng)得多項(xiàng)式分布(主題分布)θ 中提取一個(gè)主題 z知識(shí)(超參數(shù) β )確定當(dāng)前主題的詞分布 。

模型圖,主題,模型圖,詞項(xiàng)


圖 2.3 CTM 主題模型圖表示型中,詞(紅色實(shí)心圈表示)是唯一可觀察到的隨機(jī)變量的語義信息,某個(gè)主題的文檔會(huì)使用與該主題相關(guān)的單詞在文檔中一起出現(xiàn)的單詞組來發(fā)現(xiàn)潛在主題。以這種方式混合模型,其中每個(gè)主題的特征在于其自身對(duì)詞匯的特定題模型文檔生成過程集D,假設(shè)包含M 篇文檔,共有 N 個(gè)不同的特征詞項(xiàng)。dW成的dN 維向量,d ,nW表示第 d 篇文檔中第n個(gè)特征詞。方差矩陣,表示主題間相關(guān)程度,是 K 維均值向量,表示檔 d 中的主題概率分布,β代表主題-詞項(xiàng)概率分布,Z詞(即d ,nW)的所屬主題。合D:文檔集中所含主題的詞項(xiàng)分布,即主題-詞項(xiàng)概率分布 β

【參考文獻(xiàn)】:
期刊論文
[1]我國大數(shù)據(jù)時(shí)代數(shù)字圖書館研究前沿分析——基于共詞分析的視角[J]. 趙麗梅,張花.  情報(bào)科學(xué). 2019(03)
[2]一種基于詞加權(quán)LDA模型的專利文獻(xiàn)分類方法[J]. 孫偉,劉文靜,葛麗閣,余璇.  計(jì)算機(jī)技術(shù)與發(fā)展. 2019(03)
[3]面向LDA主題模型的文本分類研究進(jìn)展與趨勢(shì)[J]. 趙樂,張興旺.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(08)
[4]中國2001—2016年肥胖大學(xué)生運(yùn)動(dòng)干預(yù)的可視化分析[J]. 馮海成.  中國學(xué)校衛(wèi)生. 2018(03)
[5]基于隱含狄利克雷分布的文本主題提取對(duì)比研究[J]. 王靜茹,陳震.  情報(bào)科學(xué). 2018(01)
[6]基于Rao-Stirling指數(shù)的學(xué)科交叉文獻(xiàn)發(fā)現(xiàn)——以納米科學(xué)與納米技術(shù)為例[J]. 韓正琪,劉小平,徐涵.  圖書情報(bào)工作. 2018(01)
[7]基于LDA模型特征選擇的在線醫(yī)療社區(qū)文本分類及用戶聚類研究[J]. 吳江,侯紹新,靳萌萌,胡忠義.  情報(bào)學(xué)報(bào). 2017(11)
[8]基于LDA挖掘計(jì)算機(jī)科學(xué)文獻(xiàn)的研究主題[J]. 楊海霞,高寶俊,孫含林.  現(xiàn)代圖書情報(bào)技術(shù). 2016(11)
[9]科技情報(bào)分析中LDA主題模型最優(yōu)主題數(shù)確定方法研究[J]. 關(guān)鵬,王曰芬.  現(xiàn)代圖書情報(bào)技術(shù). 2016(09)
[10]基于DTM的國內(nèi)外情報(bào)學(xué)研究主題熱度演化對(duì)比研究[J]. 齊亞雙,祝娜,翟羽佳.  圖書情報(bào)工作. 2016(16)

博士論文
[1]基于知識(shí)圖譜的學(xué)科主題識(shí)別方法研究[D]. 劉敏娟.中國農(nóng)業(yè)科學(xué)院 2016

碩士論文
[1]基于主題概率模型的科技論文分類算法研究[D]. 吳東叡.吉林大學(xué) 2018
[2]基于相關(guān)主題建模的短文本過濾引擎研究與應(yīng)用[D]. 薛玥.北京郵電大學(xué) 2018
[3]優(yōu)化特征選擇的CTM模型在文本分類中的應(yīng)用研究[D]. 楊正良.華中師范大學(xué) 2016
[4]國內(nèi)競爭情報(bào)研究演進(jìn)態(tài)勢(shì)—共詞分析視角[D]. 李穎.湘潭大學(xué) 2010



本文編號(hào):3622597

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/3622597.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶52428***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com