面向科技文獻的主題發(fā)現(xiàn)及演化預(yù)測方法研究與應(yīng)用

發(fā)布時間：2024-03-08 19:43

　　隨著大數(shù)據(jù)時代的到來,快速精準(zhǔn)地從科技文獻中識別和預(yù)測熱點科研主題是幫助科研工作者了解特定科研領(lǐng)域研究現(xiàn)狀的重要手段。從海量的學(xué)術(shù)文獻中獲取科研熱點及科研主題的演化趨勢,不僅可以幫助科研人員節(jié)約大量人力物力,同時還可以幫助諸多科技創(chuàng)新主體和科技政策制定者從宏觀、全局的角度出發(fā),全面深入的了解相關(guān)科研領(lǐng)域的現(xiàn)狀和未來趨勢。因此識別科技領(lǐng)域的熱點主題和對主題熱度的趨勢預(yù)測具有重大的現(xiàn)實意義�；谝陨媳尘�,本文以科技主題識別和熱度預(yù)測為核心,提出了面向科技文獻的在線主題模型和主題演化預(yù)測方法,并在此基礎(chǔ)之上設(shè)計實現(xiàn)了科技信息智能分析預(yù)測系統(tǒng)。本文的主要研究內(nèi)容和工作如下:(1)提出了一種IOLDA(Improved OLDA)在線主題模型。針對傳統(tǒng)OLDA模型由于內(nèi)容演化矩陣的權(quán)重固定導(dǎo)致的新舊主題混合等問題,提出了動態(tài)權(quán)重計算方法;并結(jié)合主題相似度矩陣構(gòu)建了偽變長的主題內(nèi)容演化矩陣,改進了主題模型的建模效果。針對本文提出的IOLDA在線主題模型,使用科技文獻數(shù)據(jù)集進行實驗。實驗結(jié)果表明,IOLDA模型在困惑度等指標(biāo)上要優(yōu)于其他模型。(2)提出了一種面向主題熱度的ESA(EEMD-SVR-A...

【文章頁數(shù)】：90 頁

【學(xué)位級別】：碩士

【部分圖文】：

圖2-2OLDA概率圖模型

第二章相關(guān)工作基礎(chǔ)11設(shè)置相應(yīng)的權(quán)重值，以此作為當(dāng)前時間片中主題建模的先驗參數(shù)。內(nèi)容演化矩陣不僅代表了歷史時間片的主題信息對當(dāng)前時間片的主題建模過程的不同影響力，也保證了主題建模過程的連續(xù)性。其中，主題模型的先驗計算如公式（2-2）所示：=1(2-2)其中代表時間片t中主題k的先....

圖3-1IOLDA概率圖模型

第三章面向科技文獻的IOLDA主題模型研究21圖3-1IOLDA概率圖模型3.3IOLDA模型的生成過程和算法過程3.3.1IOLDA模型的文本生成過程傳統(tǒng)的OLDA在線主題模型的文本生成過程如下：在某個時間片中，首先從主題分布中抽取一個主題；然后根據(jù)該主題的詞分布抽取一個詞匯；....

圖3-3科技文獻存儲形式

電子科技大學(xué)碩士學(xué)位論文24實驗過程將會使用人工和自動的方式去除一些重復(fù)信息，同時針對部分缺失數(shù)據(jù)將會進行人工填充，以減少對接下來實驗的影響。圖3-3科技文獻存儲形式圖3-4機器學(xué)習(xí)領(lǐng)域每年度文獻數(shù)量3.4.1.3文本分詞傳統(tǒng)LDA主題模型是一種詞袋模型，即不考慮詞匯的文法和順序....

圖3-4機器學(xué)習(xí)領(lǐng)域每年度文獻數(shù)量

電子科技大學(xué)碩士學(xué)位論文24實驗過程將會使用人工和自動的方式去除一些重復(fù)信息，同時針對部分缺失數(shù)據(jù)將會進行人工填充，以減少對接下來實驗的影響。圖3-3科技文獻存儲形式圖3-4機器學(xué)習(xí)領(lǐng)域每年度文獻數(shù)量3.4.1.3文本分詞傳統(tǒng)LDA主題模型是一種詞袋模型，即不考慮詞匯的文法和順序....

本文編號：3922300

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/tushudanganlunwen/3922300.html

上一篇：論明代的文獻保護
下一篇：非營利組織檔案管理模式研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向科技文獻的主題發(fā)現(xiàn)及演化預(yù)測方法研究與應(yīng)用