基于LDA2vec模型的多源數(shù)據(jù)下科研熱點(diǎn)識(shí)別研究
發(fā)布時(shí)間:2020-06-27 20:38
【摘要】:信息過載是當(dāng)前互聯(lián)網(wǎng)信息時(shí)代值得關(guān)注的一大問題,從海量信息中快速抽取、提煉出關(guān)鍵的信息就顯得尤為重要。而科技文獻(xiàn)作為科技創(chuàng)新知識(shí)的主要載體不僅增長迅速,且具有多源分布的特點(diǎn),如圖書、論文、專利與會(huì)議文獻(xiàn)等作為主要的科技文獻(xiàn),其不同類型的特點(diǎn)使得它們提供了關(guān)于同一主題不同角度的描述。所以在科學(xué)研究中,從不同源的科技文獻(xiàn)中識(shí)別挖掘科研熱點(diǎn)對于開展下一步的科研工作具有指導(dǎo)意義。所以本文目的就是通過本研究提出的模型方法,對蘊(yùn)含在多源文本中的主題進(jìn)行更有效的識(shí)別以分析學(xué)科熱點(diǎn),為科研創(chuàng)新提供支撐服務(wù)。本研究首先采用文獻(xiàn)調(diào)研法,辨析了科研熱點(diǎn)和科研主題概念的基礎(chǔ)上,對國內(nèi)外科研熱點(diǎn)識(shí)別的主要方法和主題模型的研究進(jìn)展進(jìn)行調(diào)研,針對具有代表性的研究成果進(jìn)行總結(jié)與述評,梳理了當(dāng)前進(jìn)行科研熱點(diǎn)識(shí)別分析時(shí)的專家法、引文分析法、知識(shí)單元分析法、圖譜分析法和文本挖掘法五種方法,并對主題模型的理論探索現(xiàn)狀和其在科研熱點(diǎn)識(shí)別中的應(yīng)用研究現(xiàn)狀進(jìn)行了總結(jié)。然后在此基礎(chǔ)上基于模型研究法,提出一種基于LDA2vec模型的多源文本下科研熱點(diǎn)識(shí)別的方法并針對科研熱點(diǎn)識(shí)別構(gòu)建模型,該方法融合了LDA主題模型對隱含語義挖掘的優(yōu)勢和Word2Vec詞向量模型對于上下文關(guān)系把握的優(yōu)勢。同時(shí)為了驗(yàn)證本文方法的有效性,利用實(shí)驗(yàn)分析法、統(tǒng)計(jì)分析法等,以機(jī)器學(xué)習(xí)領(lǐng)域的科技文獻(xiàn)為例,獲取期刊論文和專利文獻(xiàn)的題名及摘要數(shù)據(jù)進(jìn)行融合以作為實(shí)驗(yàn)數(shù)據(jù)源,一方面利用模型困惑度(perplexity)和主題一致性(topic coherence)兩個(gè)指標(biāo)對LDA2vec與LDA在多源文本背景下的主題提取效果進(jìn)行對比,另一方面對本研究的方法在多數(shù)據(jù)源和單一數(shù)據(jù)源的環(huán)境下主題提取效果進(jìn)行觀察對比。經(jīng)過實(shí)驗(yàn),結(jié)果表明本文提出的方法在面對多源數(shù)據(jù)情況下,進(jìn)行科研熱點(diǎn)識(shí)別挖掘是可行的且在一定程度上有效果的提升。該方法相對來說能夠更加合理、準(zhǔn)確地識(shí)別出多數(shù)據(jù)源文本中的熱點(diǎn)內(nèi)容,對利用單一數(shù)據(jù)源進(jìn)行主題分析的不足進(jìn)行補(bǔ)充,對多數(shù)據(jù)源融合的實(shí)踐應(yīng)用進(jìn)行豐富。
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:G353.1
【圖文】:
以WOS數(shù)據(jù)庫的內(nèi)容為例,檢索主題為researc/?邐■的研宄文獻(xiàn),對國逡逑外關(guān)于科研熱點(diǎn)識(shí)別方面的研宄做一個(gè)整體的統(tǒng)計(jì)分析。結(jié)果如圖2-1所示。逡逑國外科研熱點(diǎn)論文成果統(tǒng)計(jì)逡逑1000逡逑800邋-^-633逡逑600逡逑400逡逑200邐一^邋.^-^]牐掊義轄丁鮚茍且菏垮胏涆、+驴左发蹪狲帳许女辶x希襄濉澹垮澹卞澹悖蓿澹剩駑澹蹋襄澹沐澹簦澹茫襄澹茫ュ澹襄濉у危
本文編號(hào):2732073
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:G353.1
【圖文】:
以WOS數(shù)據(jù)庫的內(nèi)容為例,檢索主題為researc/?邐■的研宄文獻(xiàn),對國逡逑外關(guān)于科研熱點(diǎn)識(shí)別方面的研宄做一個(gè)整體的統(tǒng)計(jì)分析。結(jié)果如圖2-1所示。逡逑國外科研熱點(diǎn)論文成果統(tǒng)計(jì)逡逑1000逡逑800邋-^-633逡逑600逡逑400逡逑200邐一^邋.^-^]牐掊義轄丁鮚茍且菏垮胏涆、+驴左发蹪狲帳许女辶x希襄濉澹垮澹卞澹悖蓿澹剩駑澹蹋襄澹沐澹簦澹茫襄澹茫ュ澹襄濉у危
本文編號(hào):2732073
本文鏈接:http://sikaile.net/tushudanganlunwen/2732073.html
最近更新
教材專著