面向?qū)W術(shù)大數(shù)據(jù)的熱點發(fā)現(xiàn)方法研究及應(yīng)用
發(fā)布時間:2021-10-08 09:18
創(chuàng)新是科技發(fā)展和社會進步的核心驅(qū)動力。對科研人員而言,緊追當前最新的學(xué)術(shù)熱點,不斷發(fā)現(xiàn)新問題并提出新方法,是保持學(xué)術(shù)創(chuàng)新的主要途徑。據(jù)不完全統(tǒng)計,2018年全球發(fā)表的學(xué)術(shù)論文量已達到300萬余篇。除此之外,學(xué)術(shù)信息還包括新聞、博客等。面對大量的學(xué)術(shù)數(shù)據(jù),研究人員如何快速高效地找到感興趣的信息是一個難題。解決此問題的一個有效方法是:基于少量的文本挖掘出符合文章含義的關(guān)鍵詞,從學(xué)術(shù)大數(shù)據(jù)中找到當前的研究熱點并推薦給相關(guān)學(xué)者。基于上述思想,本文的主要研究內(nèi)容如下:(1)提出了基于DeepWalk的關(guān)鍵詞提取算法。關(guān)鍵詞提取是發(fā)現(xiàn)學(xué)術(shù)熱點的主要技術(shù)。然而,由于新興研究領(lǐng)域的學(xué)術(shù)論文相對較少,文章之間的關(guān)鍵詞共現(xiàn)關(guān)系難以捕捉。不同于已有方法,本文將每篇文章作為單獨的個體進行關(guān)鍵詞提取。具體步驟為:首先,在由單篇文章構(gòu)成的語義網(wǎng)絡(luò)中,采用隨機游走的策略獲取每個詞匯的特征向量;然后,結(jié)合詞匯的其它附屬特征,通過分類器選取排名較高的詞匯作為該論文的關(guān)鍵詞。(2)提出了基于圖卷積網(wǎng)絡(luò)的關(guān)鍵詞提取算法。本算法首次將圖卷積網(wǎng)絡(luò)應(yīng)用在關(guān)鍵詞提取的問題上。當某個研究領(lǐng)域相對成熟時,領(lǐng)域內(nèi)所包含的相關(guān)文章數(shù)量較多...
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:55 頁
【學(xué)位級別】:碩士
【部分圖文】:
基于DeepWalk的關(guān)鍵詞提取實驗結(jié)果-精準率
圖 4.2 基于 GCN 的關(guān)鍵詞提取實驗結(jié)果-精準率本算法的優(yōu)勢在于當關(guān)鍵詞在不同文章中存在共現(xiàn)關(guān)系時,本算法可以將一文章中出現(xiàn)次數(shù)少但在多篇文章中出現(xiàn)次數(shù)多的關(guān)鍵詞提取出來。由于本文使用的每個數(shù)據(jù)集中的數(shù)據(jù)存在關(guān)鍵詞的共現(xiàn)關(guān)系,因此,實驗的,當關(guān)鍵詞在不同文章中出現(xiàn)的次數(shù)較多時,基于 GCN 的關(guān)鍵詞提取算法效當本算法不考慮關(guān)鍵詞在不同文章之間的共現(xiàn)關(guān)系時,我們對每個數(shù)據(jù)集均的 100 篇文章進行測試,本算法的實驗結(jié)果與基于 DeepWalk 的關(guān)鍵詞提取算表 4.3 所示。表 4.3 單篇文章兩種關(guān)鍵詞提取算法的實驗結(jié)果對比數(shù)據(jù)集 算法 Precision recall F1-ScoreClu_Com Our model1 13.9% 15.7% 14.5%Our model2 14.8% 17.2% 15.7%SemEval Our model1 5.9% 8.8% 6.9%Our model2 7.0% 9.1% 7.7%
第 4 章 實驗分析及算法應(yīng)用從表 4.3 中的實驗的結(jié)果來看,兩種算法在準確率的評估上,相差甚微。但w 與 Inspec 兩種數(shù)據(jù)集上,基于 DeepWalk 的關(guān)鍵詞提取算法正確率更高一些篇文章采用 DeepWalk 算法進行關(guān)鍵詞提取的時間效率比基于 GCN 進行關(guān)鍵效率要高很多。從圖 4.3 中可以更直觀的看出兩者在精準率上相差甚微。
【參考文獻】:
期刊論文
[1]話題檢測與跟蹤的評測及研究綜述[J]. 洪宇,張宇,劉挺,李生. 中文信息學(xué)報. 2007(06)
本文編號:3423874
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:55 頁
【學(xué)位級別】:碩士
【部分圖文】:
基于DeepWalk的關(guān)鍵詞提取實驗結(jié)果-精準率
圖 4.2 基于 GCN 的關(guān)鍵詞提取實驗結(jié)果-精準率本算法的優(yōu)勢在于當關(guān)鍵詞在不同文章中存在共現(xiàn)關(guān)系時,本算法可以將一文章中出現(xiàn)次數(shù)少但在多篇文章中出現(xiàn)次數(shù)多的關(guān)鍵詞提取出來。由于本文使用的每個數(shù)據(jù)集中的數(shù)據(jù)存在關(guān)鍵詞的共現(xiàn)關(guān)系,因此,實驗的,當關(guān)鍵詞在不同文章中出現(xiàn)的次數(shù)較多時,基于 GCN 的關(guān)鍵詞提取算法效當本算法不考慮關(guān)鍵詞在不同文章之間的共現(xiàn)關(guān)系時,我們對每個數(shù)據(jù)集均的 100 篇文章進行測試,本算法的實驗結(jié)果與基于 DeepWalk 的關(guān)鍵詞提取算表 4.3 所示。表 4.3 單篇文章兩種關(guān)鍵詞提取算法的實驗結(jié)果對比數(shù)據(jù)集 算法 Precision recall F1-ScoreClu_Com Our model1 13.9% 15.7% 14.5%Our model2 14.8% 17.2% 15.7%SemEval Our model1 5.9% 8.8% 6.9%Our model2 7.0% 9.1% 7.7%
第 4 章 實驗分析及算法應(yīng)用從表 4.3 中的實驗的結(jié)果來看,兩種算法在準確率的評估上,相差甚微。但w 與 Inspec 兩種數(shù)據(jù)集上,基于 DeepWalk 的關(guān)鍵詞提取算法正確率更高一些篇文章采用 DeepWalk 算法進行關(guān)鍵詞提取的時間效率比基于 GCN 進行關(guān)鍵效率要高很多。從圖 4.3 中可以更直觀的看出兩者在精準率上相差甚微。
【參考文獻】:
期刊論文
[1]話題檢測與跟蹤的評測及研究綜述[J]. 洪宇,張宇,劉挺,李生. 中文信息學(xué)報. 2007(06)
本文編號:3423874
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3423874.html
最近更新
教材專著