基于語義特征的關(guān)鍵詞提取算法研究
發(fā)布時(shí)間:2021-11-04 00:49
關(guān)鍵詞提取是一項(xiàng)被應(yīng)用廣泛的技術(shù),早期通過人工手動(dòng)進(jìn)行提取,后來學(xué)者們提出了一些自動(dòng)化的方法,而信息的幾何級(jí)增長需要更加有效的方法。傳統(tǒng)算法主要是基于統(tǒng)計(jì)學(xué)方法,而關(guān)鍵詞本身也缺乏標(biāo)準(zhǔn),當(dāng)下深度學(xué)習(xí)的方法由于其能自動(dòng)學(xué)習(xí)數(shù)據(jù)的特征并輸出良好的結(jié)果,所以利用深度學(xué)習(xí)技術(shù)來學(xué)習(xí)關(guān)鍵詞與文檔間的語義特征實(shí)現(xiàn)更好的關(guān)鍵詞提取算法,本文主要做了以下創(chuàng)新:1.利用詞向量對(duì)TextRank算法進(jìn)行改進(jìn)。詞語的語義特征反映了詞語與文檔之間的關(guān)聯(lián)程度,利用FastText將文檔集進(jìn)行詞向量表征,基于隱含主題分布思想,該思想認(rèn)為一篇文檔是由屬于不同主題的詞語組成,而每個(gè)主題的中心詞之間的差異度最大,所以利用詞匯間語義性的差異,改進(jìn)TextRank的轉(zhuǎn)移概率矩陣,讓權(quán)重更多的轉(zhuǎn)移給語義差異度大的詞語,這樣增加了主題中心詞的權(quán)重,提升了原始算法的效果;2.構(gòu)建文檔-關(guān)鍵詞對(duì),將關(guān)鍵詞提取轉(zhuǎn)化為二分類任務(wù)。關(guān)鍵詞提取的過程中一般只注重文檔本身,沒有很好的利用到帶有標(biāo)注的訓(xùn)練數(shù)據(jù),本文假設(shè)文檔與關(guān)鍵詞之間存在著某種分布,關(guān)鍵詞是通過采樣得到的,這樣通過構(gòu)建文檔-關(guān)鍵詞對(duì),通過模型學(xué)習(xí)這種分布,將關(guān)鍵詞提取轉(zhuǎn)化為二...
【文章來源】:武漢大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
算法流程示意圖
CBOW結(jié)構(gòu)示意圖
Skip-gram結(jié)構(gòu)示意圖
【參考文獻(xiàn)】:
期刊論文
[1]詞向量聚類加權(quán)TextRank的關(guān)鍵詞抽取[J]. 夏天. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(02)
[2]基于word2vec的關(guān)鍵詞提取算法[J]. 李躍鵬,金翠,及俊川. 科研信息化技術(shù)與應(yīng)用. 2015(04)
本文編號(hào):3474670
【文章來源】:武漢大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
算法流程示意圖
CBOW結(jié)構(gòu)示意圖
Skip-gram結(jié)構(gòu)示意圖
【參考文獻(xiàn)】:
期刊論文
[1]詞向量聚類加權(quán)TextRank的關(guān)鍵詞抽取[J]. 夏天. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(02)
[2]基于word2vec的關(guān)鍵詞提取算法[J]. 李躍鵬,金翠,及俊川. 科研信息化技術(shù)與應(yīng)用. 2015(04)
本文編號(hào):3474670
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3474670.html
最近更新
教材專著