融合Word2vec與TextRank的關(guān)鍵詞抽取研究
發(fā)布時(shí)間:2017-12-20 11:39
本文關(guān)鍵詞:融合Word2vec與TextRank的關(guān)鍵詞抽取研究 出處:《現(xiàn)代圖書情報(bào)技術(shù)》2016年06期 論文類型:期刊論文
更多相關(guān)文章: 關(guān)鍵詞抽取 Wordvec TextRank 圖模型 詞向量
【摘要】:【目的】通過融合單個(gè)文檔內(nèi)部結(jié)構(gòu)信息和文檔整體的詞向量關(guān)系進(jìn)行關(guān)鍵詞抽取。【方法】利用Word2vec將文檔集中所有詞匯進(jìn)行向量表征,并且通過詞向量計(jì)算詞匯之間的相似度,進(jìn)而對(duì)Text Rank算法進(jìn)行改進(jìn),將候選關(guān)鍵詞的權(quán)重按照詞匯之間的相似度和鄰接關(guān)系進(jìn)行非均勻分配,并構(gòu)建對(duì)應(yīng)的概率轉(zhuǎn)移矩陣用于詞匯圖模型的迭代計(jì)算以及關(guān)鍵詞抽取。【結(jié)果】實(shí)現(xiàn)Word2vec與Text Rank的有效融合,且當(dāng)訓(xùn)練文檔集詞匯分布合理時(shí),關(guān)鍵詞抽取效果較明顯。【局限】需要進(jìn)行成本較高的文檔集訓(xùn)練,獲取詞向量以及詞關(guān)系矩陣!窘Y(jié)論】文檔集中的詞關(guān)系有助于修正單文檔內(nèi)部的詞關(guān)系,提升單文檔的關(guān)鍵詞抽取準(zhǔn)確性。
【作者單位】: 羅定職業(yè)技術(shù)學(xué)院電子信息系;
【分類號(hào)】:TP391.1
【正文快照】: 1引言抽取關(guān)鍵詞的目的在于高度凝練文本的主題,快速獲取文本的核心內(nèi)容。關(guān)鍵詞抽取在新聞、學(xué)術(shù)論文的自動(dòng)摘要,社會(huì)化標(biāo)簽標(biāo)注,文本主題抽取等領(lǐng)域具有重要作用。常見的關(guān)鍵詞抽取步驟為:對(duì)文本進(jìn)行分詞,去除無用的停用詞,判斷詞是否為關(guān)鍵詞,選擇N個(gè)詞作為該文本關(guān)鍵詞。
【相似文獻(xiàn)】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 朱雪梅;基于Word2Vec主題提取的微博推薦[D];北京理工大學(xué);2014年
,本文編號(hào):1311976
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1311976.html
最近更新
教材專著