融合Word2vec與TextRank的關(guān)鍵詞抽取研究
發(fā)布時間:2017-12-20 11:39
本文關(guān)鍵詞:融合Word2vec與TextRank的關(guān)鍵詞抽取研究 出處:《現(xiàn)代圖書情報技術(shù)》2016年06期 論文類型:期刊論文
更多相關(guān)文章: 關(guān)鍵詞抽取 Wordvec TextRank 圖模型 詞向量
【摘要】:【目的】通過融合單個文檔內(nèi)部結(jié)構(gòu)信息和文檔整體的詞向量關(guān)系進行關(guān)鍵詞抽取!痉椒ā坷肳ord2vec將文檔集中所有詞匯進行向量表征,并且通過詞向量計算詞匯之間的相似度,進而對Text Rank算法進行改進,將候選關(guān)鍵詞的權(quán)重按照詞匯之間的相似度和鄰接關(guān)系進行非均勻分配,并構(gòu)建對應(yīng)的概率轉(zhuǎn)移矩陣用于詞匯圖模型的迭代計算以及關(guān)鍵詞抽取。【結(jié)果】實現(xiàn)Word2vec與Text Rank的有效融合,且當訓(xùn)練文檔集詞匯分布合理時,關(guān)鍵詞抽取效果較明顯!揪窒蕖啃枰M行成本較高的文檔集訓(xùn)練,獲取詞向量以及詞關(guān)系矩陣。【結(jié)論】文檔集中的詞關(guān)系有助于修正單文檔內(nèi)部的詞關(guān)系,提升單文檔的關(guān)鍵詞抽取準確性。
【作者單位】: 羅定職業(yè)技術(shù)學(xué)院電子信息系;
【分類號】:TP391.1
【正文快照】: 1引言抽取關(guān)鍵詞的目的在于高度凝練文本的主題,快速獲取文本的核心內(nèi)容。關(guān)鍵詞抽取在新聞、學(xué)術(shù)論文的自動摘要,社會化標簽標注,文本主題抽取等領(lǐng)域具有重要作用。常見的關(guān)鍵詞抽取步驟為:對文本進行分詞,去除無用的停用詞,判斷詞是否為關(guān)鍵詞,選擇N個詞作為該文本關(guān)鍵詞。
【相似文獻】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 朱雪梅;基于Word2Vec主題提取的微博推薦[D];北京理工大學(xué);2014年
,本文編號:1311976
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1311976.html
最近更新
教材專著