基于文檔主題結(jié)構(gòu)和詞圖迭代的關(guān)鍵詞抽取方法研究
發(fā)布時(shí)間:2021-01-03 07:14
【目的】利用主題模型得到文本主題信息,將主題信息融入TextRank模型對(duì)其進(jìn)行改進(jìn),提升文本關(guān)鍵詞自動(dòng)抽取的準(zhǔn)確率和召回率!痉椒ā坷肔DA對(duì)文檔集進(jìn)行主題建模,得到候選關(guān)鍵詞的主題詞分布和文檔主題分布;結(jié)合候選關(guān)鍵詞主題分布特征計(jì)算節(jié)點(diǎn)權(quán)重,加權(quán)文檔–主題概率分布和主題–詞概率分布特征作為節(jié)點(diǎn)的隨機(jī)跳轉(zhuǎn)概率;構(gòu)建新的轉(zhuǎn)移矩陣進(jìn)行詞圖迭代,得到改進(jìn)后的TextRank模型!窘Y(jié)果】采集南方周末網(wǎng)站1 559篇新聞文章進(jìn)行實(shí)驗(yàn)。結(jié)果表明,本文模型的關(guān)鍵詞抽取效果明顯優(yōu)于原始TextRank和TF-IDF模型;當(dāng)抽取關(guān)鍵詞個(gè)數(shù)為3時(shí),本模型準(zhǔn)確率比原始TextRank模型的準(zhǔn)確率提升4.7%,比TF-IDF提升6.5%!揪窒蕖咳诤纤惴ǖ挠(jì)算復(fù)雜度增加!窘Y(jié)論】融合主題信息的TextRank算法能夠使關(guān)鍵詞自動(dòng)抽取效果更加顯著。
【文章來源】:數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019年08期 北大核心CSSCI
【文章頁數(shù)】:9 頁
【參考文獻(xiàn)】:
期刊論文
[1]自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學(xué)報(bào). 2017(09)
[2]詞向量聚類加權(quán)TextRank的關(guān)鍵詞抽取[J]. 夏天. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(02)
[3]基于圖和LDA主題模型的關(guān)鍵詞抽取算法[J]. 劉嘯劍,謝飛,吳信東. 情報(bào)學(xué)報(bào). 2016 (06)
[4]一種基于LDA模型的關(guān)鍵詞抽取方法[J]. 朱澤德,李淼,張健,曾偉輝,曾新華. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(06)
[5]融合LDA與TextRank的關(guān)鍵詞抽取研究[J]. 顧益軍,夏天. 現(xiàn)代圖書情報(bào)技術(shù). 2014(Z1)
[6]詞語位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J]. 夏天. 現(xiàn)代圖書情報(bào)技術(shù). 2013(09)
[7]基于改進(jìn)TF-IDF的中文網(wǎng)頁關(guān)鍵詞抽取——以新聞網(wǎng)頁為例[J]. 錢愛兵,江嵐. 情報(bào)理論與實(shí)踐. 2008(06)
博士論文
[1]面向主題的關(guān)鍵詞抽取方法研究[D]. 丁卓冶.復(fù)旦大學(xué) 2013
碩士論文
[1]基于改進(jìn)的TFIDF關(guān)鍵詞自動(dòng)提取算法研究[D]. 楊凱艷.湘潭大學(xué) 2015
本文編號(hào):2954555
【文章來源】:數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019年08期 北大核心CSSCI
【文章頁數(shù)】:9 頁
【參考文獻(xiàn)】:
期刊論文
[1]自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學(xué)報(bào). 2017(09)
[2]詞向量聚類加權(quán)TextRank的關(guān)鍵詞抽取[J]. 夏天. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(02)
[3]基于圖和LDA主題模型的關(guān)鍵詞抽取算法[J]. 劉嘯劍,謝飛,吳信東. 情報(bào)學(xué)報(bào). 2016 (06)
[4]一種基于LDA模型的關(guān)鍵詞抽取方法[J]. 朱澤德,李淼,張健,曾偉輝,曾新華. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(06)
[5]融合LDA與TextRank的關(guān)鍵詞抽取研究[J]. 顧益軍,夏天. 現(xiàn)代圖書情報(bào)技術(shù). 2014(Z1)
[6]詞語位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J]. 夏天. 現(xiàn)代圖書情報(bào)技術(shù). 2013(09)
[7]基于改進(jìn)TF-IDF的中文網(wǎng)頁關(guān)鍵詞抽取——以新聞網(wǎng)頁為例[J]. 錢愛兵,江嵐. 情報(bào)理論與實(shí)踐. 2008(06)
博士論文
[1]面向主題的關(guān)鍵詞抽取方法研究[D]. 丁卓冶.復(fù)旦大學(xué) 2013
碩士論文
[1]基于改進(jìn)的TFIDF關(guān)鍵詞自動(dòng)提取算法研究[D]. 楊凱艷.湘潭大學(xué) 2015
本文編號(hào):2954555
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2954555.html
最近更新
教材專著