基于詞向量學(xué)習(xí)的關(guān)鍵詞提取算法研究
發(fā)布時(shí)間:2021-12-30 12:44
關(guān)鍵詞是文本主題信息的精煉,可幫助人們快速獲得文章的核心內(nèi)容,并被廣泛應(yīng)用于信息檢索、問(wèn)答系統(tǒng)、文本分類等領(lǐng)域。傳統(tǒng)基于圖的關(guān)鍵詞提取方法,僅考慮到詞在共現(xiàn)詞圖中的全局結(jié)構(gòu)信息,忽略了詞在序列中的潛在語(yǔ)義信息,F(xiàn)有研究表明詞向量學(xué)習(xí)技術(shù)可以有效捕獲詞在序列中的潛在語(yǔ)義信息。故本研究主要聚焦于:在基于圖的關(guān)鍵詞提取方法中融合詞向量,以及提出面向關(guān)鍵詞提取的詞向量學(xué)習(xí)模型。具體工作包括:利用通用的詞向量模型學(xué)習(xí)詞向量,并融合其與詞在文檔中的位置信息來(lái)改進(jìn)基于圖的關(guān)鍵詞提取算法。針對(duì)現(xiàn)有基于圖的關(guān)鍵詞提取方法忽略了詞在序列中的潛在語(yǔ)義信息的不足,該方法將包含了詞在序列中潛在語(yǔ)義的詞向量,與詞在文檔中的位置信息相結(jié)合,改進(jìn)PageRank算法來(lái)為單詞更加合理地評(píng)分,從而提高關(guān)鍵詞提取的效果。實(shí)驗(yàn)分別使用Skip-gram,TWE-1和fastText三個(gè)通用的詞向量模型來(lái)學(xué)習(xí)詞向量,并與5個(gè)無(wú)監(jiān)督的關(guān)鍵詞提取方法做對(duì)比。實(shí)驗(yàn)結(jié)果表明,我們提出的融合詞向量和位置信息的關(guān)鍵詞的圖提取算法在所有評(píng)估指標(biāo)上均優(yōu)于PositionRank方法的結(jié)果。提出面向關(guān)鍵詞提取的詞向量學(xué)習(xí)模型,并將其應(yīng)用到基于圖...
【文章來(lái)源】:中國(guó)民航大學(xué)天津市
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
百度搜索風(fēng)云榜
性能還比較低,還需進(jìn)一步研究。關(guān)鍵詞提取技術(shù)可以直接應(yīng)用于信息檢索任務(wù)。搜索引擎通過(guò)用戶輸入的關(guān)鍵詞接返回這些關(guān)鍵詞對(duì)應(yīng)的網(wǎng)頁(yè)。其次,還可以廣泛應(yīng)用于自然語(yǔ)言處理的其他任務(wù)如,在文檔分類任務(wù)中,可以通過(guò)提取的一組關(guān)鍵詞來(lái)代表文檔,以較低的維度和復(fù)雜度進(jìn)行文本相關(guān)性的分析[11];在意見(jiàn)挖掘任務(wù)中,從意見(jiàn)中提取的關(guān)鍵詞對(duì)理意見(jiàn)的語(yǔ)義有重要的作用;在問(wèn)答系統(tǒng)中,關(guān)鍵詞提取是理解問(wèn)題的基礎(chǔ),并且如夠從問(wèn)題中快速地提取出正確的關(guān)鍵詞是提升問(wèn)答系統(tǒng)性能的關(guān)鍵[11]。
所以為了克服這個(gè)問(wèn)題,一些研究者提出了混合的方法,如 2014 年 ]混合使用 KEA 和 TextRank 算法進(jìn)行關(guān)鍵詞提。2017 年 Gollapalli 等型中將 TextRank 的評(píng)分作為候選關(guān)鍵詞的一個(gè)特征來(lái)進(jìn)行關(guān)鍵詞提取。法還是需要訓(xùn)練集的。究?jī)?nèi)容與章節(jié)介紹研究?jī)?nèi)容鍵詞提取方法可分為有監(jiān)督,無(wú)監(jiān)督和半監(jiān)督三大類。1.2 節(jié)主要介紹了有監(jiān)督和無(wú)監(jiān)督的關(guān)鍵詞提取方法上做的嘗試和研究。本文使用基于圖的詞提取方法從英文文本中提取關(guān)鍵詞,并使用了有監(jiān)督方法中常用的統(tǒng)計(jì)位置信息等來(lái)修改基于圖的隨機(jī)游走模型。本文的研究?jī)?nèi)容如圖 1-3 所示
【參考文獻(xiàn)】:
期刊論文
[1]基于15年文獻(xiàn)計(jì)量學(xué)的信息檢索相關(guān)性研究[J]. 于興尚. 圖書(shū)館研究與工作. 2018(11)
[2]基于BiLSTM-CRF的關(guān)鍵詞自動(dòng)抽取[J]. 陳偉,吳友政,陳文亮,張民. 計(jì)算機(jī)科學(xué). 2018(S1)
[3]基于Word2Vec和TextRank的時(shí)政類新聞關(guān)鍵詞抽取方法研究[J]. 劉奇飛,沈煒域. 情報(bào)探索. 2018(06)
[4]基于Scopus檢索和TFIDF的論文關(guān)鍵詞自動(dòng)提取方法[J]. 陳列蕾,方暉. 南京大學(xué)學(xué)報(bào)(自然科學(xué)). 2018(03)
[5]自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國(guó)棟,張麗. 軟件學(xué)報(bào). 2017(09)
[6]基于引用背景信息的關(guān)鍵詞自動(dòng)抽取方法研究[J]. 宋宇,羅準(zhǔn)辰,真溱. 情報(bào)理論與實(shí)踐. 2016(11)
[7]基于圖和LDA主題模型的關(guān)鍵詞抽取算法[J]. 劉嘯劍,謝飛,吳信東. 情報(bào)學(xué)報(bào). 2016 (06)
碩士論文
[1]面向問(wèn)答的問(wèn)句關(guān)鍵詞提取技術(shù)研究[D]. 王煦祥.哈爾濱工業(yè)大學(xué) 2016
本文編號(hào):3558222
【文章來(lái)源】:中國(guó)民航大學(xué)天津市
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
百度搜索風(fēng)云榜
性能還比較低,還需進(jìn)一步研究。關(guān)鍵詞提取技術(shù)可以直接應(yīng)用于信息檢索任務(wù)。搜索引擎通過(guò)用戶輸入的關(guān)鍵詞接返回這些關(guān)鍵詞對(duì)應(yīng)的網(wǎng)頁(yè)。其次,還可以廣泛應(yīng)用于自然語(yǔ)言處理的其他任務(wù)如,在文檔分類任務(wù)中,可以通過(guò)提取的一組關(guān)鍵詞來(lái)代表文檔,以較低的維度和復(fù)雜度進(jìn)行文本相關(guān)性的分析[11];在意見(jiàn)挖掘任務(wù)中,從意見(jiàn)中提取的關(guān)鍵詞對(duì)理意見(jiàn)的語(yǔ)義有重要的作用;在問(wèn)答系統(tǒng)中,關(guān)鍵詞提取是理解問(wèn)題的基礎(chǔ),并且如夠從問(wèn)題中快速地提取出正確的關(guān)鍵詞是提升問(wèn)答系統(tǒng)性能的關(guān)鍵[11]。
所以為了克服這個(gè)問(wèn)題,一些研究者提出了混合的方法,如 2014 年 ]混合使用 KEA 和 TextRank 算法進(jìn)行關(guān)鍵詞提。2017 年 Gollapalli 等型中將 TextRank 的評(píng)分作為候選關(guān)鍵詞的一個(gè)特征來(lái)進(jìn)行關(guān)鍵詞提取。法還是需要訓(xùn)練集的。究?jī)?nèi)容與章節(jié)介紹研究?jī)?nèi)容鍵詞提取方法可分為有監(jiān)督,無(wú)監(jiān)督和半監(jiān)督三大類。1.2 節(jié)主要介紹了有監(jiān)督和無(wú)監(jiān)督的關(guān)鍵詞提取方法上做的嘗試和研究。本文使用基于圖的詞提取方法從英文文本中提取關(guān)鍵詞,并使用了有監(jiān)督方法中常用的統(tǒng)計(jì)位置信息等來(lái)修改基于圖的隨機(jī)游走模型。本文的研究?jī)?nèi)容如圖 1-3 所示
【參考文獻(xiàn)】:
期刊論文
[1]基于15年文獻(xiàn)計(jì)量學(xué)的信息檢索相關(guān)性研究[J]. 于興尚. 圖書(shū)館研究與工作. 2018(11)
[2]基于BiLSTM-CRF的關(guān)鍵詞自動(dòng)抽取[J]. 陳偉,吳友政,陳文亮,張民. 計(jì)算機(jī)科學(xué). 2018(S1)
[3]基于Word2Vec和TextRank的時(shí)政類新聞關(guān)鍵詞抽取方法研究[J]. 劉奇飛,沈煒域. 情報(bào)探索. 2018(06)
[4]基于Scopus檢索和TFIDF的論文關(guān)鍵詞自動(dòng)提取方法[J]. 陳列蕾,方暉. 南京大學(xué)學(xué)報(bào)(自然科學(xué)). 2018(03)
[5]自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國(guó)棟,張麗. 軟件學(xué)報(bào). 2017(09)
[6]基于引用背景信息的關(guān)鍵詞自動(dòng)抽取方法研究[J]. 宋宇,羅準(zhǔn)辰,真溱. 情報(bào)理論與實(shí)踐. 2016(11)
[7]基于圖和LDA主題模型的關(guān)鍵詞抽取算法[J]. 劉嘯劍,謝飛,吳信東. 情報(bào)學(xué)報(bào). 2016 (06)
碩士論文
[1]面向問(wèn)答的問(wèn)句關(guān)鍵詞提取技術(shù)研究[D]. 王煦祥.哈爾濱工業(yè)大學(xué) 2016
本文編號(hào):3558222
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3558222.html
最近更新
教材專著