基于多屬性融合的關(guān)鍵詞提取研究
發(fā)布時(shí)間:2021-06-05 07:18
關(guān)鍵詞是文檔主題信息的精煉,借助關(guān)鍵詞可以快速地獲取文本主旨,其研究成果可廣泛用于文檔檢索、文本分類、文本主題挖掘等具體領(lǐng)域。傳統(tǒng)基于圖的關(guān)鍵詞提取方法主要研究的是對(duì)詞圖中的單詞進(jìn)行準(zhǔn)確評(píng)分,對(duì)提取關(guān)鍵短語的研究工作不足,且利用的有效屬性較少。本文聚焦于用圖方法進(jìn)行關(guān)鍵詞提取,總結(jié)了傳統(tǒng)圖模型的不足,提出多屬性融合的圖關(guān)鍵詞提取方法,論文工作包括:提出關(guān)鍵詞的相關(guān)屬性和其屬性值的計(jì)算方法,圍繞通用關(guān)鍵詞提取框架對(duì)現(xiàn)有方法進(jìn)行綜述,重點(diǎn)介紹與本文方法相關(guān)的基于圖的關(guān)鍵詞提取方法。首先利用已有的算法取得詞圖中每個(gè)單詞的評(píng)分,然后據(jù)此融合短語的多種屬性對(duì)候選關(guān)鍵短語評(píng)分并排序進(jìn)而提取關(guān)鍵詞。針對(duì)傳統(tǒng)圖方法中候選短語的評(píng)分結(jié)果易受單詞的評(píng)分與短語長度的影響,本章提出融和短語頻率屬性、位置屬性與長度屬性的評(píng)分方法,嘗試改變屬性值的計(jì)算方法與融合方法以找到最佳的短語評(píng)分方法。實(shí)驗(yàn)結(jié)果表明,最優(yōu)的融合方法在三類數(shù)據(jù)集上的各項(xiàng)評(píng)分指標(biāo)都超越了其他對(duì)比的融合方法,能提高關(guān)鍵詞提取結(jié)果;赑ageRank算法,結(jié)合詞向量與詞顯式屬性來改進(jìn)詞圖中的單詞評(píng)分算法。針對(duì)現(xiàn)有基于圖的關(guān)鍵詞提取方法忽略了詞在序列...
【文章來源】:中國民航大學(xué)天津市
【文章頁數(shù)】:55 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
論文關(guān)鍵詞和新聞關(guān)鍵詞
中國民航大學(xué)碩士學(xué)位論文26時(shí),位置因素的作用有利有弊,如KDD數(shù)據(jù)集中,Single-TPR和WAR的短語評(píng)分方法在頻次為1時(shí)加入位置因素后關(guān)鍵詞提取結(jié)果沒有僅使用詞頻特征顯著;SIGIR數(shù)據(jù)集中,WAR和PositionRank的短語評(píng)分算法在頻次為3時(shí)因位置因素的加入提升了關(guān)鍵詞的提取結(jié)果。結(jié)合表3-3可知,方法11的適用場景是當(dāng)候選短語頻率不同時(shí)。(4)分析單詞評(píng)分的結(jié)果對(duì)最終提取關(guān)鍵詞的影響;谏鲜鰪亩陶Z統(tǒng)計(jì)層次著手進(jìn)行的研究,現(xiàn)從單詞的評(píng)分結(jié)果入手,本章認(rèn)為直接使用短語內(nèi)含單詞的評(píng)分之和的短語評(píng)分算法可以間接地評(píng)判單詞評(píng)分的影響。在這種方式下用不同的單詞評(píng)分方法得到的關(guān)鍵詞提取結(jié)果會(huì)有差異,比較4種單詞評(píng)分方法對(duì)最終提取性能的影響得圖3-2。圖3-2所示為4種單詞評(píng)分算法在使用短語評(píng)分算法1、8、9、11時(shí)關(guān)鍵詞的提取結(jié)果。觀察圖可知,在三類數(shù)據(jù)集中,PositionRank在短語評(píng)分方法1及其他3種短語評(píng)分方法中提取結(jié)果的F值均最優(yōu)。因此可知,單詞的評(píng)分結(jié)果對(duì)短語的打分以及最終的提取結(jié)果有影響,準(zhǔn)確的單詞評(píng)分能提升提取關(guān)鍵詞的正確率。3.6本章總結(jié)關(guān)鍵短語作為科技文獻(xiàn)的主題,相對(duì)于關(guān)鍵詞更能體現(xiàn)作者的主體思想。本章針對(duì)傳統(tǒng)關(guān)鍵短語提取方法受短語長度影響的缺點(diǎn),提出了一種新的基于圖的關(guān)鍵短語評(píng)分方法,雖然增加了提取文本關(guān)鍵詞的復(fù)雜度,但獲得了較高的準(zhǔn)確率,有一定的應(yīng)用價(jià)值。另外,通過實(shí)驗(yàn)得出優(yōu)異的單詞評(píng)分算法能提升提取關(guān)鍵短語的準(zhǔn)確率,所以后續(xù)的研究將把重點(diǎn)放到單詞的評(píng)分算法上。圖3-24種單詞評(píng)分方法提取結(jié)果對(duì)比
中國民航大學(xué)碩士學(xué)位論文33Skip-gram模型負(fù)采樣個(gè)數(shù)為3;TWE-1模型中主題數(shù)目為5;FastText詞向量來自谷歌公司使用默認(rèn)參數(shù)在維基百科上預(yù)訓(xùn)練的詞向量集。本章對(duì)詞向量的細(xì)節(jié)不做過多探討,因此參數(shù)選擇默認(rèn)值即可。接下來是與關(guān)鍵詞提相關(guān)的參數(shù)設(shè)置。構(gòu)建詞圖時(shí)滑動(dòng)窗口大小c的范圍是1~10,c越大算法復(fù)雜率越高,所以本章將初始值設(shè)為2;PageRank算法的阻尼因子α設(shè)為通用值0.85;在計(jì)算實(shí)驗(yàn)結(jié)果的F值時(shí)初始取top-k=4。我們會(huì)在具體的實(shí)驗(yàn)中比較k的取值與詞向量模型對(duì)提取結(jié)果的影響。4.5.4實(shí)驗(yàn)結(jié)果與分析為了降低實(shí)驗(yàn)的復(fù)雜性,安排如下:第一次實(shí)驗(yàn)在單詞評(píng)分算法中探討top-k中k和詞向量模型對(duì)于提取結(jié)果的影響;第二次實(shí)驗(yàn)使用第一次實(shí)驗(yàn)結(jié)果得出的最佳k值然后比較14種短語評(píng)分方式對(duì)于提取結(jié)果的影響。圖4-3是三種詞向量模型分別在不同k值和數(shù)據(jù)集上的詞向量提取結(jié)果。圖4-3(b)TWE-1詞向量的實(shí)驗(yàn)結(jié)果圖4-3(a)FastText詞向量的實(shí)驗(yàn)結(jié)果圖4-3(c)Skip-gram詞向量的實(shí)驗(yàn)結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]特征驅(qū)動(dòng)的關(guān)鍵詞提取算法綜述[J]. 常耀成,張宇翔,王紅,萬懷宇,肖春景. 軟件學(xué)報(bào). 2018(07)
[2]共詞分析與LDA模型分析在文本主題挖掘中的比較研究[J]. 曲靖野,陳震,胡軼楠. 情報(bào)科學(xué). 2018(02)
[3]自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學(xué)報(bào). 2017(09)
本文編號(hào):3211711
【文章來源】:中國民航大學(xué)天津市
【文章頁數(shù)】:55 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
論文關(guān)鍵詞和新聞關(guān)鍵詞
中國民航大學(xué)碩士學(xué)位論文26時(shí),位置因素的作用有利有弊,如KDD數(shù)據(jù)集中,Single-TPR和WAR的短語評(píng)分方法在頻次為1時(shí)加入位置因素后關(guān)鍵詞提取結(jié)果沒有僅使用詞頻特征顯著;SIGIR數(shù)據(jù)集中,WAR和PositionRank的短語評(píng)分算法在頻次為3時(shí)因位置因素的加入提升了關(guān)鍵詞的提取結(jié)果。結(jié)合表3-3可知,方法11的適用場景是當(dāng)候選短語頻率不同時(shí)。(4)分析單詞評(píng)分的結(jié)果對(duì)最終提取關(guān)鍵詞的影響;谏鲜鰪亩陶Z統(tǒng)計(jì)層次著手進(jìn)行的研究,現(xiàn)從單詞的評(píng)分結(jié)果入手,本章認(rèn)為直接使用短語內(nèi)含單詞的評(píng)分之和的短語評(píng)分算法可以間接地評(píng)判單詞評(píng)分的影響。在這種方式下用不同的單詞評(píng)分方法得到的關(guān)鍵詞提取結(jié)果會(huì)有差異,比較4種單詞評(píng)分方法對(duì)最終提取性能的影響得圖3-2。圖3-2所示為4種單詞評(píng)分算法在使用短語評(píng)分算法1、8、9、11時(shí)關(guān)鍵詞的提取結(jié)果。觀察圖可知,在三類數(shù)據(jù)集中,PositionRank在短語評(píng)分方法1及其他3種短語評(píng)分方法中提取結(jié)果的F值均最優(yōu)。因此可知,單詞的評(píng)分結(jié)果對(duì)短語的打分以及最終的提取結(jié)果有影響,準(zhǔn)確的單詞評(píng)分能提升提取關(guān)鍵詞的正確率。3.6本章總結(jié)關(guān)鍵短語作為科技文獻(xiàn)的主題,相對(duì)于關(guān)鍵詞更能體現(xiàn)作者的主體思想。本章針對(duì)傳統(tǒng)關(guān)鍵短語提取方法受短語長度影響的缺點(diǎn),提出了一種新的基于圖的關(guān)鍵短語評(píng)分方法,雖然增加了提取文本關(guān)鍵詞的復(fù)雜度,但獲得了較高的準(zhǔn)確率,有一定的應(yīng)用價(jià)值。另外,通過實(shí)驗(yàn)得出優(yōu)異的單詞評(píng)分算法能提升提取關(guān)鍵短語的準(zhǔn)確率,所以后續(xù)的研究將把重點(diǎn)放到單詞的評(píng)分算法上。圖3-24種單詞評(píng)分方法提取結(jié)果對(duì)比
中國民航大學(xué)碩士學(xué)位論文33Skip-gram模型負(fù)采樣個(gè)數(shù)為3;TWE-1模型中主題數(shù)目為5;FastText詞向量來自谷歌公司使用默認(rèn)參數(shù)在維基百科上預(yù)訓(xùn)練的詞向量集。本章對(duì)詞向量的細(xì)節(jié)不做過多探討,因此參數(shù)選擇默認(rèn)值即可。接下來是與關(guān)鍵詞提相關(guān)的參數(shù)設(shè)置。構(gòu)建詞圖時(shí)滑動(dòng)窗口大小c的范圍是1~10,c越大算法復(fù)雜率越高,所以本章將初始值設(shè)為2;PageRank算法的阻尼因子α設(shè)為通用值0.85;在計(jì)算實(shí)驗(yàn)結(jié)果的F值時(shí)初始取top-k=4。我們會(huì)在具體的實(shí)驗(yàn)中比較k的取值與詞向量模型對(duì)提取結(jié)果的影響。4.5.4實(shí)驗(yàn)結(jié)果與分析為了降低實(shí)驗(yàn)的復(fù)雜性,安排如下:第一次實(shí)驗(yàn)在單詞評(píng)分算法中探討top-k中k和詞向量模型對(duì)于提取結(jié)果的影響;第二次實(shí)驗(yàn)使用第一次實(shí)驗(yàn)結(jié)果得出的最佳k值然后比較14種短語評(píng)分方式對(duì)于提取結(jié)果的影響。圖4-3是三種詞向量模型分別在不同k值和數(shù)據(jù)集上的詞向量提取結(jié)果。圖4-3(b)TWE-1詞向量的實(shí)驗(yàn)結(jié)果圖4-3(a)FastText詞向量的實(shí)驗(yàn)結(jié)果圖4-3(c)Skip-gram詞向量的實(shí)驗(yàn)結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]特征驅(qū)動(dòng)的關(guān)鍵詞提取算法綜述[J]. 常耀成,張宇翔,王紅,萬懷宇,肖春景. 軟件學(xué)報(bào). 2018(07)
[2]共詞分析與LDA模型分析在文本主題挖掘中的比較研究[J]. 曲靖野,陳震,胡軼楠. 情報(bào)科學(xué). 2018(02)
[3]自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學(xué)報(bào). 2017(09)
本文編號(hào):3211711
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3211711.html
最近更新
教材專著