改進(jìn)TextRank與結(jié)合BiGRU的兩種關(guān)鍵詞提取方法研究
發(fā)布時(shí)間:2021-08-18 11:48
關(guān)鍵詞可以高效地用于檢索、理解文本內(nèi)容,使用戶快速獲取文本的主要思想。現(xiàn)有的關(guān)鍵詞提取技術(shù)提取的關(guān)鍵詞質(zhì)量尚不理想,這不利于后續(xù)任務(wù)的進(jìn)行。為了提升關(guān)鍵詞提取的準(zhǔn)確性,本文主要從圖方法和神經(jīng)網(wǎng)絡(luò)方法兩個(gè)方面,對關(guān)鍵詞提取方法進(jìn)行了研究與改進(jìn)。針對多數(shù)關(guān)鍵詞提取方法只使用了少量特征的問題,本文提出了一種改進(jìn)TextRank的多特征關(guān)鍵詞提取方法。該方法在TextRank算法的基礎(chǔ)上,融合了多個(gè)特征。如果一個(gè)單詞在越多的句子中出現(xiàn),我們認(rèn)為這個(gè)單詞的重要性就越高,所以將計(jì)算目標(biāo)單詞所出現(xiàn)的句子總數(shù)作為一個(gè)特征融入TextRank中,同時(shí)使用詞跨度、詞位置倒數(shù)和來修改TextRank的轉(zhuǎn)移概率,使用LDA主題信息修改重啟概率,得到了一個(gè)改進(jìn)的TextRank關(guān)鍵詞提取算法。我們在SemEval2010、KDD及WWW三個(gè)數(shù)據(jù)集上進(jìn)行了對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,改進(jìn)算法在準(zhǔn)確率、召回率、F1-score上,比基線算法TF-TDF、TextRank、SingleRank及TopicRank有了明顯的提高。改進(jìn)TextRank的多特征關(guān)鍵詞提取方法只是基于圖模型的方法,本文的另外一項(xiàng)研究是將圖模型和...
【文章來源】:江西師范大學(xué)江西省
【文章頁數(shù)】:51 頁
【學(xué)位級別】:碩士
【部分圖文】:
關(guān)鍵詞提取方法分類國內(nèi)外學(xué)者提出的許多很有價(jià)值的方法中,基于統(tǒng)計(jì)信息的關(guān)鍵詞提取方法已經(jīng)得
改進(jìn)TextRank與結(jié)合BiGRU的兩種關(guān)鍵詞提取方法研究13別為輸入層、投影層和輸出層,模型框架見圖2-1和圖2-2所示。CBOW模型輸入的是目標(biāo)詞w(t)的上下文的詞向量w(t-2)、w(t-1)、w(t+1)、w(t+2),輸出的是這個(gè)目標(biāo)詞的詞向量w(t),是用上下文來預(yù)測目標(biāo)詞的概率。而Skip-gram模型和CBOW的思路是相反的,即輸入是目標(biāo)詞的詞向量w(t),輸出的是目標(biāo)詞對應(yīng)的上下文詞向量w(t-2)、w(t-1)、w(t+1)、w(t+2),是用目標(biāo)詞來預(yù)測上下文的概率。(2)FastText。FastText①是facebook開源的一個(gè)可以高效的學(xué)習(xí)單詞表示和文本分類任務(wù)的工具。FastText的模型框架與Word2vec的CBOW模型框架非常相似,F(xiàn)astText的模型框架如圖2-3所示。FastText模型包括輸入層、隱藏層、輸出層共三層。它的核心思想是將整篇文檔的詞及n-gram向量疊加平均得到文檔向量,然后使用文檔向量做softmax多分類。其中輸入的是…表示的文本的n-gram向量,輸出的是label,隱藏層是對多個(gè)詞向量的疊加平均。圖2-3FastText模型框架①https://pypi.org/project/fasttext/0.7.2/
改進(jìn)TextRank與結(jié)合BiGRU的兩種關(guān)鍵詞提取方法研究17(4)將改進(jìn)的邊權(quán)重ijW迭代TextRank公式直至收斂,得到主題排名。(5)對每個(gè)主題,選擇首先出現(xiàn)在文檔中的候選詞作為關(guān)鍵詞。2.2.6Single-TPRSingle-TPR[60]是針對Liu等人在2010年提出的TopicalPageRank(TPR)[42]的改進(jìn),Liu等人使用LDA從維基百科中獲取單詞主題,并對每個(gè)主題設(shè)置一個(gè)PageRank,對每個(gè)文檔進(jìn)行多次計(jì)算,再對每個(gè)主題值求和以提取關(guān)鍵詞。2015年Sterckx等人[60]提出對每個(gè)文檔d使用一個(gè)PageRank,使用一個(gè)權(quán)值()iTw來表示PageRank中每個(gè)單詞iw的全部主題重要性,()iTw計(jì)算為詞-主題概率pwit=y=1kp(wi|ty)與文檔-主題概率ptd=y=1kp(ty|d)之間的余弦相似度,如公式2-16所示。單個(gè)PageRank值變化為公式2-15的()iSw。通過使算法計(jì)算一次,而不依賴于主題t的數(shù)量k,這大大減少了計(jì)算時(shí)間。()()()()()(1)()jikjjiiijwInwjkwOutwwvWTwSwSwWTw(2-15)(|)(|)()||(|)||||(|)||iiipwtptdTwpwtptd(2-16)2.2.7RaKUn通過無監(jiān)督學(xué)習(xí)和元頂點(diǎn)聚合來提取基于排名的關(guān)鍵詞,由Skrlj等人[61]在2019年提出,是一種基于圖的關(guān)鍵詞提取方法。引入了元頂點(diǎn)的概念,來聚集相似的頂點(diǎn)。元頂點(diǎn)的構(gòu)造如圖2-4所示,相同形狀的圖案表示相似的單詞,將相同形狀的節(jié)點(diǎn)合并成為一個(gè)元頂點(diǎn)。根據(jù)所考慮的節(jié)點(diǎn)計(jì)算的負(fù)載中心度得分,將從單字符提取擴(kuò)展到雙字符和三字符關(guān)鍵詞。這個(gè)方法有效的減少了詞圖的大校圖2-4元頂點(diǎn)的構(gòu)造
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)的關(guān)鍵詞提取算法研究[J]. 王濤,李明. 重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(03)
[2]一種基于信息熵的關(guān)鍵詞提取算法[J]. 吳華,羅順,孫偉晉. 計(jì)算機(jī)與數(shù)字工程. 2019(03)
[3]多特征關(guān)鍵詞提取算法研究[J]. 王潔,王麗清. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(07)
[4]特征驅(qū)動(dòng)的關(guān)鍵詞提取算法綜述[J]. 常耀成,張宇翔,王紅,萬懷宇,肖春景. 軟件學(xué)報(bào). 2018(07)
[5]基于詞共現(xiàn)的關(guān)鍵詞提取算法研究與改進(jìn)[J]. 和志強(qiáng),王麗鵬,張鵬云. 電子技術(shù)與軟件工程. 2018(01)
[6]基于多視角聚類模型的微博文本數(shù)據(jù)挖掘算法研究[J]. 陳蘭蘭,胡細(xì)玲. 科技通報(bào). 2017(11)
[7]基于擴(kuò)充詞匯鏈改進(jìn)的關(guān)鍵詞提取算法[J]. 王小林,朱磊,邰偉鵬. 蘇州科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
[8]詞向量聚類加權(quán)TextRank的關(guān)鍵詞抽取[J]. 夏天. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(02)
[9]融合Word2vec與TextRank的關(guān)鍵詞抽取研究[J]. 寧建飛,劉降珍. 現(xiàn)代圖書情報(bào)技術(shù). 2016(06)
[10]關(guān)鍵詞提取的K-means方法在設(shè)備分類中的運(yùn)用[J]. 陳立,田端正. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2015(12)
碩士論文
[1]基于圖與LDA的中文文本關(guān)鍵詞提取算法[D]. 郭慶.北京郵電大學(xué) 2019
[2]基于新聞文本的關(guān)鍵詞提取[D]. 陶潔.華中師范大學(xué) 2019
[3]面向電商領(lǐng)域的關(guān)鍵詞提取技術(shù)研究[D]. 樊繼康.哈爾濱工業(yè)大學(xué) 2018
[4]中文社交媒體話題關(guān)鍵詞抽取算法[D]. 何偉名.北京交通大學(xué) 2017
[5]搜索引擎中關(guān)鍵詞分類方法評估及推薦應(yīng)用[D]. 鐘文波.華南理工大學(xué) 2015
[6]基于文本的關(guān)鍵詞提取方法研究與實(shí)現(xiàn)[D]. 楊林.安徽工業(yè)大學(xué) 2013
本文編號(hào):3349832
【文章來源】:江西師范大學(xué)江西省
【文章頁數(shù)】:51 頁
【學(xué)位級別】:碩士
【部分圖文】:
關(guān)鍵詞提取方法分類國內(nèi)外學(xué)者提出的許多很有價(jià)值的方法中,基于統(tǒng)計(jì)信息的關(guān)鍵詞提取方法已經(jīng)得
改進(jìn)TextRank與結(jié)合BiGRU的兩種關(guān)鍵詞提取方法研究13別為輸入層、投影層和輸出層,模型框架見圖2-1和圖2-2所示。CBOW模型輸入的是目標(biāo)詞w(t)的上下文的詞向量w(t-2)、w(t-1)、w(t+1)、w(t+2),輸出的是這個(gè)目標(biāo)詞的詞向量w(t),是用上下文來預(yù)測目標(biāo)詞的概率。而Skip-gram模型和CBOW的思路是相反的,即輸入是目標(biāo)詞的詞向量w(t),輸出的是目標(biāo)詞對應(yīng)的上下文詞向量w(t-2)、w(t-1)、w(t+1)、w(t+2),是用目標(biāo)詞來預(yù)測上下文的概率。(2)FastText。FastText①是facebook開源的一個(gè)可以高效的學(xué)習(xí)單詞表示和文本分類任務(wù)的工具。FastText的模型框架與Word2vec的CBOW模型框架非常相似,F(xiàn)astText的模型框架如圖2-3所示。FastText模型包括輸入層、隱藏層、輸出層共三層。它的核心思想是將整篇文檔的詞及n-gram向量疊加平均得到文檔向量,然后使用文檔向量做softmax多分類。其中輸入的是…表示的文本的n-gram向量,輸出的是label,隱藏層是對多個(gè)詞向量的疊加平均。圖2-3FastText模型框架①https://pypi.org/project/fasttext/0.7.2/
改進(jìn)TextRank與結(jié)合BiGRU的兩種關(guān)鍵詞提取方法研究17(4)將改進(jìn)的邊權(quán)重ijW迭代TextRank公式直至收斂,得到主題排名。(5)對每個(gè)主題,選擇首先出現(xiàn)在文檔中的候選詞作為關(guān)鍵詞。2.2.6Single-TPRSingle-TPR[60]是針對Liu等人在2010年提出的TopicalPageRank(TPR)[42]的改進(jìn),Liu等人使用LDA從維基百科中獲取單詞主題,并對每個(gè)主題設(shè)置一個(gè)PageRank,對每個(gè)文檔進(jìn)行多次計(jì)算,再對每個(gè)主題值求和以提取關(guān)鍵詞。2015年Sterckx等人[60]提出對每個(gè)文檔d使用一個(gè)PageRank,使用一個(gè)權(quán)值()iTw來表示PageRank中每個(gè)單詞iw的全部主題重要性,()iTw計(jì)算為詞-主題概率pwit=y=1kp(wi|ty)與文檔-主題概率ptd=y=1kp(ty|d)之間的余弦相似度,如公式2-16所示。單個(gè)PageRank值變化為公式2-15的()iSw。通過使算法計(jì)算一次,而不依賴于主題t的數(shù)量k,這大大減少了計(jì)算時(shí)間。()()()()()(1)()jikjjiiijwInwjkwOutwwvWTwSwSwWTw(2-15)(|)(|)()||(|)||||(|)||iiipwtptdTwpwtptd(2-16)2.2.7RaKUn通過無監(jiān)督學(xué)習(xí)和元頂點(diǎn)聚合來提取基于排名的關(guān)鍵詞,由Skrlj等人[61]在2019年提出,是一種基于圖的關(guān)鍵詞提取方法。引入了元頂點(diǎn)的概念,來聚集相似的頂點(diǎn)。元頂點(diǎn)的構(gòu)造如圖2-4所示,相同形狀的圖案表示相似的單詞,將相同形狀的節(jié)點(diǎn)合并成為一個(gè)元頂點(diǎn)。根據(jù)所考慮的節(jié)點(diǎn)計(jì)算的負(fù)載中心度得分,將從單字符提取擴(kuò)展到雙字符和三字符關(guān)鍵詞。這個(gè)方法有效的減少了詞圖的大校圖2-4元頂點(diǎn)的構(gòu)造
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)的關(guān)鍵詞提取算法研究[J]. 王濤,李明. 重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(03)
[2]一種基于信息熵的關(guān)鍵詞提取算法[J]. 吳華,羅順,孫偉晉. 計(jì)算機(jī)與數(shù)字工程. 2019(03)
[3]多特征關(guān)鍵詞提取算法研究[J]. 王潔,王麗清. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(07)
[4]特征驅(qū)動(dòng)的關(guān)鍵詞提取算法綜述[J]. 常耀成,張宇翔,王紅,萬懷宇,肖春景. 軟件學(xué)報(bào). 2018(07)
[5]基于詞共現(xiàn)的關(guān)鍵詞提取算法研究與改進(jìn)[J]. 和志強(qiáng),王麗鵬,張鵬云. 電子技術(shù)與軟件工程. 2018(01)
[6]基于多視角聚類模型的微博文本數(shù)據(jù)挖掘算法研究[J]. 陳蘭蘭,胡細(xì)玲. 科技通報(bào). 2017(11)
[7]基于擴(kuò)充詞匯鏈改進(jìn)的關(guān)鍵詞提取算法[J]. 王小林,朱磊,邰偉鵬. 蘇州科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
[8]詞向量聚類加權(quán)TextRank的關(guān)鍵詞抽取[J]. 夏天. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(02)
[9]融合Word2vec與TextRank的關(guān)鍵詞抽取研究[J]. 寧建飛,劉降珍. 現(xiàn)代圖書情報(bào)技術(shù). 2016(06)
[10]關(guān)鍵詞提取的K-means方法在設(shè)備分類中的運(yùn)用[J]. 陳立,田端正. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2015(12)
碩士論文
[1]基于圖與LDA的中文文本關(guān)鍵詞提取算法[D]. 郭慶.北京郵電大學(xué) 2019
[2]基于新聞文本的關(guān)鍵詞提取[D]. 陶潔.華中師范大學(xué) 2019
[3]面向電商領(lǐng)域的關(guān)鍵詞提取技術(shù)研究[D]. 樊繼康.哈爾濱工業(yè)大學(xué) 2018
[4]中文社交媒體話題關(guān)鍵詞抽取算法[D]. 何偉名.北京交通大學(xué) 2017
[5]搜索引擎中關(guān)鍵詞分類方法評估及推薦應(yīng)用[D]. 鐘文波.華南理工大學(xué) 2015
[6]基于文本的關(guān)鍵詞提取方法研究與實(shí)現(xiàn)[D]. 楊林.安徽工業(yè)大學(xué) 2013
本文編號(hào):3349832
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3349832.html
最近更新
教材專著