天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

改進(jìn)TextRank與結(jié)合BiGRU的兩種關(guān)鍵詞提取方法研究

發(fā)布時間:2021-08-18 11:48
  關(guān)鍵詞可以高效地用于檢索、理解文本內(nèi)容,使用戶快速獲取文本的主要思想,F(xiàn)有的關(guān)鍵詞提取技術(shù)提取的關(guān)鍵詞質(zhì)量尚不理想,這不利于后續(xù)任務(wù)的進(jìn)行。為了提升關(guān)鍵詞提取的準(zhǔn)確性,本文主要從圖方法和神經(jīng)網(wǎng)絡(luò)方法兩個方面,對關(guān)鍵詞提取方法進(jìn)行了研究與改進(jìn)。針對多數(shù)關(guān)鍵詞提取方法只使用了少量特征的問題,本文提出了一種改進(jìn)TextRank的多特征關(guān)鍵詞提取方法。該方法在TextRank算法的基礎(chǔ)上,融合了多個特征。如果一個單詞在越多的句子中出現(xiàn),我們認(rèn)為這個單詞的重要性就越高,所以將計算目標(biāo)單詞所出現(xiàn)的句子總數(shù)作為一個特征融入TextRank中,同時使用詞跨度、詞位置倒數(shù)和來修改TextRank的轉(zhuǎn)移概率,使用LDA主題信息修改重啟概率,得到了一個改進(jìn)的TextRank關(guān)鍵詞提取算法。我們在SemEval2010、KDD及WWW三個數(shù)據(jù)集上進(jìn)行了對比實驗,實驗結(jié)果表明,改進(jìn)算法在準(zhǔn)確率、召回率、F1-score上,比基線算法TF-TDF、TextRank、SingleRank及TopicRank有了明顯的提高。改進(jìn)TextRank的多特征關(guān)鍵詞提取方法只是基于圖模型的方法,本文的另外一項研究是將圖模型和... 

【文章來源】:江西師范大學(xué)江西省

【文章頁數(shù)】:51 頁

【學(xué)位級別】:碩士

【部分圖文】:

改進(jìn)TextRank與結(jié)合BiGRU的兩種關(guān)鍵詞提取方法研究


關(guān)鍵詞提取方法分類國內(nèi)外學(xué)者提出的許多很有價值的方法中,基于統(tǒng)計信息的關(guān)鍵詞提取方法已經(jīng)得

框架圖,框架,模型,目標(biāo)詞


改進(jìn)TextRank與結(jié)合BiGRU的兩種關(guān)鍵詞提取方法研究13別為輸入層、投影層和輸出層,模型框架見圖2-1和圖2-2所示。CBOW模型輸入的是目標(biāo)詞w(t)的上下文的詞向量w(t-2)、w(t-1)、w(t+1)、w(t+2),輸出的是這個目標(biāo)詞的詞向量w(t),是用上下文來預(yù)測目標(biāo)詞的概率。而Skip-gram模型和CBOW的思路是相反的,即輸入是目標(biāo)詞的詞向量w(t),輸出的是目標(biāo)詞對應(yīng)的上下文詞向量w(t-2)、w(t-1)、w(t+1)、w(t+2),是用目標(biāo)詞來預(yù)測上下文的概率。(2)FastText。FastText①是facebook開源的一個可以高效的學(xué)習(xí)單詞表示和文本分類任務(wù)的工具。FastText的模型框架與Word2vec的CBOW模型框架非常相似,F(xiàn)astText的模型框架如圖2-3所示。FastText模型包括輸入層、隱藏層、輸出層共三層。它的核心思想是將整篇文檔的詞及n-gram向量疊加平均得到文檔向量,然后使用文檔向量做softmax多分類。其中輸入的是…表示的文本的n-gram向量,輸出的是label,隱藏層是對多個詞向量的疊加平均。圖2-3FastText模型框架①https://pypi.org/project/fasttext/0.7.2/

頂點,主題,關(guān)鍵詞


改進(jìn)TextRank與結(jié)合BiGRU的兩種關(guān)鍵詞提取方法研究17(4)將改進(jìn)的邊權(quán)重ijW迭代TextRank公式直至收斂,得到主題排名。(5)對每個主題,選擇首先出現(xiàn)在文檔中的候選詞作為關(guān)鍵詞。2.2.6Single-TPRSingle-TPR[60]是針對Liu等人在2010年提出的TopicalPageRank(TPR)[42]的改進(jìn),Liu等人使用LDA從維基百科中獲取單詞主題,并對每個主題設(shè)置一個PageRank,對每個文檔進(jìn)行多次計算,再對每個主題值求和以提取關(guān)鍵詞。2015年Sterckx等人[60]提出對每個文檔d使用一個PageRank,使用一個權(quán)值()iTw來表示PageRank中每個單詞iw的全部主題重要性,()iTw計算為詞-主題概率pwit=y=1kp(wi|ty)與文檔-主題概率ptd=y=1kp(ty|d)之間的余弦相似度,如公式2-16所示。單個PageRank值變化為公式2-15的()iSw。通過使算法計算一次,而不依賴于主題t的數(shù)量k,這大大減少了計算時間。()()()()()(1)()jikjjiiijwInwjkwOutwwvWTwSwSwWTw(2-15)(|)(|)()||(|)||||(|)||iiipwtptdTwpwtptd(2-16)2.2.7RaKUn通過無監(jiān)督學(xué)習(xí)和元頂點聚合來提取基于排名的關(guān)鍵詞,由Skrlj等人[61]在2019年提出,是一種基于圖的關(guān)鍵詞提取方法。引入了元頂點的概念,來聚集相似的頂點。元頂點的構(gòu)造如圖2-4所示,相同形狀的圖案表示相似的單詞,將相同形狀的節(jié)點合并成為一個元頂點。根據(jù)所考慮的節(jié)點計算的負(fù)載中心度得分,將從單字符提取擴展到雙字符和三字符關(guān)鍵詞。這個方法有效的減少了詞圖的大校圖2-4元頂點的構(gòu)造

【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)的關(guān)鍵詞提取算法研究[J]. 王濤,李明.  重慶師范大學(xué)學(xué)報(自然科學(xué)版). 2019(03)
[2]一種基于信息熵的關(guān)鍵詞提取算法[J]. 吳華,羅順,孫偉晉.  計算機與數(shù)字工程. 2019(03)
[3]多特征關(guān)鍵詞提取算法研究[J]. 王潔,王麗清.  計算機系統(tǒng)應(yīng)用. 2018(07)
[4]特征驅(qū)動的關(guān)鍵詞提取算法綜述[J]. 常耀成,張宇翔,王紅,萬懷宇,肖春景.  軟件學(xué)報. 2018(07)
[5]基于詞共現(xiàn)的關(guān)鍵詞提取算法研究與改進(jìn)[J]. 和志強,王麗鵬,張鵬云.  電子技術(shù)與軟件工程. 2018(01)
[6]基于多視角聚類模型的微博文本數(shù)據(jù)挖掘算法研究[J]. 陳蘭蘭,胡細(xì)玲.  科技通報. 2017(11)
[7]基于擴充詞匯鏈改進(jìn)的關(guān)鍵詞提取算法[J]. 王小林,朱磊,邰偉鵬.  蘇州科技大學(xué)學(xué)報(自然科學(xué)版). 2017(02)
[8]詞向量聚類加權(quán)TextRank的關(guān)鍵詞抽取[J]. 夏天.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(02)
[9]融合Word2vec與TextRank的關(guān)鍵詞抽取研究[J]. 寧建飛,劉降珍.  現(xiàn)代圖書情報技術(shù). 2016(06)
[10]關(guān)鍵詞提取的K-means方法在設(shè)備分類中的運用[J]. 陳立,田端正.  計算機系統(tǒng)應(yīng)用. 2015(12)

碩士論文
[1]基于圖與LDA的中文文本關(guān)鍵詞提取算法[D]. 郭慶.北京郵電大學(xué) 2019
[2]基于新聞文本的關(guān)鍵詞提取[D]. 陶潔.華中師范大學(xué) 2019
[3]面向電商領(lǐng)域的關(guān)鍵詞提取技術(shù)研究[D]. 樊繼康.哈爾濱工業(yè)大學(xué) 2018
[4]中文社交媒體話題關(guān)鍵詞抽取算法[D]. 何偉名.北京交通大學(xué) 2017
[5]搜索引擎中關(guān)鍵詞分類方法評估及推薦應(yīng)用[D]. 鐘文波.華南理工大學(xué) 2015
[6]基于文本的關(guān)鍵詞提取方法研究與實現(xiàn)[D]. 楊林.安徽工業(yè)大學(xué) 2013



本文編號:3349832

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3349832.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4205a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com