天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于頻繁模式挖掘的關(guān)鍵詞抽取算法研究

發(fā)布時間:2021-08-13 08:29
  關(guān)鍵詞抽取是從文本或文本集合中抽取描述主題性的詞或短語。準確地抽取文本中的關(guān)鍵詞可以快速總結(jié)文本內(nèi)容,在許多自然語言處理任務中都有著至關(guān)重要的作用,如信息檢索和支持決策等。當前大多數(shù)的關(guān)鍵詞抽取方法不能針對每篇特定的文本進行抽取,通常都是抽取一個文本集合或者一個語料庫中的關(guān)鍵詞,而且不能靈活的捕獲單詞之間的語義關(guān)系。針對上述問題,本文提出兩種新穎的從英文文本中抽取關(guān)鍵詞的算法。一種是特定文本中強語義關(guān)系的監(jiān)督關(guān)鍵詞抽取算法KeMSMING。該算法首先將序列模式挖掘和LDA主題模型相結(jié)合,進行關(guān)鍵詞候選集合的搜索:其次,利用有監(jiān)督的機器學習算法訓練關(guān)鍵詞抽取模型;最后,選取預測概率值大的前top-k個詞作為最終的關(guān)鍵詞。在訓練階段,算法KeMSMING不僅使用了 baseline features和pattern features訓練模型,而且使用從語義網(wǎng)絡中獲得的centrality features訓練模型,語義網(wǎng)絡不僅為關(guān)鍵詞抽取提供了豐富的語義信息,而且提供了單詞之間的共現(xiàn)信息。另一種是基于頻繁模式挖掘和詞嵌入模型的關(guān)鍵詞抽取算法Ke<... 

【文章來源】:安徽大學安徽省 211工程院校

【文章頁數(shù)】:76 頁

【學位級別】:碩士

【部分圖文】:

基于頻繁模式挖掘的關(guān)鍵詞抽取算法研究


圖2.1關(guān)鍵詞抽取過程??

模型圖,主題,模型圖


型對文本進行處理,獲取文檔的主題性或者重要性的詞或短語。??LDA主題模型是由首次提出,它的過程可以分為兩個步驟:訓練和??推理。它的模型圖見圖2.2=>??1)訓練:給定一個包含M■篇文檔的語料庫,Latent?Dirichlet?Allocation??(LDA)主題模型假設(shè)每個詞W屬于一個主題Z。每個主題??13??

模型結(jié)構(gòu),單詞,上下文


2.4.1?CBOW模型介紹??CBOW(Continuous?Bag-of-Words)模型和?Skip-gram?模型是?Mikolov?等人[4】]??提出的兩個高效的詞表示模型。圖2.3是CBOW模型結(jié)構(gòu)圖。??輸出????麵??:j……丨!骸呵度雽??—1————?^I?—r??Wi-(n-l)/2?M'.+1?WIMn.m?原始文本??圖2.3?CBOW模型結(jié)構(gòu)圖??Figure?2.3?The?model?of?CBOW??CBOW模型是通過上下文對目標詞進行預測。它的輸入層是長度為n的字符??串,輸出層是單詞w;。首先,CBOW模型選擇目標單詞w,+的上下文??叫+^,…,%,?,...,1^^/;;其次,模型對上下文單詞的詞向量求和取平均值;??最后,進行全連接運算,具體過程如下:??^?=?(2.1)??打?一?^?Wj#茫崳?h?=?x?(2.2)??其中,符號&?=(1^1,…,表不單詞的上下文,其中A:表不窗??口大小,表示文檔中單詞7_的向量表示。??2.4.2?Skip-gram?模型介紹??和CBOW模型不同,Skip-gram模型不是通過上下文來預測目標單詞的,而??是將每個當前單詞作為輸入,預測當前單詞前后一定范圍內(nèi)的單詞。更準確地說,??Skip-gram模型通過目標單詞預測它的上下文wH?_1V2

【參考文獻】:
期刊論文
[1]一般間隙序列模式挖掘的關(guān)鍵詞抽取[J]. 劉慧婷,劉志中,王利利,吳信東.  電子學報. 2019(05)
[2]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗.  軟件學報. 2017(09)
[3]周期性一般間隙約束的序列模式挖掘[J]. 武優(yōu)西,周坤,劉靖宇,江賀,吳信東.  計算機學報. 2017(06)
[4]基于圖和LDA主題模型的關(guān)鍵詞抽取算法[J]. 劉嘯劍,謝飛,吳信東.  情報學報. 2016 (06)
[5]帶間隔約束的Top-k對比序列模式挖掘[J]. 楊皓,段磊,胡斌,鄧松,王文韜,秦攀.  軟件學報. 2015(11)
[6]一般間隙及一次性條件的嚴格模式匹配[J]. 柴欣,賈曉菲,武優(yōu)西,江賀,吳信東.  軟件學報. 2015(05)

博士論文
[1]面向主題的關(guān)鍵詞抽取方法研究[D]. 丁卓冶.復旦大學 2013



本文編號:3340097

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3340097.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b2a11***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com