基于頻繁模式挖掘的關(guān)鍵詞抽取算法研究
發(fā)布時間:2021-08-13 08:29
關(guān)鍵詞抽取是從文本或文本集合中抽取描述主題性的詞或短語。準確地抽取文本中的關(guān)鍵詞可以快速總結(jié)文本內(nèi)容,在許多自然語言處理任務中都有著至關(guān)重要的作用,如信息檢索和支持決策等。當前大多數(shù)的關(guān)鍵詞抽取方法不能針對每篇特定的文本進行抽取,通常都是抽取一個文本集合或者一個語料庫中的關(guān)鍵詞,而且不能靈活的捕獲單詞之間的語義關(guān)系。針對上述問題,本文提出兩種新穎的從英文文本中抽取關(guān)鍵詞的算法。一種是特定文本中強語義關(guān)系的監(jiān)督關(guān)鍵詞抽取算法KeMSMING。該算法首先將序列模式挖掘和LDA主題模型相結(jié)合,進行關(guān)鍵詞候選集合的搜索:其次,利用有監(jiān)督的機器學習算法訓練關(guān)鍵詞抽取模型;最后,選取預測概率值大的前top-k個詞作為最終的關(guān)鍵詞。在訓練階段,算法KeMSMING不僅使用了 baseline features和pattern features訓練模型,而且使用從語義網(wǎng)絡中獲得的centrality features訓練模型,語義網(wǎng)絡不僅為關(guān)鍵詞抽取提供了豐富的語義信息,而且提供了單詞之間的共現(xiàn)信息。另一種是基于頻繁模式挖掘和詞嵌入模型的關(guān)鍵詞抽取算法Ke<...
【文章來源】:安徽大學安徽省 211工程院校
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【部分圖文】:
圖2.1關(guān)鍵詞抽取過程??
型對文本進行處理,獲取文檔的主題性或者重要性的詞或短語。??LDA主題模型是由首次提出,它的過程可以分為兩個步驟:訓練和??推理。它的模型圖見圖2.2=>??1)訓練:給定一個包含M■篇文檔的語料庫,Latent?Dirichlet?Allocation??(LDA)主題模型假設(shè)每個詞W屬于一個主題Z。每個主題??13??
2.4.1?CBOW模型介紹??CBOW(Continuous?Bag-of-Words)模型和?Skip-gram?模型是?Mikolov?等人[4】]??提出的兩個高效的詞表示模型。圖2.3是CBOW模型結(jié)構(gòu)圖。??輸出????麵??:j……丨!骸呵度雽??—1————?^I?—r??Wi-(n-l)/2?M'.+1?WIMn.m?原始文本??圖2.3?CBOW模型結(jié)構(gòu)圖??Figure?2.3?The?model?of?CBOW??CBOW模型是通過上下文對目標詞進行預測。它的輸入層是長度為n的字符??串,輸出層是單詞w;。首先,CBOW模型選擇目標單詞w,+的上下文??叫+^,…,%,?,...,1^^/;;其次,模型對上下文單詞的詞向量求和取平均值;??最后,進行全連接運算,具體過程如下:??^?=?(2.1)??打?一?^?Wj#茫崳?h?=?x?(2.2)??其中,符號&?=(1^1,…,表不單詞的上下文,其中A:表不窗??口大小,表示文檔中單詞7_的向量表示。??2.4.2?Skip-gram?模型介紹??和CBOW模型不同,Skip-gram模型不是通過上下文來預測目標單詞的,而??是將每個當前單詞作為輸入,預測當前單詞前后一定范圍內(nèi)的單詞。更準確地說,??Skip-gram模型通過目標單詞預測它的上下文wH?_1V2
【參考文獻】:
期刊論文
[1]一般間隙序列模式挖掘的關(guān)鍵詞抽取[J]. 劉慧婷,劉志中,王利利,吳信東. 電子學報. 2019(05)
[2]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學報. 2017(09)
[3]周期性一般間隙約束的序列模式挖掘[J]. 武優(yōu)西,周坤,劉靖宇,江賀,吳信東. 計算機學報. 2017(06)
[4]基于圖和LDA主題模型的關(guān)鍵詞抽取算法[J]. 劉嘯劍,謝飛,吳信東. 情報學報. 2016 (06)
[5]帶間隔約束的Top-k對比序列模式挖掘[J]. 楊皓,段磊,胡斌,鄧松,王文韜,秦攀. 軟件學報. 2015(11)
[6]一般間隙及一次性條件的嚴格模式匹配[J]. 柴欣,賈曉菲,武優(yōu)西,江賀,吳信東. 軟件學報. 2015(05)
博士論文
[1]面向主題的關(guān)鍵詞抽取方法研究[D]. 丁卓冶.復旦大學 2013
本文編號:3340097
【文章來源】:安徽大學安徽省 211工程院校
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【部分圖文】:
圖2.1關(guān)鍵詞抽取過程??
型對文本進行處理,獲取文檔的主題性或者重要性的詞或短語。??LDA主題模型是由首次提出,它的過程可以分為兩個步驟:訓練和??推理。它的模型圖見圖2.2=>??1)訓練:給定一個包含M■篇文檔的語料庫,Latent?Dirichlet?Allocation??(LDA)主題模型假設(shè)每個詞W屬于一個主題Z。每個主題??13??
2.4.1?CBOW模型介紹??CBOW(Continuous?Bag-of-Words)模型和?Skip-gram?模型是?Mikolov?等人[4】]??提出的兩個高效的詞表示模型。圖2.3是CBOW模型結(jié)構(gòu)圖。??輸出????麵??:j……丨!骸呵度雽??—1————?^I?—r??Wi-(n-l)/2?M'.+1?WIMn.m?原始文本??圖2.3?CBOW模型結(jié)構(gòu)圖??Figure?2.3?The?model?of?CBOW??CBOW模型是通過上下文對目標詞進行預測。它的輸入層是長度為n的字符??串,輸出層是單詞w;。首先,CBOW模型選擇目標單詞w,+的上下文??叫+^,…,%,?,...,1^^/;;其次,模型對上下文單詞的詞向量求和取平均值;??最后,進行全連接運算,具體過程如下:??^?=?(2.1)??打?一?^?Wj#茫崳?h?=?x?(2.2)??其中,符號&?=(1^1,…,表不單詞的上下文,其中A:表不窗??口大小,表示文檔中單詞7_的向量表示。??2.4.2?Skip-gram?模型介紹??和CBOW模型不同,Skip-gram模型不是通過上下文來預測目標單詞的,而??是將每個當前單詞作為輸入,預測當前單詞前后一定范圍內(nèi)的單詞。更準確地說,??Skip-gram模型通過目標單詞預測它的上下文wH?_1V2
【參考文獻】:
期刊論文
[1]一般間隙序列模式挖掘的關(guān)鍵詞抽取[J]. 劉慧婷,劉志中,王利利,吳信東. 電子學報. 2019(05)
[2]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學報. 2017(09)
[3]周期性一般間隙約束的序列模式挖掘[J]. 武優(yōu)西,周坤,劉靖宇,江賀,吳信東. 計算機學報. 2017(06)
[4]基于圖和LDA主題模型的關(guān)鍵詞抽取算法[J]. 劉嘯劍,謝飛,吳信東. 情報學報. 2016 (06)
[5]帶間隔約束的Top-k對比序列模式挖掘[J]. 楊皓,段磊,胡斌,鄧松,王文韜,秦攀. 軟件學報. 2015(11)
[6]一般間隙及一次性條件的嚴格模式匹配[J]. 柴欣,賈曉菲,武優(yōu)西,江賀,吳信東. 軟件學報. 2015(05)
博士論文
[1]面向主題的關(guān)鍵詞抽取方法研究[D]. 丁卓冶.復旦大學 2013
本文編號:3340097
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3340097.html
最近更新
教材專著