基于頻繁模式挖掘的關(guān)鍵詞抽取算法研究

發(fā)布時間：2021-08-13 08:29

　　關(guān)鍵詞抽取是從文本或文本集合中抽取描述主題性的詞或短語。準確地抽取文本中的關(guān)鍵詞可以快速總結(jié)文本內(nèi)容,在許多自然語言處理任務中都有著至關(guān)重要的作用,如信息檢索和支持決策等。當前大多數(shù)的關(guān)鍵詞抽取方法不能針對每篇特定的文本進行抽取,通常都是抽取一個文本集合或者一個語料庫中的關(guān)鍵詞,而且不能靈活的捕獲單詞之間的語義關(guān)系。針對上述問題,本文提出兩種新穎的從英文文本中抽取關(guān)鍵詞的算法。一種是特定文本中強語義關(guān)系的監(jiān)督關(guān)鍵詞抽取算法Ke_MSMING。該算法首先將序列模式挖掘和LDA主題模型相結(jié)合,進行關(guān)鍵詞候選集合的搜索:其次,利用有監(jiān)督的機器學習算法訓練關(guān)鍵詞抽取模型;最后,選取預測概率值大的前top-k個詞作為最終的關(guān)鍵詞。在訓練階段,算法Ke_MSMING不僅使用了 baseline features和pattern features訓練模型,而且使用從語義網(wǎng)絡中獲得的centrality features訓練模型,語義網(wǎng)絡不僅為關(guān)鍵詞抽取提供了豐富的語義信息,而且提供了單詞之間的共現(xiàn)信息。另一種是基于頻繁模式挖掘和詞嵌入模型的關(guān)鍵詞抽取算法Ke<...

【文章來源】：安徽大學安徽省 211工程院校

【文章頁數(shù)】：76 頁

【學位級別】：碩士

【部分圖文】：

圖２．１關(guān)鍵詞抽取過程??

模型圖,主題,模型圖

型對文本進行處理，獲取文檔的主題性或者重要性的詞或短語。??ＬＤＡ主題模型是由首次提出，它的過程可以分為兩個步驟：訓練和??推理。它的模型圖見圖２．２＝＞??１）訓練：給定一個包含Ｍ■篇文檔的語料庫，Ｌａｔｅｎｔ?Ｄｉｒｉｃｈｌｅｔ?Ａｌｌｏｃａｔｉｏｎ??（ＬＤＡ）主題模型假設(shè)每個詞Ｗ屬于一個主題Ｚ。每個主題??１３??

模型結(jié)構(gòu),單詞,上下文

２．４．１?ＣＢＯＷ模型介紹??ＣＢＯＷ（Ｃｏｎｔｉｎｕｏｕｓ?Ｂａｇ－ｏｆ－Ｗｏｒｄｓ）模型和?Ｓｋｉｐ－ｇｒａｍ?模型是?Ｍｉｋｏｌｏｖ?等人［４】］??提出的兩個高效的詞表示模型。圖２．３是ＣＢＯＷ模型結(jié)構(gòu)圖。??輸出?？??麵??：ｊ……丨�！骸呵度雽�??—１————?＾Ｉ?—ｒ??Ｗｉ－（ｎ－ｌ）／２?Ｍ＇．＋１?ＷＩＭｎ．ｍ?原始文本??圖２．３?ＣＢＯＷ模型結(jié)構(gòu)圖??Ｆｉｇｕｒｅ?２．３?Ｔｈｅ?ｍｏｄｅｌ?ｏｆ?ＣＢＯＷ??ＣＢＯＷ模型是通過上下文對目標詞進行預測。它的輸入層是長度為ｎ的字符??串，輸出層是單詞ｗ；。首先，ＣＢＯＷ模型選擇目標單詞ｗ，＋的上下文??叫＋＾，…，％，？，．．．，１＾＾／；��；其次，模型對上下文單詞的詞向量求和取平均值；??最后，進行全連接運算，具體過程如下：??＾?＝?（２．１）??打?一?＾?Ｗｊ＃茫崳?ｈ?＝?ｘ?（２．２）??其中，符號＆?＝（１＾１，…，表不單詞的上下文，其中Ａ：表不窗??口大小，表示文檔中單詞７＿的向量表示。??２．４．２?Ｓｋｉｐ－ｇｒａｍ?模型介紹??和ＣＢＯＷ模型不同，Ｓｋｉｐ－ｇｒａｍ模型不是通過上下文來預測目標單詞的，而??是將每個當前單詞作為輸入，預測當前單詞前后一定范圍內(nèi)的單詞。更準確地說，??Ｓｋｉｐ－ｇｒａｍ模型通過目標單詞預測它的上下文ｗＨ？＿１Ｖ２

【參考文獻】：
期刊論文
[1]一般間隙序列模式挖掘的關(guān)鍵詞抽取[J]. 劉慧婷,劉志中,王利利,吳信東.  電子學報. 2019(05)
[2]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗.  軟件學報. 2017(09)
[3]周期性一般間隙約束的序列模式挖掘[J]. 武優(yōu)西,周坤,劉靖宇,江賀,吳信東.  計算機學報. 2017(06)
[4]基于圖和LDA主題模型的關(guān)鍵詞抽取算法[J]. 劉嘯劍,謝飛,吳信東.  情報學報. 2016 (06)
[5]帶間隔約束的Top-k對比序列模式挖掘[J]. 楊皓,段磊,胡斌,鄧松,王文韜,秦攀.  軟件學報. 2015(11)
[6]一般間隙及一次性條件的嚴格模式匹配[J]. 柴欣,賈曉菲,武優(yōu)西,江賀,吳信東.  軟件學報. 2015(05)

博士論文
[1]面向主題的關(guān)鍵詞抽取方法研究[D]. 丁卓冶.復旦大學 2013

本文編號：3340097

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3340097.html

上一篇：基于時空信息的人體行為識別
下一篇：基于映射矩陣的圖像超分辨率算法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于頻繁模式挖掘的關(guān)鍵詞抽取算法研究