天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

一種用于文本理解的高效關(guān)鍵詞抽取算法

發(fā)布時(shí)間:2017-05-11 18:15

  本文關(guān)鍵詞:一種用于文本理解的高效關(guān)鍵詞抽取算法,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的不斷發(fā)展,互聯(lián)網(wǎng)信息呈爆炸式增長,如何從這些海量數(shù)據(jù)中快速、準(zhǔn)確地獲得關(guān)鍵信息變得十分有意義。關(guān)鍵詞作為反映文章主旨的重要方式,成為用戶對(duì)海量數(shù)據(jù)進(jìn)行篩選、理解的有效手段。因此,在自然語言處理和信息檢索等領(lǐng)域,關(guān)鍵詞抽取技術(shù)得到了廣泛的應(yīng)用。傳統(tǒng)的關(guān)鍵詞抽取算法,主要是從文本中詞語的某種統(tǒng)計(jì)信息進(jìn)行考慮,忽略了文章的主題信息,未能從語義層面對(duì)關(guān)鍵詞進(jìn)行考察。并且由于傳統(tǒng)方法在進(jìn)行關(guān)鍵詞抽取時(shí),往往只考慮文本的某種特性,使得關(guān)鍵詞抽取算法的效果仍有較大的提升空間。針對(duì)上述問題,本文提出了一種用于文本理解的高效關(guān)鍵詞抽取算法。本文工作如下:1)針對(duì)關(guān)鍵詞抽取時(shí)文檔自身信息有限的問題,基于相似度的思想,提出了一種基于句子的文本信息擴(kuò)充算法,算法以句子為基本單位,從相似文本中擴(kuò)充有助于關(guān)鍵詞抽取的句子進(jìn)行信息擴(kuò)充,增加文檔的信息。2)針對(duì)關(guān)鍵詞抽取算法準(zhǔn)確度相對(duì)偏低、主題覆蓋度不夠理想的問題,提出了一種基于文本擴(kuò)充與主題模型相結(jié)合的關(guān)鍵詞抽取算法,算法將文檔進(jìn)行信息擴(kuò)充,并結(jié)合文檔的主題分布,進(jìn)行關(guān)鍵詞抽取。實(shí)驗(yàn)結(jié)果表明算法可以進(jìn)一步提升關(guān)鍵詞抽取效果。3)針對(duì)分布式主題模型訓(xùn)練算法存在的通信量大、迭代次數(shù)多的問題,提出了一種將分布式節(jié)點(diǎn)按照環(huán)進(jìn)行通信的分布式主題模型訓(xùn)練算法,算法將分布式節(jié)點(diǎn)按照規(guī)則組成一個(gè)環(huán),每個(gè)節(jié)點(diǎn)與環(huán)上的相鄰節(jié)點(diǎn)進(jìn)行通信。實(shí)驗(yàn)結(jié)果表明,算法可以以較低的通信量,進(jìn)一步加快分布式主題模型的訓(xùn)練速度。
【關(guān)鍵詞】:關(guān)鍵詞抽取 主題模型 Gibbs采樣 分布式
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要6-7
  • Abstract7-10
  • 第一章 緒論10-14
  • 1.1 關(guān)鍵詞抽取的研究意義10
  • 1.2 關(guān)鍵詞抽取的挑戰(zhàn)性問題10-12
  • 1.3 本文工作及組織結(jié)構(gòu)12-14
  • 第二章 相關(guān)理論14-31
  • 2.1 引言14
  • 2.2 主題模型14-22
  • 2.2.1 LSA14-15
  • 2.2.2 PLSA15-17
  • 2.2.3 LDA相關(guān)知識(shí)17-20
  • 2.2.4 LDA模型20-22
  • 2.3 基于GIBBS采樣的LDA22-29
  • 2.3.1 MCMC算法22-26
  • 2.3.2 Gibbs采樣26-27
  • 2.3.3 基于Gibbs的LDA推導(dǎo)27-29
  • 2.4 PAGERANK算法29-30
  • 2.5 本章小結(jié)30-31
  • 第三章 基于文檔擴(kuò)充與隱性語義的關(guān)鍵詞抽取31-47
  • 3.1 引言31
  • 3.2 關(guān)鍵詞抽取的研究現(xiàn)狀31-34
  • 3.2.1 基于詞頻的TF-IDF關(guān)鍵詞抽取算法32
  • 3.2.2 基于圖的TextRank算法32-33
  • 3.2.3 其它算法33
  • 3.2.4 現(xiàn)有研究的不足33-34
  • 3.3 文本擴(kuò)充34-35
  • 3.4 基于文檔擴(kuò)充與主題模型相結(jié)合的關(guān)鍵詞抽取算法35-39
  • 3.4.1 算法介紹36-37
  • 3.4.2 主題模型訓(xùn)練37-38
  • 3.4.3 構(gòu)建單詞圖38
  • 3.4.4 偏好值設(shè)定38
  • 3.4.5 ETR關(guān)鍵詞制取38-39
  • 3.5 實(shí)驗(yàn)設(shè)置39-41
  • 3.5.1 數(shù)據(jù)預(yù)處理40
  • 3.5.2 評(píng)價(jià)指標(biāo)40-41
  • 3.6 實(shí)驗(yàn)結(jié)果與分析41-46
  • 3.6.1 參數(shù)對(duì)模型的影響41-46
  • 3.6.2 與其他方法的比較46
  • 3.7 本章小結(jié)46-47
  • 第四章 基于GIBBS采樣的LDA加速算法47-59
  • 4.1 引言47
  • 4.2 主題模型的加速算法研究現(xiàn)狀47-50
  • 4.2.1 DCM-LDA算法47-48
  • 4.2.2 AD-LDA算法48-49
  • 4.2.3 AS-LDA算法49-50
  • 4.3 基于環(huán)的分布式LDA加速算法50-54
  • 4.3.1 已有工作的不足51
  • 4.3.2 基于環(huán)的分布式LDA加速算法Circle-LDA51-53
  • 4.3.3 算法對(duì)比53-54
  • 4.4 實(shí)驗(yàn)結(jié)果與分析54-58
  • 4.4.1 評(píng)價(jià)指標(biāo)54-55
  • 4.4.2 實(shí)驗(yàn)設(shè)置55
  • 4.4.3 實(shí)驗(yàn)結(jié)果與分析55-58
  • 4.5 本章小結(jié)58-59
  • 第五章 總結(jié)與展望59-61
  • 5.1 本文工作總結(jié)59-60
  • 5.2 進(jìn)一步工作60-61
  • 參考文獻(xiàn)61-64
  • 致謝64-65
  • 附錄65-66

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前3條

1 索紅光;劉玉樹;曹淑英;;一種基于詞匯鏈的關(guān)鍵詞抽取方法[J];中文信息學(xué)報(bào);2006年06期

2 馬穎華,王永成,蘇貴洋,張宇萌;一種基于字同現(xiàn)頻率的漢語文本主題抽取方法[J];計(jì)算機(jī)研究與發(fā)展;2003年06期

3 韓客松,王永成;中文全文標(biāo)引的主題詞標(biāo)引和主題概念標(biāo)引方法[J];情報(bào)學(xué)報(bào);2001年02期


  本文關(guān)鍵詞:一種用于文本理解的高效關(guān)鍵詞抽取算法,由筆耕文化傳播整理發(fā)布。



本文編號(hào):357815

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/357815.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶98ce8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com