基于詞頻統(tǒng)計的文本關鍵詞提取方法
發(fā)布時間:2017-12-13 22:21
本文關鍵詞:基于詞頻統(tǒng)計的文本關鍵詞提取方法
更多相關文章: 詞頻統(tǒng)計 齊普夫定律 同頻詞 關鍵詞提取 TF-IDF算法
【摘要】:針對傳統(tǒng)TF-IDF算法關鍵詞提取效率低下及準確率欠佳的問題,提出一種基于詞頻統(tǒng)計的文本關鍵詞提取方法。首先,通過齊普夫定律推導出文本中同頻詞數(shù)的計算公式;其次,根據(jù)同頻詞數(shù)計算公式確定文本中各頻次詞語所占比重,發(fā)現(xiàn)文本中絕大多數(shù)是低頻詞;最后,將詞頻統(tǒng)計規(guī)律應用于關鍵詞提取,提出基于詞頻統(tǒng)計的TFIDF算法。采用中、英文文本實驗數(shù)據(jù)集進行仿真實驗,其中推導出的同頻詞數(shù)計算公式平均相對誤差未超過0.05;確立的各頻次詞語所占比重的最大誤差絕對值為0.04;提出的基于詞頻統(tǒng)計的TF-IDF算法與傳統(tǒng)TF-IDF算法相比,平均查準率、平均查全率和平均F1度量均有提高,而平均運行時間則均有降低。實驗結果表明,在文本關鍵詞提取中,基于詞頻統(tǒng)計的TF-IDF算法在查準率、查全率及F1指標上均優(yōu)于傳統(tǒng)TF-IDF算法,并能夠有效減少關鍵詞提取運行時間。
【作者單位】: 河北師范大學數(shù)學與信息科學學院;河北師范大學河北省計算數(shù)學與應用重點實驗室;河北師范大學移動物聯(lián)網(wǎng)研究院;
【基金】:國家自然科學基金資助項目(71271067) 國家社會科學基金資助項目(13BTY011);國家社會科學基金重大項目(13&ZD091) 河北省高等學校科學技術研究項目(QN2014196) 河北師范大學碩士基金資助項目(201402002)~~
【分類號】:TP391.1
【正文快照】: 0引言隨著互聯(lián)網(wǎng)的飛速發(fā)展,各種文本信息迅速擴張,面對如此海量的信息,人們需要花費大量時間和精力對其進行挑選和甄別。關鍵詞是一篇文章核心內(nèi)容的體現(xiàn)和主題信息的濃縮,用戶可以通過閱讀關鍵詞快速明確文章主旨,從海量的文章中獲取有用信息。關鍵詞提取是信息處理領域的基,
本文編號:1286809
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1286809.html
最近更新
教材專著