基于MapReduce的并行LAD模型評論主題提取算法研究
發(fā)布時間:2017-11-23 07:01
本文關鍵詞:基于MapReduce的并行LAD模型評論主題提取算法研究
更多相關文章: LAD模型 MapReduce 評論主題 k-均值聚類算法
【摘要】:針對傳統(tǒng)的潛在狄利克雷分析(LDA)模型在提取評論主題時存在著計算時間長、計算效率低的問題,提出基于MapReduce架構的并行LAD模型建立方法.在文本預處理的基礎上,得到文檔-主題分布和主題-特征詞分布,分別計算主題相似度和特征詞權重,結合k-均值聚類算法,實現(xiàn)評論主題提取的并行化.通過Hadoop并行計算平臺進行實驗,結果表明,該方法在處理大規(guī)模文本時能獲得接近線性的加速比,對主題模型的建立效果也有提高.
【作者單位】: 武警工程大學研究生管理大隊;福州大學物理與信息工程學院;
【基金】:國家自然科學基金資助項目(61471124)
【分類號】:TP391.1
【正文快照】: 0引言主題模型是一種能夠從大規(guī)模文本中發(fā)現(xiàn)文本潛在主題的概率模型,近年來在文本挖掘領域逐漸成為研究的熱點[1].主題模型起源于潛在語義索引,它的發(fā)展經(jīng)歷了向量空間模型、潛在語義分析模型[2]、概率潛在語義分析模型[3]、LDA模型及LDA擴展模型的過程.主題模型可以形象地表,
本文編號:1217575
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1217575.html
最近更新
教材專著