基于詞性特征與語義增強(qiáng)的短文本主題模型研究與應(yīng)用
【文章頁數(shù)】:95 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-?1?LDA概率圖模型??其中,M代表文檔數(shù),/Vm代表每篇文檔中的單詞數(shù),/C代表設(shè)定的主題數(shù),??
圖2-?1?LDA概率圖模型??文檔數(shù),/Vm代表每篇文檔中的單詞數(shù),/C代表設(shè)定中的第n個單詞,其對應(yīng)的主題分配為?%^。文檔下的布分別表示為&和,分別服從于參數(shù)為3和及的狄生成過程可以表示為:??rithm?3:?LDA?生成過程??于每個主題fc?e?[1,欠]:??采樣對....
圖2-?2?CBOW模型和Skip-gram模型??
優(yōu)化設(shè)計使得Spark的計算能力提升了?1-2個數(shù)量級。??由于RDD具有豐富的表達(dá)能力,伯克利在Spark?Core的基礎(chǔ)上衍生出了一??套能夠處理不同場景的統(tǒng)一大數(shù)據(jù)處理平臺,其生態(tài)系統(tǒng)組件如圖2-3所示。其??中,Spark?Core是整個系統(tǒng)的核心組件,提供了多種編程語言....
圖2-?3?Spark生態(tài)系統(tǒng)組件??,
CBOW?Skip-gram??圖2-?2?CBOW模型和Skip-gram模型??2.3大數(shù)據(jù)相關(guān)技術(shù)??信息化時代數(shù)據(jù)量爆炸性增長,單臺計算機(jī)的處理能力和I/O性能已遠(yuǎn)遠(yuǎn)不??能滿足大規(guī)模數(shù)據(jù)的處理要求,于是各種大數(shù)據(jù)平臺應(yīng)運(yùn)而生。本節(jié)主要介紹本??文使用到的分布式計算框架S....
圖2-?4?HDFS系統(tǒng)架構(gòu)??
?BBiBbMB??圖2-?3?Spark生態(tài)系統(tǒng)組件??本文提出的模型在訓(xùn)練過程中涉及多輪迭代計算,而基于內(nèi)存分布式計算的??Spark系統(tǒng)非常適用于迭代計算,中間結(jié)果直接存儲在內(nèi)存中。同時,構(gòu)建于Spark??Core之上的MUib是一個針對大規(guī)模機(jī)器學(xué)習(xí)通用快速的計算引擎,....
本文編號:3908684
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3908684.html