基于輿情大數(shù)據(jù)的突發(fā)事件實時檢測算法與系統(tǒng)
【文章頁數(shù)】:111 頁
【學位級別】:碩士
【部分圖文】:
圖2-2無限狀態(tài)Kleinberg狀態(tài)機模型
第二章相關背景知識10圖2-2無限狀態(tài)Kleinberg狀態(tài)機模型2.1.2文本表示方法在自然語言處理技術中,需要將文本表示為計算機能夠計算的結構化數(shù)據(jù),才能通過計算機進行下一步的文本處理。從不同的角度出發(fā),已經(jīng)有大量研究者提出了不同的文本表示方法。目前常用的幾種文本表示方法主要....
圖2-3LDA概率圖模型
第二章相關背景知識11LDA是一種三層次的貝葉斯概率模型,作為一種生成式概率主題模型,其基本思想是將文檔表示為潛在主題的概率分布,將每個潛在主題表示為對應詞的概率分布。LDA的生成過程如圖2-3所示:圖2-3LDA概率圖模型圖中M為文檔集合總數(shù)量,K為潛在主題個數(shù),R為第m篇文檔....
圖2-4CBOW模型與Skip-gram模型
第二章相關背景知識12型收斂之后,就可以得到該文檔對應的主題分布與各主題下的詞分布。(3)基于神經(jīng)網(wǎng)絡的分布式表示基于神經(jīng)網(wǎng)絡的分布式表示(DistributedRepresentation)又稱為詞嵌入,它們將每一個詞映射成定長的密集向量。Bengio等人在2003年提出了最經(jīng)....
圖2-5Spark生態(tài)系統(tǒng)組件(1)SparkSQL組件可以處理結構化數(shù)據(jù),提供了統(tǒng)一的數(shù)據(jù)訪問借口,可
第二章相關背景知識17圖2-5Spark生態(tài)系統(tǒng)組件(1)SparkSQL組件可以處理結構化數(shù)據(jù),提供了統(tǒng)一的數(shù)據(jù)訪問借口,可以將分布式SQL查詢與Spark程序無縫對接,實現(xiàn)高效的數(shù)據(jù)查詢與讀。唬2)SparkStreaming提供了流計算組件,具有高吞吐、容錯能力強的特點,....
本文編號:3912521
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/3912521.html