天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于貝葉斯網絡的話題追蹤模型研究

發(fā)布時間:2021-10-01 23:18
  互聯(lián)網的迅猛發(fā)展、網民數(shù)量的極速增長導致網絡信息呈指數(shù)級暴增,使得用戶從繁雜的信息中獲取關注的新聞信息越來越困難。追蹤用戶關注話題的后續(xù)新聞信息,可以有效節(jié)約用戶的查詢時間,同時可將新聞信息按話題組織分類,故話題追蹤技術變得尤為重要。在信息量龐大的網絡環(huán)境下,如何高效組織新聞信息是話題追蹤面臨的最大挑戰(zhàn),F(xiàn)有的概率話題模型主要包括潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)話題模型、語言話題模型、樸素貝葉斯網絡話題模型和信念網絡話題模型。上述模型在話題追蹤時,都存在概率推導繁瑣和存儲推導過程中的數(shù)據占用大量空間的問題。為解決該問題,將簡單貝葉斯網絡檢索模型的相關知識用于話題追蹤,提出兩個話題追蹤模型。論文的工作主要包括兩個方面:(1)針對概率話題模型追蹤效率低、推理過程計算量大的問題,借鑒簡單貝葉斯網絡檢索模型的思想,提出簡單貝葉斯網絡靜態(tài)話題追蹤模型(Simple Bayesian Network Static Topic Tracking model,SBNSTT模型),給出模型的拓撲結構、話題和報道相似度計算公式。SBNSTT模型是含術語和話... 

【文章來源】:河北大學河北省

【文章頁數(shù)】:48 頁

【學位級別】:碩士

【部分圖文】:

基于貝葉斯網絡的話題追蹤模型研究


貝葉斯網絡

模型圖,貝葉斯網絡,模型,術語


第二章相關理論與技術11以圖2-1所示貝葉斯網絡為例,其中節(jié)點的集合,由條件獨立性假設、貝葉斯相關知識得到聯(lián)合概率127pX,X,X,如公式(2.5)所示。71271,,iiipXXXpXpaX(2.5)2.1.3簡單貝葉斯網絡檢索模型簡單貝葉斯網絡檢索模型由Campos等[7]在2003年提出,模型的拓撲結構如圖2-2所示。圖2-2簡單貝葉斯網絡檢索模型簡單貝葉斯網絡檢索模型中包含術語節(jié)點和文檔節(jié)點,若文檔中含有某術語,則有一條該術語節(jié)點指向文檔節(jié)點的有向唬查詢獨立于模型,當檢索時查詢作為證據引入。信息檢索時一般是用戶輸入幾個關鍵字作為查詢條件,通過計算條件概率jpDQ衡量查詢Q和文檔jD間的相似度。一篇文檔可能含有上百個索引術語,直接計算這些條件概率時間復雜度太高,因此需要給出合理的概率估計算法。概率估計算法的核心是估計文檔中屬于查詢的每個術語的貢獻。術語節(jié)點it,需要計算其邊緣相關概率ipt。假設術語集中術語總個數(shù)為M,且每個術語等概率發(fā)生,則1iptM。文檔節(jié)點jD,需要估計一組條件概率分布jjpDpaD。如果一個文檔包含jn個術語,每個術語由一個二值變量表示,總共需要估計的條件概率分布為2jn個。一般規(guī)模的文檔,每個文檔的索引術語大于100個,則組合的數(shù)目大于1002,數(shù)目巨大,就會面臨計算這些概率花費時間過長,存儲這些概率值占用空間過大等問題。為解決該問題Campos等[7]采用估計的方法,通過設計估計函數(shù)以減少計算量,只有當條件概率在推導過程中需要時,才對其進行估計,估計函數(shù)如公式(2.6)所示。

模型圖,模型,特征詞,多項分布


第二章相關理論與技術15(1)LDA話題模型LDA是由Blei等[44]提出的一種非監(jiān)督主題學習模型,常用來識別大規(guī)模文檔集和語料庫中隱藏的主題信息。LDA及其擴展已成為當前概率話題模型領域的研究熱點之一。LDA話題模型是一種基于分層式的貝葉斯模型,包含報道層、話題層和特征詞層,如圖2-3所示。圖2-3LDA話題模型在圖2-3中L為話題的總個數(shù),記第i個話題為iT,M為語料庫中文本總數(shù)量,記第m篇報道為mS,mN是mS中特征詞的總數(shù),m,nk是mS中的第n個詞,m,nT是m,nk所在的話題。是每個話題下特征詞多項分布的狄利克雷先驗參數(shù),是每篇報道下話題多項分布的狄利克雷先驗參數(shù)。隱含變量m表示mS的話題狄利克雷分布,隱含變量i表示iT下的特征詞狄利克雷分布。LDA話題模型是一種生成模型,即一篇報道中每個特征詞都是通過“報道以一定概率選擇了某個話題,話題以一定概率選擇了某個特征詞”的過程得到。生成一篇報道的過程如下:①每一篇報道m(xù)S,從話題分布m中抽取一個話題iT;②從話題iT對應的特征詞分布i中抽取一個特征詞;③重復①②直至遍歷報道中的每一個特征詞。生成的報道m(xù)S中,詞語m,nk的概率計算如公式(2.10)所示。,,1LmnmmniimipkSpkTpTS(2.10)

【參考文獻】:
期刊論文
[1]CNNIC發(fā)布第44次《中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》[J]. 于朝暉.  網信軍民融合. 2019(09)
[2]基于文本聚類的網絡微博輿情話題識別與追蹤技術研究[J]. 閆俊伢,馬尚才.  重慶理工大學學報(自然科學). 2019(09)
[3]基于雙向量模型的自適應微博話題追蹤方法[J]. 黃暢,郭文忠,郭昆.  小型微型計算機系統(tǒng). 2019(06)
[4]基于N-Gram語言模型的并行自適應新聞話題追蹤算法[J]. 屈慶濤,劉其成,牟春曉.  山東大學學報(工學版). 2018(06)
[5]貝葉斯網絡在信息檢索中的應用[J]. 鄭偉,侯宏旭,武靜.  情報科學. 2018(06)
[6]基于樸素貝葉斯網絡的微博話題追蹤技術研究[J]. 馮軍軍,賀曉春,王海沛.  計算機與數(shù)字工程. 2017(11)
[7]面向輿情事件的子話題標簽生成模型ET-TAG[J]. 周楠,杜攀,靳小龍,劉悅,程學旗.  計算機學報. 2018(07)
[8]一種融合用戶關系的自適應微博話題跟蹤方法[J]. 柏文言,張闖,徐克付,張志明.  電子學報. 2017(06)
[9]基于SOM聚類的微博話題發(fā)現(xiàn)[J]. 宋莉娜,馮旭鵬,劉利軍,黃青松.  計算機應用研究. 2018(03)
[10]基于BTM的微博輿情熱點發(fā)現(xiàn)[J]. 王亞民,胡悅.  情報雜志. 2016(11)

博士論文
[1]基于信念網絡的話題識別與追蹤模型研究[D]. 吳樹芳.河北大學 2015



本文編號:3417530

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3417530.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶fed93***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com