基于LDA主題模型的新浪微博用戶興趣研究
發(fā)布時(shí)間:2022-01-01 07:30
隨著我國(guó)移動(dòng)互聯(lián)網(wǎng)發(fā)展日漸成熟和穩(wěn)定,各個(gè)社交平臺(tái)為了搶奪彼此之間的市場(chǎng)份額,更加注重內(nèi)容的多樣化,積極尋求模式上的創(chuàng)新和突破。雖然新浪微博在移動(dòng)社交行業(yè)中繼續(xù)占據(jù)頭部地位,但是行業(yè)內(nèi)的激烈競(jìng)爭(zhēng)也給新浪微博的發(fā)展帶來(lái)了巨大挑戰(zhàn)。新浪微博的核心競(jìng)爭(zhēng)力在于頭部用戶群體和優(yōu)質(zhì)的原創(chuàng)內(nèi)容帶來(lái)的傳播效應(yīng),這就要求平臺(tái)在當(dāng)前環(huán)境下對(duì)用戶需求的把控要更加精準(zhǔn)。圍繞該問(wèn)題,本文針對(duì)新浪微博用戶的興趣偏好進(jìn)行了相關(guān)研究。LDA(LatentDirichletAllocation)概率主題模型是由Blei等提出的三層概率結(jié)構(gòu)模型,它可以通過(guò)訓(xùn)練得到每篇文檔在主題空間上的概率分布和每個(gè)主題在詞空間上的概率分布,其本身具有無(wú)監(jiān)督學(xué)習(xí)的特征,不需要給出一些已知標(biāo)注的語(yǔ)言實(shí)例,可以直接對(duì)未知語(yǔ)料庫(kù)進(jìn)行LDA建模。在很多關(guān)于新浪微博用戶興趣偏好的研究中,都是按照這種方式直接對(duì)以用戶為單位建立的微博文檔集進(jìn)行建模和訓(xùn)練,得到文檔集的主題詞分布作為用戶興趣偏好的描述信息。本文在此基礎(chǔ)上補(bǔ)充了另外一種推斷方式,即利用已知語(yǔ)料庫(kù)有監(jiān)督的去訓(xùn)練得到一個(gè)最優(yōu)模型,再利用這個(gè)訓(xùn)練好的最優(yōu)模型,針對(duì)其他未知語(yǔ)料庫(kù)中以用戶為單位建立...
【文章來(lái)源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1?PLSA模型文檔生成過(guò)程??-
山東大學(xué)碩士學(xué)位論文??第3章LDA主題模型的構(gòu)建??3.1模型的推導(dǎo)和表示??3.1.1加入貝葉斯框架??PLSA模型是在頻率學(xué)派的思想下產(chǎn)生,認(rèn)為關(guān)于主題分布和詞分布的參數(shù)??和沉是固定的,但是在貝葉斯統(tǒng)計(jì)學(xué)派來(lái)看,這顯然是不合理的。既然假定詞??是通過(guò)拋骰子隨機(jī)產(chǎn)生的,那么骰子也應(yīng)該是隨機(jī)產(chǎn)生的,換句話來(lái)說(shuō),代表兩??種骰子的參數(shù)和沉應(yīng)該是隨機(jī)變量,并且符合一定的分布。LDA主題模型在??PLSA模型的基礎(chǔ)上加入了貝葉斯框架,選擇了狄利克雷分布作為參數(shù)和沉的??先驗(yàn)分布,這樣可以利用共軛分布的參數(shù)傳遞性來(lái)更好的估計(jì)參數(shù)。??丄?topic-word?Ifi1??|??K-rs?^?v個(gè)面??對(duì)S?■編號(hào)?1-K?Kt??|?g'OirW??1??圖3-1?LDA模型文檔生成過(guò)程??如上圖3_1所示,重新考察文檔的生成過(guò)程:(1)有兩種類型的骰子,每種??都是有無(wú)數(shù)多個(gè)。第一種是doc-topic?(文檔-主題)骰子,每個(gè)骰子有K個(gè)面,每??個(gè)面是一個(gè)非重復(fù)主題編號(hào),編號(hào)從1到K;第二種是topic-word?(主題-詞語(yǔ))??骰子,每個(gè)骰子有V個(gè)面,每個(gè)面對(duì)應(yīng)著一個(gè)非重復(fù)單詞。(2)隨機(jī)的從第二種??散子里獨(dú)立的抽出K個(gè)topic-word骰子,為其編號(hào)為1到K,與doc-topic散子每??個(gè)面的主題編號(hào)是一一對(duì)應(yīng)的。(3)每次生成一篇新的文檔之前,先從第一種骰??子里抽出一個(gè)doc-topic骰子,然后重復(fù)如下過(guò)程直到生成文檔中所有詞:投擲??這個(gè)骰子,得到一個(gè)主題編號(hào)k,選擇K個(gè)topic-word骰子中對(duì)應(yīng)編號(hào)為k的那個(gè),??投擲這個(gè)骰子產(chǎn)生一個(gè)詞。??21??
第3章LDA主題模型的構(gòu)建??3.1.2增加參數(shù)??wm? ̄?*^ml?^702?????WmNm??圖3-2文檔生成過(guò)程中word和topic對(duì)應(yīng)關(guān)系??如上圖3-2所示,在LDA模型中,因?yàn)樯擅總(gè)詞的topic-word骰子的編號(hào)??依賴于拋擲doc-topic骰子得到的主題編號(hào),那么意味著語(yǔ)料庫(kù)中的每個(gè)詞都與??一個(gè)主題編號(hào)唯一對(duì)應(yīng)。己知語(yǔ)料庫(kù)為W?=?%,),第m篇文檔<?=??(wml,wm2,...,wmNm),根據(jù)主題和詞的對(duì)應(yīng)關(guān)系,等價(jià)定義語(yǔ)料庫(kù)所有主題編號(hào)集??合Z?=瓦,石,…,切,第m篇文檔所有主題編號(hào)集合G?=?(Z^Zm,zmN?J。??3.1.3物理過(guò)程分解???——*???(ZmB)???--K§)???nell,HU??丨??圖3-3?LDA概率圖模型??如上圖3-3所示,在LDA概率圖模型中,只有wmn為可觀察到的變量,其他??都是隱變量或者參數(shù)。i?g為先驗(yàn)分布狄利克雷分布的參數(shù),巧為第m篇文檔的??主題分布,沉為第k個(gè)主題的詞分布,Znm為第m篇文檔第n個(gè)詞對(duì)應(yīng)的主題編號(hào)。??那么LDA模型生成文檔的過(guò)程被分為了兩個(gè)物理過(guò)程:??第一個(gè)物理過(guò)程5?—巧;—Zmn是生成主題編號(hào)的過(guò)程,這個(gè)過(guò)程表示在生成??第m篇文檔的時(shí)候,先從第一種骰子中抽出一個(gè)doc-topic骰子1^,或者說(shuō)從參數(shù)??為5的狄利克雷分布中取樣生成第m篇文檔的主題分布巧:,然后投擲這個(gè)骰子生??成了文檔中第n個(gè)詞對(duì)應(yīng)的主題編號(hào)zmn。??第二個(gè)物理過(guò)程@?—雨—Wmn|k?=?zmn是在確定的主題編號(hào)下生成詞的過(guò)程,??這個(gè)過(guò)程表示從第二種骰子中抽出K個(gè)doc-topic骰子,或者說(shuō)從參數(shù)
【參考文獻(xiàn)】:
期刊論文
[1]自然語(yǔ)言處理中主題模型的發(fā)展[J]. 徐戈,王厚峰. 計(jì)算機(jī)學(xué)報(bào). 2011(08)
[2]國(guó)內(nèi)中文自動(dòng)分詞技術(shù)研究綜述[J]. 奉國(guó)和,鄭偉. 圖書(shū)情報(bào)工作. 2011(02)
碩士論文
[1]基于主題詞的微博用戶興趣模型研究[D]. 萬(wàn)子瑋.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[2]基于爬蟲(chóng)和LDA的新聞話題挖掘[D]. 曹牧原.河北大學(xué) 2018
[3]基于Labeled-LDA模型的在線醫(yī)療專家推薦研究[D]. 倪秀麗.浙江大學(xué) 2018
[4]基于改進(jìn)LDA算法的微博用戶興趣偏好分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 樓小帆.北京郵電大學(xué) 2017
[5]基于微博的用戶興趣分析與個(gè)性化信息推薦[D]. 王廣新.上海交通大學(xué) 2013
本文編號(hào):3561904
【文章來(lái)源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1?PLSA模型文檔生成過(guò)程??-
山東大學(xué)碩士學(xué)位論文??第3章LDA主題模型的構(gòu)建??3.1模型的推導(dǎo)和表示??3.1.1加入貝葉斯框架??PLSA模型是在頻率學(xué)派的思想下產(chǎn)生,認(rèn)為關(guān)于主題分布和詞分布的參數(shù)??和沉是固定的,但是在貝葉斯統(tǒng)計(jì)學(xué)派來(lái)看,這顯然是不合理的。既然假定詞??是通過(guò)拋骰子隨機(jī)產(chǎn)生的,那么骰子也應(yīng)該是隨機(jī)產(chǎn)生的,換句話來(lái)說(shuō),代表兩??種骰子的參數(shù)和沉應(yīng)該是隨機(jī)變量,并且符合一定的分布。LDA主題模型在??PLSA模型的基礎(chǔ)上加入了貝葉斯框架,選擇了狄利克雷分布作為參數(shù)和沉的??先驗(yàn)分布,這樣可以利用共軛分布的參數(shù)傳遞性來(lái)更好的估計(jì)參數(shù)。??丄?topic-word?Ifi1??|??K-rs?^?v個(gè)面??對(duì)S?■編號(hào)?1-K?Kt??|?g'OirW??1??圖3-1?LDA模型文檔生成過(guò)程??如上圖3_1所示,重新考察文檔的生成過(guò)程:(1)有兩種類型的骰子,每種??都是有無(wú)數(shù)多個(gè)。第一種是doc-topic?(文檔-主題)骰子,每個(gè)骰子有K個(gè)面,每??個(gè)面是一個(gè)非重復(fù)主題編號(hào),編號(hào)從1到K;第二種是topic-word?(主題-詞語(yǔ))??骰子,每個(gè)骰子有V個(gè)面,每個(gè)面對(duì)應(yīng)著一個(gè)非重復(fù)單詞。(2)隨機(jī)的從第二種??散子里獨(dú)立的抽出K個(gè)topic-word骰子,為其編號(hào)為1到K,與doc-topic散子每??個(gè)面的主題編號(hào)是一一對(duì)應(yīng)的。(3)每次生成一篇新的文檔之前,先從第一種骰??子里抽出一個(gè)doc-topic骰子,然后重復(fù)如下過(guò)程直到生成文檔中所有詞:投擲??這個(gè)骰子,得到一個(gè)主題編號(hào)k,選擇K個(gè)topic-word骰子中對(duì)應(yīng)編號(hào)為k的那個(gè),??投擲這個(gè)骰子產(chǎn)生一個(gè)詞。??21??
第3章LDA主題模型的構(gòu)建??3.1.2增加參數(shù)??wm? ̄?*^ml?^702?????WmNm??圖3-2文檔生成過(guò)程中word和topic對(duì)應(yīng)關(guān)系??如上圖3-2所示,在LDA模型中,因?yàn)樯擅總(gè)詞的topic-word骰子的編號(hào)??依賴于拋擲doc-topic骰子得到的主題編號(hào),那么意味著語(yǔ)料庫(kù)中的每個(gè)詞都與??一個(gè)主題編號(hào)唯一對(duì)應(yīng)。己知語(yǔ)料庫(kù)為W?=?%,),第m篇文檔<?=??(wml,wm2,...,wmNm),根據(jù)主題和詞的對(duì)應(yīng)關(guān)系,等價(jià)定義語(yǔ)料庫(kù)所有主題編號(hào)集??合Z?=瓦,石,…,切,第m篇文檔所有主題編號(hào)集合G?=?(Z^Zm,zmN?J。??3.1.3物理過(guò)程分解???——*???(ZmB)???--K§)???nell,HU??丨??圖3-3?LDA概率圖模型??如上圖3-3所示,在LDA概率圖模型中,只有wmn為可觀察到的變量,其他??都是隱變量或者參數(shù)。i?g為先驗(yàn)分布狄利克雷分布的參數(shù),巧為第m篇文檔的??主題分布,沉為第k個(gè)主題的詞分布,Znm為第m篇文檔第n個(gè)詞對(duì)應(yīng)的主題編號(hào)。??那么LDA模型生成文檔的過(guò)程被分為了兩個(gè)物理過(guò)程:??第一個(gè)物理過(guò)程5?—巧;—Zmn是生成主題編號(hào)的過(guò)程,這個(gè)過(guò)程表示在生成??第m篇文檔的時(shí)候,先從第一種骰子中抽出一個(gè)doc-topic骰子1^,或者說(shuō)從參數(shù)??為5的狄利克雷分布中取樣生成第m篇文檔的主題分布巧:,然后投擲這個(gè)骰子生??成了文檔中第n個(gè)詞對(duì)應(yīng)的主題編號(hào)zmn。??第二個(gè)物理過(guò)程@?—雨—Wmn|k?=?zmn是在確定的主題編號(hào)下生成詞的過(guò)程,??這個(gè)過(guò)程表示從第二種骰子中抽出K個(gè)doc-topic骰子,或者說(shuō)從參數(shù)
【參考文獻(xiàn)】:
期刊論文
[1]自然語(yǔ)言處理中主題模型的發(fā)展[J]. 徐戈,王厚峰. 計(jì)算機(jī)學(xué)報(bào). 2011(08)
[2]國(guó)內(nèi)中文自動(dòng)分詞技術(shù)研究綜述[J]. 奉國(guó)和,鄭偉. 圖書(shū)情報(bào)工作. 2011(02)
碩士論文
[1]基于主題詞的微博用戶興趣模型研究[D]. 萬(wàn)子瑋.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[2]基于爬蟲(chóng)和LDA的新聞話題挖掘[D]. 曹牧原.河北大學(xué) 2018
[3]基于Labeled-LDA模型的在線醫(yī)療專家推薦研究[D]. 倪秀麗.浙江大學(xué) 2018
[4]基于改進(jìn)LDA算法的微博用戶興趣偏好分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 樓小帆.北京郵電大學(xué) 2017
[5]基于微博的用戶興趣分析與個(gè)性化信息推薦[D]. 王廣新.上海交通大學(xué) 2013
本文編號(hào):3561904
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3561904.html
最近更新
教材專著