LDA模型的研究及其在推薦系統(tǒng)中的應(yīng)用
本文關(guān)鍵詞:LDA模型的研究及其在推薦系統(tǒng)中的應(yīng)用,,由筆耕文化傳播整理發(fā)布。
【摘要】:主題模型是用來(lái)發(fā)現(xiàn)文章中隱藏的主題的一種統(tǒng)計(jì)方法,這是一種應(yīng)用范圍十分廣的生成模型。該模型假設(shè)每個(gè)文檔里存在很多個(gè)隱藏的主題,而由于文檔的性質(zhì)和類別不同,使得每篇文章的主題分布情況是不同的。主題模型就是利用文章的這個(gè)特點(diǎn),根據(jù)每篇文章的主題分布建立模型。主題模型的應(yīng)用范圍十分的廣泛,而且在許多領(lǐng)域的應(yīng)用效果也十分的顯著。本文就是以LDA(Latent Dirichlet Analysis)主題模型為研究對(duì)象,針對(duì)模型的改進(jìn)和模型參數(shù)的估計(jì)進(jìn)行了進(jìn)一步研究。首先,考慮到在電子商務(wù)中在購(gòu)買商品之后還可以對(duì)所購(gòu)買的商品進(jìn)行評(píng)分。所以,我們對(duì)LDA模型進(jìn)行了改進(jìn),加入了對(duì)商品的評(píng)分。并且,針對(duì)離散型評(píng)分和連續(xù)型評(píng)分我們分別對(duì)LDA模型進(jìn)行了改進(jìn),然后用變分EM算法進(jìn)行了參數(shù)估計(jì)。其次,由于在對(duì)改進(jìn)后的LDA模型用變分EM算法進(jìn)行參數(shù)估計(jì)的過(guò)程中,我們發(fā)現(xiàn)目標(biāo)函數(shù)的下界是我們假設(shè)的變分分布的熵。而熵表示的是隨機(jī)變量的不確定性,即我們假設(shè)的變分分布的不確定性。由此,我們提出用TEM(Tempered Expectation Maximization)算法對(duì)模型進(jìn)行參數(shù)估計(jì)。該算法通過(guò)對(duì)目標(biāo)函數(shù)的中的熵除以一個(gè)參數(shù)τ,從而降低由于假設(shè)的變分分布的不確定性而對(duì)模型造成的影響。最后,我們將改進(jìn)后的LDA模型應(yīng)用到MovieLens數(shù)據(jù)集上進(jìn)行驗(yàn)證,并通過(guò)交叉驗(yàn)證的方法與基于用戶的協(xié)同過(guò)濾以及PLSA模型進(jìn)行對(duì)比。得到改進(jìn)后的模型效果優(yōu)于其他模型,而這兩種模型中,連續(xù)型數(shù)據(jù)的模型效果優(yōu)于離散型的模型。
【關(guān)鍵詞】:主題模型 模型改進(jìn) 參數(shù)估計(jì) 協(xié)同過(guò)濾
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【目錄】:
- 致謝3-4
- 摘要4-5
- Abstract5-8
- 1 緒論8-15
- 1.1 引言8-13
- 1.2 本文結(jié)構(gòu)13-15
- 2 LDA模型概述15-22
- 2.1 LDA模型及其生成過(guò)程15-17
- 2.2 LDA模型的參數(shù)估計(jì)17-22
- 3 LDA模型的改進(jìn)及其參數(shù)估計(jì)22-41
- 3.1 LDA模型的改進(jìn):離散型22-33
- 3.2 LDA模型的改進(jìn):連續(xù)型33-41
- 4 TEM算法對(duì)改進(jìn)后LDA模型的參數(shù)估計(jì)41-48
- 5 改進(jìn)后的LDA模型在協(xié)同過(guò)濾中的應(yīng)用48-59
- 5.1 協(xié)同過(guò)濾簡(jiǎn)介48-51
- 5.2 基于PLSA的協(xié)同過(guò)濾51-54
- 5.3 實(shí)驗(yàn)數(shù)據(jù)集及模型評(píng)估標(biāo)準(zhǔn)54-55
- 5.4 實(shí)驗(yàn)結(jié)果55-59
- 6 總結(jié)與展望59-61
- 參考文獻(xiàn)61-63
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 盛守照,王道波,黃向華;有限樣本下模型選擇理論與方法研究[J];系統(tǒng)工程與電子技術(shù);2005年04期
2 黃東遠(yuǎn);陳曉云;;一種新的支持向量回歸機(jī)的模型選擇方法[J];福州大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期
3 盛守照,王道波;基于預(yù)測(cè)風(fēng)險(xiǎn)最小化的模型選擇理論與方法研究[J];系統(tǒng)工程;2004年04期
4 黃光遠(yuǎn),朱月秋;森林火災(zāi)的模型及其撲滅問(wèn)題[J];系統(tǒng)工程理論與實(shí)踐;1988年02期
5 舒曉娟;陳洋波;任啟偉;;模型選擇準(zhǔn)則在洪水頻率分析中的應(yīng)用[J];水利學(xué)報(bào);2010年01期
6 陳建東;王小明;;LS-SVM模型選擇的秩準(zhǔn)則及其比較[J];計(jì)算機(jī)工程;2011年18期
7 J.G.Fossum ,徐玉輝;SOI MOSFET電路模擬的模型選擇[J];微電子學(xué);1989年02期
8 黃梯云,吳菲,盧濤;模型自動(dòng)選擇方法研究的進(jìn)展[J];計(jì)算機(jī)應(yīng)用研究;2001年04期
9 李海濤;李福忠;;基于信息流角度的企業(yè)結(jié)構(gòu)式和簡(jiǎn)式模型選擇[J];情報(bào)雜志;2007年03期
10 吳婭輝;劉剛;郭軍;;基于模型混淆度的模型組合算法研究[J];自動(dòng)化學(xué)報(bào);2009年05期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前9條
1 張維;;模型選擇:現(xiàn)狀與發(fā)展[A];全國(guó)青年管理科學(xué)與系統(tǒng)科學(xué)論文集(第1卷)[C];1991年
2 金偉;周浩;于永利;;維修管理IDSS的設(shè)計(jì)方法[A];設(shè)備維修與改造技術(shù)論文集[C];2000年
3 曾菊英;許冰;;制度變遷及其模型選擇[A];21世紀(jì)數(shù)量經(jīng)濟(jì)學(xué)(第10卷)[C];2009年
4 廖冬初;秦壽康;;縣級(jí)規(guī)劃總體優(yōu)化模型及其計(jì)算方法[A];發(fā)展戰(zhàn)略與系統(tǒng)工程——第五屆系統(tǒng)工程學(xué)會(huì)年會(huì)論文集[C];1986年
5 張維;;關(guān)于模型選擇中的若干理論問(wèn)題[A];科學(xué)決策與系統(tǒng)工程——中國(guó)系統(tǒng)工程學(xué)會(huì)第六次年會(huì)論文集[C];1990年
6 戰(zhàn)明華;李生校;;貨幣與產(chǎn)出的關(guān)系(1995~2003):不同模型的分析結(jié)果及其比較[A];中國(guó)金融學(xué)會(huì)第八屆優(yōu)秀論文評(píng)選獲獎(jiǎng)?wù)撐募痆C];2005年
7 王樹盛;;Probit模型及其在交通方式分擔(dān)中的應(yīng)用研究[A];可持續(xù)發(fā)展的中國(guó)交通——2005全國(guó)博士生學(xué)術(shù)論壇(交通運(yùn)輸工程學(xué)科)論文集(下冊(cè))[C];2005年
8 戴鋒;梁玲;李興兵;馮俊濤;;經(jīng)濟(jì)增長(zhǎng)的動(dòng)態(tài)進(jìn)程模型及實(shí)證研究[A];第十四屆中國(guó)管理科學(xué)學(xué)術(shù)年會(huì)論文集(上冊(cè))[C];2012年
9 韓珂;尹勤;;大學(xué)生手機(jī)話費(fèi)模型的建立和分析[A];江蘇省現(xiàn)場(chǎng)統(tǒng)計(jì)研究會(huì)第十次學(xué)術(shù)年會(huì)論文集[C];2006年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前3條
1 建南;幫你建立有效客戶關(guān)系[N];中國(guó)商報(bào);2001年
2 首創(chuàng)期貨研發(fā)中心金融工程組 徐澤平;方差-協(xié)方差法的VaR計(jì)量模型選擇[N];期貨日?qǐng)?bào);2007年
3 證券時(shí)報(bào)記者 楊波 金燁 程俊琳;量化投資走在中國(guó) 六年學(xué)步漸入佳境[N];證券時(shí)報(bào);2010年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前8條
1 夏小超;統(tǒng)計(jì)檢驗(yàn)與模型選擇相關(guān)問(wèn)題研究[D];重慶大學(xué);2015年
2 朱素玲;模型選擇與模型平均研究[D];蘭州大學(xué);2014年
3 呂子昂;模型選擇的曲率方法研究[D];北京交通大學(xué);2012年
4 常群;支持向量機(jī)的核方法及其模型選擇[D];哈爾濱工業(yè)大學(xué);2007年
5 賀利堅(jiān);多Agent系統(tǒng)中信任和信譽(yù)模型的研究[D];北京交通大學(xué);2011年
6 張立明;結(jié)合可滿足的基于模型等價(jià)性驗(yàn)證及不一致診斷問(wèn)題研究[D];吉林大學(xué);2012年
7 毛文濤;支持向量回歸機(jī)模型選擇研究及在綜合力學(xué)環(huán)境預(yù)示中的應(yīng)用[D];西安交通大學(xué);2011年
8 劉靖旭;支持向量回歸的模型選擇及應(yīng)用研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2006年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 張亞楠;基于宏微觀模型推斷鋼構(gòu)件強(qiáng)度的無(wú)損檢測(cè)技術(shù)研究[D];中國(guó)礦業(yè)大學(xué);2015年
2 單昕彤;認(rèn)知診斷中模型—資料的測(cè)驗(yàn)擬合檢驗(yàn)統(tǒng)計(jì)量研究[D];江西師范大學(xué);2015年
3 井海銀;超高維可加模型下的特征篩選[D];重慶大學(xué);2015年
4 江婷婷;基于修正負(fù)二項(xiàng)分布的索賠次數(shù)模型研究[D];重慶大學(xué);2015年
5 孫志濱;LDA模型的研究及其在推薦系統(tǒng)中的應(yīng)用[D];浙江大學(xué);2016年
6 張釗;基于無(wú)偏估計(jì)方程的模型選擇[D];山東經(jīng)濟(jì)學(xué)院;2011年
7 朱小巖;基于分段函數(shù)的劑量—反應(yīng)模型的參數(shù)估計(jì)和模型選擇[D];東北師范大學(xué);2005年
8 徐桂彬;基于相關(guān)主題模型的音樂(lè)分類方法研究[D];蘇州大學(xué);2012年
9 張佶煒;基于中國(guó)數(shù)據(jù)的隨機(jī)死亡率模型比較研究[D];華東師范大學(xué);2014年
10 劉楊樹;模型風(fēng)險(xiǎn)及其對(duì)衍生品定價(jià)的影響[D];廈門大學(xué);2009年
本文關(guān)鍵詞:LDA模型的研究及其在推薦系統(tǒng)中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
本文編號(hào):278528
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/278528.html