基于LDA-LR推薦算法在個性化新聞推薦系統(tǒng)中的應用
發(fā)布時間:2022-01-25 11:44
隨著社會科技的不斷發(fā)展,人們已經(jīng)邁入到了大數(shù)據(jù)時代,與此同時各類數(shù)據(jù)信息呈指數(shù)級爆炸式增長,使得用戶無法有效的在海量的數(shù)據(jù)信息中找到符合自身興趣的新聞信息,因此個性化新聞推薦系統(tǒng)應運而生。常見的個性化新聞推薦系統(tǒng)內(nèi)部的推薦算法一般采用的是基于用戶的協(xié)同過濾算法,它通過用戶歷史瀏覽的新聞所包含的關鍵詞這一維度對用戶之間的相似度進行計算,然后給用戶推薦與他相似度比較高的其他用戶所瀏覽的新聞內(nèi)容。但是這種基于關鍵詞的推薦算法所推薦的內(nèi)容覆蓋范圍較窄,無法滿足用戶對推薦系統(tǒng)多樣性的要求。經(jīng)過研究分析,我們發(fā)現(xiàn)用戶對新聞的喜好程度單純的以關鍵詞這個維度去做決策是不太合適的。對于新聞這種文本類數(shù)據(jù),它本身都是包含語義屬性的,而常見的個性化新聞推薦系統(tǒng)著眼于新聞關鍵詞進行新聞推薦,忽略了新聞本身所包含的潛在語義,例如多篇描述同一個關鍵詞、同一個熱點事件的新聞,往往只有一篇或少數(shù)幾篇能夠脫穎而出,造成這種現(xiàn)象的原因是這些新聞在行文構(gòu)成和語義表述上更加博人眼球。因此常見的個性化新聞推薦系統(tǒng)存在推薦結(jié)果不精確,用戶滿意率低等缺陷。針對這種情景,本文提出了一種基于LDA-LR的個性化新聞推薦方法。首先LDA...
【文章來源】:天津理工大學天津市
【文章頁數(shù)】:48 頁
【學位級別】:碩士
【部分圖文】:
傳統(tǒng)個性化新聞推薦系統(tǒng)架構(gòu)圖
第二章 傳統(tǒng)的個性化新聞推薦系統(tǒng)( ) ( )( ) ( )abE a E bIE a E b (2到上述興趣相似度計算公式后,就可以對所有用戶進行相似度的計算,以完成群體的劃分。但是當面臨大量的用戶群體的時候,我們不難發(fā)現(xiàn),對所有的用間都進行相似度計算公式的運算將會產(chǎn)生很大的計算量,然而在實際當中,有分用戶沒有對同一條新聞進行閱讀和評論的數(shù)據(jù),所以公式 2-1 中的E b 0,因此對這部分數(shù)據(jù)進行排除,先計算出E a E b 0 的用戶對 ( a ,b可以通過建立新聞關鍵詞到用戶的倒排表如圖 2-2 所示,這樣可以很大程度上的計算量。
P ( | )= P ( | ) P( | )主題詞語文檔 詞語主題 主題文檔Unigram Model)將一篇包含 N 個詞的文檔生成的過程,每拋一次就隨機生成一個詞,每次生成詞的概率是獨立相互獨立的,這個過程又可以看作是一個不考慮順序的多l(xiāng) 就是通過計算多項分布概率模型,從而得到文檔和語料和主題是已經(jīng)固定好的,例如一篇含有 N 個詞的文檔 H 知,生成詞nh 的概率為每次獨立拋擲骰子的過程記為 (P h的概率如公式 3-2 所示:1( ) ( )NnnP H P h 示如下圖 3-1 所示(其中 H 表示 H 篇文檔,N 表示總共):
【參考文獻】:
期刊論文
[1]基于內(nèi)容的推薦與協(xié)同過濾融合的新聞推薦方法[J]. 楊武,唐瑞,盧玲. 計算機應用. 2016(02)
[2]基于項目的協(xié)同過濾推薦算法的改進[J]. 黃典. 中國科技信息. 2016(01)
[3]大數(shù)據(jù)與推薦系統(tǒng)[J]. 李翠平,藍夢微,鄒本友,王紹卿,趙衎衎. 大數(shù)據(jù). 2015(03)
[4]自然語言處理中主題模型的發(fā)展[J]. 徐戈,王厚峰. 計算機學報. 2011(08)
[5]一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J]. 黃承慧,印鑒,侯昉. 計算機學報. 2011(05)
[6]基于LSA和SVM的文本分類模型的研究[J]. 王永智,滕至陽,王鵬,聶江濤. 計算機工程與設計. 2009(03)
本文編號:3608476
【文章來源】:天津理工大學天津市
【文章頁數(shù)】:48 頁
【學位級別】:碩士
【部分圖文】:
傳統(tǒng)個性化新聞推薦系統(tǒng)架構(gòu)圖
第二章 傳統(tǒng)的個性化新聞推薦系統(tǒng)( ) ( )( ) ( )abE a E bIE a E b (2到上述興趣相似度計算公式后,就可以對所有用戶進行相似度的計算,以完成群體的劃分。但是當面臨大量的用戶群體的時候,我們不難發(fā)現(xiàn),對所有的用間都進行相似度計算公式的運算將會產(chǎn)生很大的計算量,然而在實際當中,有分用戶沒有對同一條新聞進行閱讀和評論的數(shù)據(jù),所以公式 2-1 中的E b 0,因此對這部分數(shù)據(jù)進行排除,先計算出E a E b 0 的用戶對 ( a ,b可以通過建立新聞關鍵詞到用戶的倒排表如圖 2-2 所示,這樣可以很大程度上的計算量。
P ( | )= P ( | ) P( | )主題詞語文檔 詞語主題 主題文檔Unigram Model)將一篇包含 N 個詞的文檔生成的過程,每拋一次就隨機生成一個詞,每次生成詞的概率是獨立相互獨立的,這個過程又可以看作是一個不考慮順序的多l(xiāng) 就是通過計算多項分布概率模型,從而得到文檔和語料和主題是已經(jīng)固定好的,例如一篇含有 N 個詞的文檔 H 知,生成詞nh 的概率為每次獨立拋擲骰子的過程記為 (P h的概率如公式 3-2 所示:1( ) ( )NnnP H P h 示如下圖 3-1 所示(其中 H 表示 H 篇文檔,N 表示總共):
【參考文獻】:
期刊論文
[1]基于內(nèi)容的推薦與協(xié)同過濾融合的新聞推薦方法[J]. 楊武,唐瑞,盧玲. 計算機應用. 2016(02)
[2]基于項目的協(xié)同過濾推薦算法的改進[J]. 黃典. 中國科技信息. 2016(01)
[3]大數(shù)據(jù)與推薦系統(tǒng)[J]. 李翠平,藍夢微,鄒本友,王紹卿,趙衎衎. 大數(shù)據(jù). 2015(03)
[4]自然語言處理中主題模型的發(fā)展[J]. 徐戈,王厚峰. 計算機學報. 2011(08)
[5]一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J]. 黃承慧,印鑒,侯昉. 計算機學報. 2011(05)
[6]基于LSA和SVM的文本分類模型的研究[J]. 王永智,滕至陽,王鵬,聶江濤. 計算機工程與設計. 2009(03)
本文編號:3608476
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3608476.html
最近更新
教材專著