協(xié)同過濾推薦算法的關(guān)鍵性問題研究
發(fā)布時間:2018-01-04 22:02
本文關(guān)鍵詞:協(xié)同過濾推薦算法的關(guān)鍵性問題研究 出處:《山東大學(xué)》2016年博士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 推薦系統(tǒng) 協(xié)同過濾 數(shù)據(jù)稀疏性 可擴展性 Top-n推薦 聚類技術(shù)
【摘要】:近年來,隨著信息技術(shù)和Web 2.0的發(fā)展,信息的爆炸式增長造成了信息過載(Information Overload)的現(xiàn)象。推薦系統(tǒng)(Recommender Systems)是克服信息過載問題的有效工具,它通過分析用戶的歷史行為挖掘用戶興趣,從而主動給用戶推薦能夠滿足他們興趣和需求的信息。目前,推薦系統(tǒng)已經(jīng)廣泛應(yīng)用于各大在線網(wǎng)站并取得了巨大的商業(yè)價值,例如Amazon的商品推薦、Netflix和YouTube的視頻推薦。在學(xué)術(shù)界,很多不同類型的推薦算法被提出,其中,協(xié)同過濾(Collaborative Filtering, CF)憑借其優(yōu)勢成為最受歡迎的一類推薦算法。盡管協(xié)同過濾在個性化推薦方面取得較大成功,但本身存在的一些關(guān)鍵問題制約著其進(jìn)一步發(fā)展。本文以國家自然科學(xué)基金項目為依托,結(jié)合已有工作,針對協(xié)同過濾推薦算法存在的數(shù)據(jù)稀疏性、可擴展性和Top-n推薦這三個關(guān)鍵問題展開了系列研究工作。論文的主要工作和創(chuàng)新性可以歸納為以下幾個方面:(1)本文提出了一種結(jié)合Linked Data的協(xié)同過濾推薦算法。由于推薦系統(tǒng)中的數(shù)據(jù)稀疏性問題,傳統(tǒng)的基于矩陣分解的CF推薦算法將不能準(zhǔn)確地學(xué)習(xí)到用戶和項目(item)的潛在特征。本文利用Linked Data中的高質(zhì)量數(shù)據(jù),來緩解數(shù)據(jù)稀疏性問題對矩陣分解推薦算法的影響。我們利用Linked Data中關(guān)于項目的顯式結(jié)構(gòu)化屬性信息定義項目之間的相似度,并提出了兩種項目相似度敏感的矩陣分解推薦算法。我們假設(shè)項目顯式屬性比較相似的項目在矩陣分解之后得到的潛在特征向量也應(yīng)該是近似的,因此打破了矩陣分解中項目的獨立性。實驗結(jié)果表明,本文的推薦算法能夠很好地應(yīng)對數(shù)據(jù)稀疏性問題,尤其對只有極少打分信息的項目來說仍然能夠做出高準(zhǔn)確度的推薦。(2)本文提出了一種基于用戶組的二部圖推薦算法。該方法從二部圖推薦算法存在的數(shù)據(jù)稀疏性和可擴展性問題出發(fā),將聚類技術(shù)應(yīng)用到用戶聚類中。具體來說,我們首先利用奇異值分解(SVD)將打分信息進(jìn)行降維獲得用戶的特征空間?紤]到用戶興趣的多樣性,我們使用模糊c-means聚類算法將用戶劃分成多個用戶組,每個用戶組代表有相似興趣的用戶群體,其中每個用戶可以屬于多個用戶組。基于用戶組將原始的二部圖拆分為多個比較稠密的并且規(guī)模更小的子圖,在子圖上的推薦大大減少了計算量。實驗表明,與以往以損失推薦準(zhǔn)確度來提高推薦效率的方法不同,本文的方法在提高可擴展性的同時保證了推薦的準(zhǔn)確度。(3)本文提出了一種基于信息融合的混合多組聯(lián)合聚類推薦方法。在推薦系統(tǒng)領(lǐng)域,以往的聚類方法只利用了用戶和項目的打分信息來將用戶或者項目聚成多個組。但是,由于打分?jǐn)?shù)據(jù)的稀疏性不能保證聚類結(jié)果的有效性。為了解決上述問題,我們?nèi)诤狭擞脩?項目打分信息、用戶-用戶社交關(guān)系和項目-項目關(guān)聯(lián)信息并基于三種類型信息定義了一種新的混合多組聯(lián)合聚類方法。該聚類方法能夠?qū)⒂脩艉晚椖客瑫r聚類,并且用戶和項目可以出現(xiàn)在多個組中。然后,基于聚類結(jié)果將原始打分矩陣劃分成多個子矩陣。在子矩陣中利用CF推薦算法產(chǎn)生中間推薦結(jié)果。最后,我們將多個子矩陣的中間推薦結(jié)果進(jìn)行聚合產(chǎn)生最終推薦列表。實驗結(jié)果表明基于我們的聚類方法比以往一些聚類方法能夠產(chǎn)生更高的推薦準(zhǔn)確率,同時緩解了數(shù)據(jù)稀疏性和可擴展性問題。(4)本文提出了一種基于Listwise排序的協(xié)同過濾推薦算法。該算法針對Top-n推薦問題,省略了評分預(yù)測步驟,直接預(yù)測項目排序。首先,我們利用Plackett-Luce模型將用戶打分轉(zhuǎn)化為項目集合上排列的概率分布,基于Kullback-Leibler (KL)距離衡量每對用戶之間對項目排序的相似度。然后,基于用戶相似度定義加權(quán)的交叉熵?fù)p失函數(shù),通過梯度下降方法最小化損失函數(shù)預(yù)測目標(biāo)用戶的項目排序,并產(chǎn)生Top-n推薦。為了提高算法的實用性和運算效率,我們隨后提出了算法在計算用戶相似度時的增量更新方法,大大縮減了運算時間。通過在三個標(biāo)準(zhǔn)數(shù)據(jù)集上的實驗表明,我們的方法比基于Pairwise排序的協(xié)同過濾推薦算法具有更高的推薦效率,而且與當(dāng)前主流推薦算法相比具有更高的Top-n推薦準(zhǔn)確度。
[Abstract]:In recent years , with the development of information technology and Web 2.0 , the explosion of information has caused the phenomenon of information overload . In order to solve the above - mentioned problems , we combine user - project scoring information , user - user social relationship and project - project association information .
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
,
本文編號:1380265
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1380265.html
最近更新
教材專著