天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于聚類和監(jiān)督學習模型的協(xié)同過濾推薦算法研究

發(fā)布時間:2020-08-11 20:26
【摘要】:快速發(fā)展的互聯(lián)網(wǎng)逐漸成為信息傳遞和商品交易的重要平臺,成為大多數(shù)人生活中不可缺少的一部分。然而,互聯(lián)網(wǎng)信息的快速膨脹,給用戶帶來豐富多樣的信息同時,也對用戶搜索信息的能力和精力提出了挑戰(zhàn)。推薦系統(tǒng)作為一種信息過濾的重要途徑,已經(jīng)在互聯(lián)網(wǎng)各個領域中得到廣泛的應用。協(xié)同過濾算法是在推薦系統(tǒng)中應用最成功的推薦技術之一,在理論和實踐上都取得長足的發(fā)展。然而,隨著推薦系統(tǒng)中用戶和項目的劇增,傳統(tǒng)基于內(nèi)存的協(xié)同過濾算法由于對計算資源的開銷過大而面臨可擴展性問題。如何把計算資源開銷控制在可接受的范圍內(nèi)并保證推薦的效率和質量是目前業(yè)界研究的熱點問題。針對可擴展性問題,本文在協(xié)同過濾推薦中引入聚類技術和監(jiān)督學習技術,并提出三種協(xié)同過濾推薦算法。主要工作分為以下三部分:傳統(tǒng)基于內(nèi)存的協(xié)同過濾算法利用用戶-項目評分矩陣的一行(列)表示一個用戶(項目),在用戶和項目數(shù)以百萬計的推薦系統(tǒng)中,維數(shù)過高的用戶和項目向量導致推薦效率的下降。本文針對用戶和項目降維,分別提出DRU和DRI算法。DRU(DRI)通過二分k-means聚類技術對用戶(項目)進行聚類,并計算用戶(項目)對用戶簇(項目簇)的隸屬度,每個用戶(項目)由其對應的隸屬度向量表示。由于隸屬度向量的維數(shù)通常遠低于評分向量,因此基于內(nèi)存的協(xié)同過濾算法的用戶或項目間相似度的計算量大幅減少,由此提高了在線推薦的效率。此外,本文還提出DRUI算法,用于集成DRU和DRI的預測結果。實驗結果表明,提出的算法在線推薦效率遠高于傳統(tǒng)基于內(nèi)存的協(xié)同過濾算法(UCF和ICF);此外,盡管在評分預測準確度上DRU和DRI比UCF和ICF遜色,但是經(jīng)過DRUI模型的集成后比它們更優(yōu)越。傳統(tǒng)基于內(nèi)存的協(xié)同過濾算法預測評分時需要搜索目標用戶(或項目)的最臨近用戶(或項目),在用戶和項目的規(guī)模不斷擴大的情況下,這種推薦算法的在線推薦效率面臨挑戰(zhàn)。于是本文引入可以離線訓練的隨機森林模型,提出CRF算法。CRF先通過聚類得到用戶和項目的隸屬度向量(此過程與DRU和DRI一樣),然后結合用戶-項目評分矩陣構造監(jiān)督學習模型的訓練數(shù)據(jù)集,并訓練隨機森林模型,在線推薦時利用離線訓練的模型進行評分預測。實驗結果表明,CRF在線推薦效率遠高于基于內(nèi)存的協(xié)同過濾算法;另外,其評分預測準確度和分類準確度在大部分情況下較優(yōu)越。針對可擴展性問題,本文引入可增量學習的神經(jīng)網(wǎng)絡模型,提出CFBP_R回歸模型、CFBP_C分類模型和CFBP_SW權重共享模型。CFBP_R和CFBP_C模型分別將評分預測問題視為回歸問題和分類問題;CFBP_SW是一個基于CFBP_C改進得到的模型,引入權重共享機制,大幅減少模型的參數(shù)量。模型每個輸入樣本的結構為(用戶ID,項目ID,評分)三元組,這是推薦系統(tǒng)評分數(shù)據(jù)最常見的存儲格式,即在應用CFBP_R、CFBP_C和CFBP_SW前幾乎不需要對原始評分數(shù)據(jù)做任何預處理(比如轉換成評分矩陣);訓練模型時可以分批讀取磁盤中的數(shù)據(jù),因此模型對內(nèi)存的要求較低,新增的評分數(shù)據(jù)也可以增量優(yōu)化模型參數(shù),而不必重新訓練模型。此外,針對需要對評分進行編碼處理的分類模型CFBP_C,本文一方面應用常用的one-hot編碼,另一方面針對評分預測問題的特點提出一種新的編碼(線性編碼),于是得到模型的兩個版本CFBP_C(one-hot)和CFBP_C(linear)。實驗結果表明,提出的算法在評分預測準確度、分類準確度和在線推薦效率上均比傳統(tǒng)基于內(nèi)存的協(xié)同過濾算法(UCF和ICF)優(yōu)越;提出的算法對數(shù)據(jù)稀疏性的敏感程度較低,能夠一定程度上緩解數(shù)據(jù)稀疏性問題;提出的線性編碼方式能夠明顯提高評分預測準確度;權重共享模型CFBP_SW在參數(shù)量遠比CFBP_C小的情況下,評分預測準確度與之相當。
【學位授予單位】:廣東工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:F724.6
【圖文】:

推薦算法,協(xié)同過濾,基本假設,相似度


圖 2-1 基于用戶的協(xié)同過濾推薦算法igure 2-1 User-based collaborative filtering recommendation algorithm推薦算法的基本假設是,相似的用戶有相似的偏好。如果相同的偏好,那么可以認為這兩個用戶很相似,如圖 2-1 所共同喜歡項目 3 和項目 4,于是基于用戶的推薦算法向用戶目(項目 1)。基于用戶的推薦技術利用目標用戶a的最鄰近所以基于用戶的推薦技術的關鍵在于如何衡量用戶間的相近用戶的評分,其中,每個用戶由用戶-項目評分矩陣中的常用于衡量用戶間相似度的方式主要有以下兩種:相似度a和u 的評分向量分別為 和u,那么用戶a和u 的余弦相似度( )ai uiCOS i Ir r a u

協(xié)同過濾,推薦算法,相似度,向量


圖 2-2 基于項目的協(xié)同過濾推薦算法gure 2-2 Item-based collaborative filtering recommendation algori相似度與用戶間的相似度的計算方式類似,只需把用戶向量于項目的協(xié)同過濾推薦算法常用的評分預測方式為( )( )( )( )sim ,im , sajj N iNiaijr i jirj 示項目i在目標用戶已評分的項目中的若干個最鄰近項目集合內(nèi)存的協(xié)同過濾算法的最鄰近搜索是一個在線的過程,所以長,在線推薦效率難以滿足推薦系統(tǒng)的實時性要求,推薦系統(tǒng)是很多學者提出基于模型的推薦技術,通過離線建立模型以減rwar 等人[15]提出基于二分 k-means 用戶聚類的協(xié)同過濾算法離線將用戶劃分到不同的集合中(如圖 2-3 所示),同一集合

協(xié)同過濾,二分,算法


圖 2-3 基于二分 k-means 聚類的協(xié)同過濾算法ollaborative filtering algorithm based on bisect k-m薦技術技術和協(xié)同過濾推薦技術需要大量的瀏覽、購數(shù)據(jù)有限的時候,這些技術的推薦質量會下降。汽車等高價值的產(chǎn)品,所以用戶的購買記錄或評啟動(ColdStart)問題。另外,對于更新速度快,會影響推薦的效果。系統(tǒng)可以緩解以上提到的問題,因為不需要歷于知識的推薦系統(tǒng)明確地征求用戶對項目的需領域(比如電子產(chǎn)品、汽車、房子等),用戶通知識的限制無法理解商品的屬性如何與需求匹硬盤、內(nèi)存、顯存等能滿足他們的什么需求;

【參考文獻】

相關期刊論文 前2條

1 孫天昊;黎安能;李明;朱慶生;;基于Hadoop分布式改進聚類協(xié)同過濾推薦算法研究[J];計算機工程與應用;2015年15期

2 朱郁筱;呂琳媛;;推薦系統(tǒng)評價指標綜述[J];電子科技大學學報;2012年02期



本文編號:2789527

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2789527.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶5a719***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com