基于多維信息環(huán)境數(shù)據(jù)的推薦系統(tǒng)算法模型的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2019-12-04 02:52
【摘要】:移動(dòng)互聯(lián)網(wǎng)近年來的迅速發(fā)展促使推薦系統(tǒng)技術(shù)在學(xué)術(shù)界和工業(yè)界都受到空前的關(guān)注。推薦算法的研究不再僅僅停留在推薦精度、指標(biāo)權(quán)衡、冷啟動(dòng)等經(jīng)典推薦問題,移動(dòng)互聯(lián)網(wǎng)環(huán)境的高度稀疏數(shù)據(jù)、大規(guī)模運(yùn)算性能等障礙,多維信息的綜合利用,以及推薦模型的可控性和適用性同樣成為研究焦點(diǎn)。本課題首先針對(duì)目前主流的協(xié)同過濾技術(shù)(CF)進(jìn)行研究,設(shè)計(jì)了雙重去中心化相關(guān)性距離,一種基于相似度距離的關(guān)系矩陣計(jì)算方法。該算法在數(shù)據(jù)敏感度和模型適應(yīng)性上優(yōu)于傳統(tǒng)的調(diào)整后余弦距離和皮爾森距離。繼而,針對(duì)協(xié)同過濾技術(shù)遷移至移動(dòng)互聯(lián)網(wǎng)時(shí)面臨的數(shù)據(jù)稀疏和運(yùn)算性能低下兩種問題,提出了解決方案。該解決方案包括1)利用數(shù)據(jù)分布規(guī)律設(shè)計(jì)基于影響力的計(jì)算優(yōu)化方法,和2)基于CF-I和CF-U算法中較為成熟的最近鄰思想對(duì)本不適用的Slope-One模型設(shè)計(jì)近似k最近鄰的Slope-One改進(jìn)算法。本課題發(fā)現(xiàn)電影評(píng)分平臺(tái)MovieLens和移動(dòng)應(yīng)用市場(chǎng)AppDL的用戶行為存在一致規(guī)律:用戶往往在一段時(shí)期內(nèi)具有較為穩(wěn)定的興趣偏好,經(jīng)常在數(shù)周之內(nèi)保持較為固定的關(guān)注焦點(diǎn);谠撘(guī)律以及上述協(xié)同過濾模型的改進(jìn)算法,通過引入物品分類數(shù)據(jù),設(shè)計(jì)了基于多維信息環(huán)境下的多分類列表調(diào)整算法的“嵌套型”推薦模型。該模型具有以下幾點(diǎn)優(yōu)勢(shì):1)可以作用于絕大多數(shù)推薦算法并提高推薦性能;2)提供可控的列表調(diào)整過程并產(chǎn)生傾向于不同指標(biāo)提升的多種推薦模式;3)提出通過歷史評(píng)估數(shù)據(jù)計(jì)算統(tǒng)一評(píng)估標(biāo)準(zhǔn)的需求量化方法;4)自動(dòng)學(xué)習(xí)適合特定推薦目標(biāo)的最優(yōu)化推薦模式;5)支持多分類和多標(biāo)簽組合分類的數(shù)據(jù)場(chǎng)景并提供更為精確的模糊分類結(jié)果;6)模型的附加開銷低于0(uilog2 i)。
【圖文】:
隨后以不同的時(shí)間點(diǎn)做切割,觀察在兩個(gè)月之中隨著時(shí)間的推移各個(gè)組內(nèi)的逡逑用戶累計(jì)關(guān)注的游戲分類數(shù)(動(dòng)作類、飛行類、策略類等總共17種分類)的變逡逑化情況。圖2-2邋(a)?(e)展示了邋5組用戶分別在不同時(shí)間切割點(diǎn)時(shí),有多少用逡逑戶關(guān)注了多少游戲分類(至少1個(gè)至多17個(gè))的統(tǒng)計(jì)數(shù)值。橫坐標(biāo)為,隨著時(shí)逡逑間的推移所發(fā)生的交互記錄數(shù)占兩個(gè)月記錄總量的比值,從50%以5%為增量增逡逑至75%,縱坐標(biāo)為用戶數(shù)量。例如在圖2-2邋(a)中橫坐標(biāo)為50°/。時(shí)的藍(lán)色柱形,,逡逑表示在A組用戶中當(dāng)交互記錄累計(jì)到總量(兩個(gè)月)的50%時(shí),仍只保持關(guān)注1逡逑個(gè)游戲分類的用戶數(shù)只有不到20人。逡逑可以很明顯的發(fā)現(xiàn),百分之百的用戶在這兩個(gè)月內(nèi)的關(guān)注焦點(diǎn)不超過8?jìng)(gè)分逡逑類,對(duì)于絕大部分用戶當(dāng)數(shù)據(jù)量不超過60%時(shí),用戶的關(guān)注焦點(diǎn)都集中在5個(gè)分逡逑類以內(nèi),而當(dāng)數(shù)據(jù)量不超過50%時(shí)則可限制在4個(gè)分類之內(nèi)。更有趣的是,當(dāng)用逡逑戶的交互頻率與交互次數(shù)上升時(shí)
Pearson邋Correlation邋Similarity邋=邐.邐==:邐(2.9)逡逑Jlluel](Ru,x-Rx)邋JZuev(Ru.y ̄Ry)逡逑其中Ru,;c指代用戶》對(duì)物品x的評(píng)分情況,5。表示用戶w對(duì)所有產(chǎn)生過打分逡逑行為的物品的評(píng)分均值,而豆;^表示物品X所接受到的所有評(píng)分的均值水平。其實(shí)逡逑不難理解,假設(shè)現(xiàn)在存在一個(gè)用戶A對(duì)物品1和物品2的評(píng)分分別為逡逑1分和2分,類似的另一位用戶B對(duì)物品1和物品2的評(píng)分RuRw/A別為2逡逑分和1分,如圖2-3所示。那么圖中zee的余弦值便是一般的余弦相似距離,所以逡逑不難看出只有當(dāng)兩個(gè)評(píng)分向量之間的夾角越小時(shí)他們之間的余弦相似距離才會(huì)逡逑越大,反之亦然。而余弦相似距離的值域是[0,1],接近1時(shí)表示有較高的相似程逡逑度和接近0時(shí)表示評(píng)分向量的相似程度極低。值得一提的是,圖中的綠色虛線部逡逑分便是這兩個(gè)評(píng)分向量的歐氏距離(Euclidean邋Distance)。然而,可以很直觀的逡逑看出只有當(dāng)兩個(gè)評(píng)分向量完全相等時(shí)才能取得最大的歐氏相似度,這顯然是不合逡逑理的。同時(shí),歐氏距離對(duì)于打分趨勢(shì)是完全不敏感的,這是余弦相似距離相對(duì)于逡逑歐氏距離的優(yōu)勢(shì)所在。這也導(dǎo)致歐氏相似距離的適用場(chǎng)景相當(dāng)局限,而目前很少逡逑在實(shí)際推薦模型得到應(yīng)用。逡逑
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
本文編號(hào):2569427
【圖文】:
隨后以不同的時(shí)間點(diǎn)做切割,觀察在兩個(gè)月之中隨著時(shí)間的推移各個(gè)組內(nèi)的逡逑用戶累計(jì)關(guān)注的游戲分類數(shù)(動(dòng)作類、飛行類、策略類等總共17種分類)的變逡逑化情況。圖2-2邋(a)?(e)展示了邋5組用戶分別在不同時(shí)間切割點(diǎn)時(shí),有多少用逡逑戶關(guān)注了多少游戲分類(至少1個(gè)至多17個(gè))的統(tǒng)計(jì)數(shù)值。橫坐標(biāo)為,隨著時(shí)逡逑間的推移所發(fā)生的交互記錄數(shù)占兩個(gè)月記錄總量的比值,從50%以5%為增量增逡逑至75%,縱坐標(biāo)為用戶數(shù)量。例如在圖2-2邋(a)中橫坐標(biāo)為50°/。時(shí)的藍(lán)色柱形,,逡逑表示在A組用戶中當(dāng)交互記錄累計(jì)到總量(兩個(gè)月)的50%時(shí),仍只保持關(guān)注1逡逑個(gè)游戲分類的用戶數(shù)只有不到20人。逡逑可以很明顯的發(fā)現(xiàn),百分之百的用戶在這兩個(gè)月內(nèi)的關(guān)注焦點(diǎn)不超過8?jìng)(gè)分逡逑類,對(duì)于絕大部分用戶當(dāng)數(shù)據(jù)量不超過60%時(shí),用戶的關(guān)注焦點(diǎn)都集中在5個(gè)分逡逑類以內(nèi),而當(dāng)數(shù)據(jù)量不超過50%時(shí)則可限制在4個(gè)分類之內(nèi)。更有趣的是,當(dāng)用逡逑戶的交互頻率與交互次數(shù)上升時(shí)
Pearson邋Correlation邋Similarity邋=邐.邐==:邐(2.9)逡逑Jlluel](Ru,x-Rx)邋JZuev(Ru.y ̄Ry)逡逑其中Ru,;c指代用戶》對(duì)物品x的評(píng)分情況,5。表示用戶w對(duì)所有產(chǎn)生過打分逡逑行為的物品的評(píng)分均值,而豆;^表示物品X所接受到的所有評(píng)分的均值水平。其實(shí)逡逑不難理解,假設(shè)現(xiàn)在存在一個(gè)用戶A對(duì)物品1和物品2的評(píng)分分別為逡逑1分和2分,類似的另一位用戶B對(duì)物品1和物品2的評(píng)分RuRw/A別為2逡逑分和1分,如圖2-3所示。那么圖中zee的余弦值便是一般的余弦相似距離,所以逡逑不難看出只有當(dāng)兩個(gè)評(píng)分向量之間的夾角越小時(shí)他們之間的余弦相似距離才會(huì)逡逑越大,反之亦然。而余弦相似距離的值域是[0,1],接近1時(shí)表示有較高的相似程逡逑度和接近0時(shí)表示評(píng)分向量的相似程度極低。值得一提的是,圖中的綠色虛線部逡逑分便是這兩個(gè)評(píng)分向量的歐氏距離(Euclidean邋Distance)。然而,可以很直觀的逡逑看出只有當(dāng)兩個(gè)評(píng)分向量完全相等時(shí)才能取得最大的歐氏相似度,這顯然是不合逡逑理的。同時(shí),歐氏距離對(duì)于打分趨勢(shì)是完全不敏感的,這是余弦相似距離相對(duì)于逡逑歐氏距離的優(yōu)勢(shì)所在。這也導(dǎo)致歐氏相似距離的適用場(chǎng)景相當(dāng)局限,而目前很少逡逑在實(shí)際推薦模型得到應(yīng)用。逡逑
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 羅辛;歐陽元新;熊璋;袁滿;;通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法[J];計(jì)算機(jī)學(xué)報(bào);2010年08期
本文編號(hào):2569427
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2569427.html
最近更新
教材專著