erp系統(tǒng)_安大教務(wù)系統(tǒng)_推薦系統(tǒng)原理介紹

發(fā)布時(shí)間：2016-07-31 20:05

本文關(guān)鍵詞：推薦系統(tǒng)，由筆耕文化傳播整理發(fā)布。

猜你喜歡-----推薦系統(tǒng)原理介紹

寫在正文之前

最近在做推薦系統(tǒng)，在項(xiàng)目組內(nèi)做了一個(gè)分享。今天有些時(shí)間，就將邏輯梳理一遍，將ppt內(nèi)容用文字沉淀下來(lái)，便于接下來(lái)對(duì)推薦系統(tǒng)的進(jìn)一步研究。推薦系統(tǒng)確實(shí)是極度復(fù)雜，要走的路還很長(zhǎng)。

A First Glance

erp系統(tǒng)_安大教務(wù)系統(tǒng)_推薦系統(tǒng)原理介紹

為什么需要推薦系統(tǒng)——信息過(guò)載

隨著互聯(lián)網(wǎng)行業(yè)的井噴式發(fā)展，獲取信息的方式越來(lái)越多，人們從主動(dòng)獲取信息逐漸變成了被動(dòng)接受信息，信息量也在以幾何倍數(shù)式爆發(fā)增長(zhǎng)。舉一個(gè)例子，PC時(shí)代用google reader，常常有上千條未讀博客更新；如今的微信公眾號(hào)，也有大量的紅點(diǎn)未閱讀。垃圾信息越來(lái)越多，導(dǎo)致用戶獲取有價(jià)值信息的成本大大增加。為了解決這個(gè)問(wèn)題，我個(gè)人就采取了比較極端的做法：直接忽略所有推送消息的入口。但在很多時(shí)候，有效信息的獲取速度極其重要。

erp系統(tǒng)_安大教務(wù)系統(tǒng)_推薦系統(tǒng)原理介紹

由于信息的爆炸式增長(zhǎng)，對(duì)信息獲取的有效性，針對(duì)性的需求也就自然出現(xiàn)了。推薦系統(tǒng)應(yīng)運(yùn)而生。

亞馬遜的推薦系統(tǒng)

最早的推薦系統(tǒng)應(yīng)該是亞馬遜為了提升長(zhǎng)尾貨物的用戶抵達(dá)率而發(fā)明的。已經(jīng)有數(shù)據(jù)證明，長(zhǎng)尾商品的銷售額以及利潤(rùn)總和與熱門商品是基本持平的。亞馬遜網(wǎng)站上在線銷售的商品何止百萬(wàn)，但首頁(yè)能夠展示的商品數(shù)量又極其有限，給用戶推薦他們可能喜歡的商品就成了一件非常重要的事情。當(dāng)然，商品搜索也是一塊大蛋糕，亞馬遜的商品搜索早已經(jīng)開(kāi)始侵蝕谷歌的核心業(yè)務(wù)了。

在亞馬遜的商品展示頁(yè)面，經(jīng)常能夠看見(jiàn)：瀏覽此商品的顧客也同時(shí)瀏覽。

erp系統(tǒng)_安大教務(wù)系統(tǒng)_推薦系統(tǒng)原理介紹

這就是非常典型的推薦系統(tǒng)。八卦一下：”剁手族”的興起，與推薦系統(tǒng)應(yīng)該有一定關(guān)系吧，哈哈。

推薦系統(tǒng)與大數(shù)據(jù)

大數(shù)據(jù)與云計(jì)算，在當(dāng)下非常熱門。不管是業(yè)內(nèi)同事還是其他行業(yè)的朋友，大數(shù)據(jù)都是一個(gè)常談的話題。就像青少年時(shí)期熱門的話題：“性”。大家都不太懂，但大家都想說(shuō)上幾句。業(yè)內(nèi)對(duì)于大數(shù)據(jù)的使用其實(shí)還處于一個(gè)比較原始的探索階段，前段時(shí)間聽(tīng)一家基因公司的CEO說(shuō)，現(xiàn)在可以將人類的基因完全導(dǎo)出為數(shù)據(jù)，但這些數(shù)據(jù)毫無(wú)規(guī)律，能拿到這些數(shù)據(jù)，但根本不知道可以干什么。推薦系統(tǒng)也是利用用戶數(shù)據(jù)來(lái)發(fā)現(xiàn)規(guī)律，相對(duì)來(lái)說(shuō)開(kāi)始得更早，運(yùn)用上也比較成熟。

冷啟動(dòng)問(wèn)題

推薦系統(tǒng)需要數(shù)據(jù)作為支撐。但亞馬遜在剛剛開(kāi)始做推薦的時(shí)候，是沒(méi)有大量且有效的用戶行為數(shù)據(jù)的。這時(shí)候就會(huì)面臨著“冷啟動(dòng)”的問(wèn)題。沒(méi)有用戶行為數(shù)據(jù)，就利用商品本身的內(nèi)容數(shù)據(jù)。這就是推薦系統(tǒng)早期的做法。

基于內(nèi)容的推薦：

tag 給商品打上各種tag：運(yùn)動(dòng)商品類，快速消費(fèi)品類，等等。粒度劃分越細(xì)，推薦結(jié)果就越精確

商品名稱，描述的關(guān)鍵字通過(guò)從商品的文本描述信息中提取關(guān)鍵字，從而利用關(guān)鍵字的相似來(lái)作推薦

同商家的不同商品用戶購(gòu)買了商店的一件商品，就推薦這個(gè)商店的其他熱銷商品

利用經(jīng)驗(yàn)，，人為地做一些關(guān)聯(lián) 一個(gè)經(jīng)典的例子就是商店在啤酒架旁邊擺上紙尿布。那么，在網(wǎng)上購(gòu)買啤酒的人，也可以推薦紙尿布？

由于內(nèi)容的極度復(fù)雜性，這一塊兒的規(guī)則可以無(wú)限拓展�；趦�(nèi)容的推薦與用戶行為數(shù)據(jù)沒(méi)有關(guān)系，在亞馬遜早期是比較靠譜的策略。但正是由于內(nèi)容的復(fù)雜性，也會(huì)出現(xiàn)很多錯(cuò)誤的推薦。比如：小明在網(wǎng)上搜索過(guò)保時(shí)捷汽車模型。然后推薦系統(tǒng)根據(jù)關(guān)鍵字，給小明推薦了價(jià)值200萬(wàn)的保時(shí)捷911......

用戶行為數(shù)據(jù)—到底在記錄什么

在游戲里面，我們的人物角色是一堆復(fù)雜的數(shù)據(jù)，這叫做數(shù)據(jù)存儲(chǔ)；這些數(shù)據(jù)以一定的結(jié)構(gòu)組合起來(lái)，這叫做數(shù)據(jù)結(jié)構(gòu)。同樣地，在亞馬遜眼里，我們就是一張張表格中一大堆紛繁復(fù)雜的數(shù)字。舉一個(gè)栗子：

小明早上9點(diǎn)打開(kāi)了亞馬遜，先是瀏覽了首頁(yè)，點(diǎn)擊了幾個(gè)熱銷的西裝鏈接，然后在搜索欄輸入了nike籃球鞋，在瀏覽了8雙球鞋后，看了一些購(gòu)買者的評(píng)價(jià)，最終選定了air jordan的最新款。

這就是一條典型的用戶行為數(shù)據(jù)。亞馬遜會(huì)將這條行為拆分成設(shè)定好的數(shù)據(jù)塊，再以一定的數(shù)據(jù)結(jié)構(gòu)，存儲(chǔ)到亞馬遜的用戶行為數(shù)據(jù)倉(cāng)庫(kù)中。每天都有大量的用戶在產(chǎn)生這樣的行為數(shù)據(jù)，數(shù)據(jù)量越多，可以做的事情也就越強(qiáng)大。

user-item 用戶偏好矩陣

收集數(shù)據(jù)是為了分析用戶的偏好，形成用戶偏好矩陣。比如在網(wǎng)購(gòu)過(guò)程中，用戶發(fā)生了查看，購(gòu)買，分享商品的行為。這些行為是多樣的，所以需要一定的加權(quán)算法來(lái)計(jì)算出用戶對(duì)某一商品的偏好程度，形成user-item用戶偏好矩陣。

數(shù)據(jù)清理

當(dāng)我們開(kāi)始有意識(shí)地記錄用戶行為數(shù)據(jù)后，得到的用戶數(shù)據(jù)會(huì)逐漸地爆發(fā)式增長(zhǎng)。就像錄音時(shí)存在的噪音一樣，獲取的用戶數(shù)據(jù)同樣存在著大量的垃圾信息。因此，拿到數(shù)據(jù)的第一步，就是對(duì)數(shù)據(jù)做清理。其中最核心的工作，就是減噪和歸一化：

減噪：用戶行為數(shù)據(jù)是在用戶的使用過(guò)程中產(chǎn)生的，其中包含了大量的噪音和用戶誤操作。比如因?yàn)榫W(wǎng)絡(luò)中斷，用戶在短時(shí)間內(nèi)產(chǎn)生了大量點(diǎn)擊的操作。通過(guò)一些策略以及數(shù)據(jù)挖掘算法，來(lái)去除數(shù)據(jù)中的噪音。

歸一化：清理數(shù)據(jù)的目的是為了通過(guò)對(duì)不同行為進(jìn)行加權(quán)，形成合理的用戶偏好矩陣。用戶會(huì)產(chǎn)生多種行為，不同行為的取值范圍差距可能會(huì)非常大。比如：點(diǎn)擊次數(shù)可能遠(yuǎn)遠(yuǎn)大于購(gòu)買次數(shù)，直接套用加權(quán)算法，可能會(huì)使得點(diǎn)擊次數(shù)對(duì)結(jié)果的影響程度過(guò)大。于是就需要?dú)w一算法來(lái)保證不同行為的取值范圍大概一致。最簡(jiǎn)單的歸一算法就是將各類數(shù)據(jù)來(lái)除以此類數(shù)據(jù)中的最大值，以此來(lái)保證所有數(shù)據(jù)的取值范圍都在[0,1]區(qū)間內(nèi)。

降維算法——SVD奇異值分解

通過(guò)記錄用戶行為數(shù)據(jù)，我們得到了一個(gè)巨大的用戶偏好矩陣。隨著物品數(shù)量的增多，這個(gè)矩陣的列數(shù)在不斷增長(zhǎng)，但對(duì)單個(gè)用戶來(lái)說(shuō)，有過(guò)行為數(shù)據(jù)的物品數(shù)量是相當(dāng)有限的，這就造成了這個(gè)巨大的用戶偏好矩陣實(shí)際上相當(dāng)稀疏，有效的數(shù)據(jù)其實(shí)很少。SVD算法就是為了解決這個(gè)問(wèn)題發(fā)明的。

erp系統(tǒng)_安大教務(wù)系統(tǒng)_推薦系統(tǒng)原理介紹

將大量的物品提取特征，抽象成了3大類：蔬菜，水果，休閑服。這樣就將稀疏的矩陣縮小，極大的減少了計(jì)算量。但這個(gè)例子僅僅是為了說(shuō)明SVD奇異值分解的原理。真正的計(jì)算實(shí)施中，不會(huì)有人為的提取特征的過(guò)程，而是完全通過(guò)數(shù)學(xué)方法進(jìn)行抽象降維的。通過(guò)對(duì)矩陣相乘不斷的擬合，參數(shù)調(diào)整，將原來(lái)巨大的稀疏的矩陣，分解為不同的矩陣，使其相乘可以得到原來(lái)的矩陣。這樣既可以減少計(jì)算量，又可以填充上述矩陣中空值的部分。

協(xié)同過(guò)濾算法

我一直在強(qiáng)調(diào)用戶行為數(shù)據(jù)，目的就是為介紹協(xié)同過(guò)濾算法做鋪墊。協(xié)同過(guò)濾，Collaborative Filtering，簡(jiǎn)稱CF，廣泛應(yīng)用于如今的推薦系統(tǒng)中。通過(guò)協(xié)同過(guò)濾算法，可以算出兩個(gè)相似度：user-user相似度矩陣； item-item相似度矩陣。

erp系統(tǒng)_安大教務(wù)系統(tǒng)_推薦系統(tǒng)原理介紹

為什么叫做協(xié)同過(guò)濾？是因?yàn)檫@兩個(gè)相似度矩陣是通過(guò)對(duì)方來(lái)計(jì)算出來(lái)的。舉個(gè)栗子：100個(gè)用戶同時(shí)購(gòu)買了兩種物品A和B，得出在item-item相似度矩陣中A和B的相似度為0.8; 1000個(gè)物品同時(shí)被用戶C和用戶D購(gòu)買，得出在user-user相似度矩陣中C和D的相似度是0.9. user-user, item-item的相似度都是通過(guò)用戶行為數(shù)據(jù)來(lái)計(jì)算出來(lái)的。

計(jì)算相似度的具體算法，大概有幾種：歐幾里得距離，皮爾遜相關(guān)系數(shù)，Cosine相似度，Tanimoto系數(shù)。具體的算法，有興趣的同學(xué)可以google.

用戶畫像

提到大數(shù)據(jù)，不能不說(shuō)用戶畫像。經(jīng)常看到有公司這樣宣傳：“掌握了千萬(wàn)用戶的行為數(shù)據(jù)，描繪出了極其有價(jià)值的用戶畫像，可以為每個(gè)app提供精準(zhǔn)的用戶數(shù)據(jù)，助力app推廣。” 這樣的營(yíng)銷廣告經(jīng)不起半點(diǎn)推敲。用戶對(duì)每個(gè)種類的app的行為都不同，得到的行為數(shù)據(jù)彼此之間差別很大，比如用戶在電商網(wǎng)站上的行為數(shù)據(jù)，對(duì)音樂(lè)類app基本沒(méi)有什么價(jià)值。推薦系統(tǒng)的難點(diǎn)，其中很大一部分就在于用戶畫像的積累過(guò)程極其艱難。簡(jiǎn)言之，就是用戶畫像與業(yè)務(wù)本身密切相關(guān)。

LR邏輯回歸

基于用戶偏好矩陣，發(fā)展出了很多機(jī)器學(xué)習(xí)算法，在這里再介紹一下LR的思想。具體的邏輯回歸，又分為線性和非線性的。其他的機(jī)器學(xué)習(xí)算法還有：K均值聚類算法，Canopy聚類算法，等等。有興趣的同學(xué)可以看看July的文章。鏈接在最后的閱讀原文。

LR邏輯回歸分為三個(gè)步驟：

提取特征值

通過(guò)用戶偏好矩陣，不斷擬合計(jì)算，得到每個(gè)特征值的權(quán)重

預(yù)測(cè)新用戶對(duì)物品的喜好程度

舉個(gè)栗子：

小明相親了上千次，我們收集了大量的行為數(shù)據(jù)，以下數(shù)據(jù)僅僅是冰山一角。

erp系統(tǒng)_安大教務(wù)系統(tǒng)_推薦系統(tǒng)原理介紹

通過(guò)大量的擬合計(jì)算得出，特征值“個(gè)性開(kāi)朗程度”的權(quán)重為30%，“顏值”的權(quán)重為70%。哎，對(duì)這個(gè)看臉的世界已經(jīng)絕望了，寫完這篇文章，就去訂前往韓國(guó)的機(jī)票吧。

然后，通過(guò)擬合出的權(quán)重，來(lái)預(yù)測(cè)小明對(duì)第一千零一次相親對(duì)象的喜愛(ài)程度。

erp系統(tǒng)_安大教務(wù)系統(tǒng)_推薦系統(tǒng)原理介紹

這就是LR邏輯回歸的原理。具體的數(shù)學(xué)算法，有興趣的同學(xué)可以google之。

如何利用推薦系統(tǒng)賺錢

還是以亞馬遜為例。小明是個(gè)籃球迷，每個(gè)月都會(huì)買好幾雙籃球鞋。通過(guò)幾個(gè)月的購(gòu)買記錄，亞馬遜已經(jīng)知道小明的偏好，準(zhǔn)備給小明推薦籃球鞋。但籃球鞋品牌這么多，推薦哪一個(gè)呢？笑著說(shuō)：哪個(gè)品牌給我錢多，就推薦哪個(gè)品牌。這就是最簡(jiǎn)單的流量生意了。這些都叫做：商業(yè)規(guī)則。

但在加入商業(yè)規(guī)則之前，需要讓用戶感知到推薦的準(zhǔn)確率。如果一開(kāi)始就強(qiáng)推某些置頂?shù)腣IP資源，會(huì)極大地?fù)p害用戶體驗(yàn)，讓用戶覺(jué)得推薦完全沒(méi)有準(zhǔn)確性。這樣的后果對(duì)于推薦系統(tǒng)的持續(xù)性發(fā)展是毀滅性的。

過(guò)濾規(guī)則

協(xié)同過(guò)濾只是單純地依賴用戶行為數(shù)據(jù)，在真正的推薦系統(tǒng)中，還需要考慮到很多業(yè)務(wù)方面的因素。以音樂(lè)類app為例。周杰倫出了一張新專輯A，大部分年輕人都會(huì)去點(diǎn)擊收聽(tīng)，這樣會(huì)導(dǎo)致其他每一張專輯相似專輯中都會(huì)出現(xiàn)專輯A。這個(gè)時(shí)候，再給用戶推薦這樣的熱門專輯就沒(méi)有意義了。所以，過(guò)濾掉熱門的物品，是推薦系統(tǒng)的常見(jiàn)做法之一。這樣的規(guī)則還有很多，視不同的業(yè)務(wù)場(chǎng)景而定。

推薦的多樣性

與推薦的準(zhǔn)確性有些相悖的，是推薦的多樣性。比如說(shuō)推薦音樂(lè)，如果完全按照用戶行為數(shù)據(jù)進(jìn)行推薦，就會(huì)使得推薦結(jié)果的候選集永遠(yuǎn)只在一個(gè)比較小的范圍內(nèi)：聽(tīng)小清新音樂(lè)的人，永遠(yuǎn)也不會(huì)被推薦搖滾樂(lè)。這是一個(gè)很復(fù)雜的問(wèn)題。在保證推薦結(jié)果準(zhǔn)確的前提下，按照一定的策略，去逐漸拓寬推薦結(jié)果的范圍，給予推薦結(jié)果一定的多樣性，這樣才不會(huì)膩嘛。

持續(xù)改進(jìn)

推薦系統(tǒng)具有高度復(fù)雜性，需要持續(xù)地進(jìn)行改進(jìn)�？赡茉谕粫r(shí)間內(nèi)，需要上線不同的推薦算法，做A/B test。根據(jù)用戶對(duì)推薦結(jié)果的行為數(shù)據(jù)，不斷對(duì)算法進(jìn)行優(yōu)化，改進(jìn)。要走的路還很長(zhǎng)：路漫漫其修遠(yuǎn)兮，吾將上下而求索。

本文章歡迎轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)注明微信公眾號(hào)和作者。微信公眾號(hào)：互聯(lián)網(wǎng)與作曲家. 作者：neil 版權(quán)所有，翻版必究！

erp系統(tǒng)_安大教務(wù)系統(tǒng)_推薦系統(tǒng)原理介紹

posted on

本文關(guān)鍵詞：推薦系統(tǒng)，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：79701

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/wenshubaike/jyzy/79701.html

上一篇：婁底市住房公積金查詢_深圳公積金管理中心_婁底住房公積金查詢
下一篇：整形大師胡勁松_湘潭胡勁松_胡勁松：不指望會(huì)接招不怕引火燒身

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

erp系統(tǒng)_安大教務(wù)系統(tǒng)_推薦系統(tǒng)原理介紹