社會(huì)網(wǎng)絡(luò)中的推薦算法的研究
第 1 章 緒 論
1.1 論文研究的背景
因特網(wǎng)(Internet)的廣泛使用給人們工作和生活帶來了巨大的便利,它讓信息真正的流動(dòng)起來,讓人們更方便的獲得信息,進(jìn)行信息的交流。與此同時(shí),信息技術(shù)的高速發(fā)展帶來了信息量的爆發(fā)式增長,人們又陷入了另一種煩惱——信息過載和資源迷失,即人們雖然不缺少信息來源和信息量,但是越來越難以簡單的獲得有效的信息,直接選擇信息變得非常困難。人們獲得傳統(tǒng)解決此類問題的方法是使用搜索引擎過濾數(shù)據(jù)。搜索引擎指自動(dòng)從其他網(wǎng)站提取信息,建立數(shù)據(jù)庫,用戶通過輸入關(guān)鍵字進(jìn)行檢索,搜索引擎返回結(jié)果并對(duì)結(jié)果進(jìn)行排序。到了 web 2.0 時(shí)代,論壇、博客開始興起,人們?cè)诨ヂ?lián)網(wǎng)上,不再僅僅瀏覽信息,同時(shí)開始生產(chǎn)內(nèi)容,可以讓其他人進(jìn)行瀏覽,這被稱為UGC(User-generated Content),即內(nèi)容由用戶產(chǎn)生,而不是平臺(tái)產(chǎn)生,比如說博客等,國內(nèi)短視頻類如小咖秀、秒拍等也是其中的代表,同時(shí)因?yàn)楫a(chǎn)生這些內(nèi)容的用戶間的差別,這部分內(nèi)容又被劃分出 PGC(Professionally-generated Content),即內(nèi)容由專家產(chǎn)生,這些內(nèi)容相對(duì)信息質(zhì)量較高,大家對(duì)于這部分關(guān)注度會(huì)比較高。在這一階段,互聯(lián)網(wǎng)的信息量又一次的進(jìn)行飛躍,傳統(tǒng)搜索引擎已經(jīng)不能滿足購物、社交等新生需求。這時(shí)候,推薦系統(tǒng)就成為了一種有效的、簡單的過濾信息方式,系統(tǒng)將消息給用戶,而減少用戶自己篩選信息的過程。在過去的幾十年中,在學(xué)術(shù)上和實(shí)際應(yīng)用中,都有了很大的進(jìn)步,各類電商平臺(tái),如 Amazon、淘寶、京東等,利用推薦系統(tǒng)提升銷量;各類社交平臺(tái),如 Facebook、Twitter、微博等,利用推薦系統(tǒng)為用戶推薦好友,展示廣告。商業(yè)上的成功應(yīng)用同樣帶動(dòng)了大家的研究熱情,使得對(duì)推薦系統(tǒng)的研究始終處于一個(gè)較高的熱度。 在 2015 年第十二屆全國人大,李克強(qiáng)總理提出“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃,“推動(dòng)移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等與現(xiàn)代制造業(yè)結(jié)合,促進(jìn)電子商務(wù)、工業(yè)互聯(lián)網(wǎng)和互聯(lián)網(wǎng)金融健康發(fā)展,引導(dǎo)互聯(lián)網(wǎng)企業(yè)拓展國際市場。”同年的世界互聯(lián)網(wǎng)大會(huì)上,百度公司董事長兼首席執(zhí)行官李彥宏提出 “百度要連接 3600 行”。在大數(shù)據(jù)、互聯(lián)網(wǎng)+的背景下,中國各個(gè)行業(yè)處于前所未有的互聯(lián)網(wǎng)化的時(shí)代,所有行業(yè)從未如此容易的收集用戶數(shù)據(jù),行業(yè)和行業(yè)通過互聯(lián)網(wǎng)形成一個(gè)個(gè)大生態(tài)、小生態(tài)。
.........
1.2 推薦系統(tǒng)研究現(xiàn)狀
在搜索引擎時(shí)代,人們通過搜索引擎在網(wǎng)上檢索信息,這種信息過濾方式大大方便人們?cè)诰W(wǎng)絡(luò)上瀏覽信息,但與此同時(shí)搜索引擎也有他的局限性,具體有(1)搜索引擎智能被動(dòng)接受用戶的查詢,通過查詢關(guān)鍵字進(jìn)行檢索,每一次的檢索結(jié)果是相同的,用戶不一定會(huì)喜歡最先得到的那幾個(gè)結(jié)果;(2)有上一點(diǎn)帶來的另一個(gè)缺點(diǎn)就是缺乏個(gè)性化,在一個(gè)提倡釋放個(gè)性的時(shí)代,在號(hào)稱最自由的互聯(lián)網(wǎng)中,一個(gè)沒有個(gè)性的結(jié)果不會(huì)令人一直喜愛的;(3)用戶輸入的關(guān)鍵字有時(shí)候不能完整的描述用戶的意圖甚至產(chǎn)生歧義,導(dǎo)致搜索引擎的結(jié)果不那么準(zhǔn)確,甚至產(chǎn)生錯(cuò)誤,圖 1.2 就是非常典型的情況。推薦系統(tǒng)由此走到人們面前,它改變了搜索引擎被動(dòng)的模式,由搜索引擎時(shí)代用戶主動(dòng)輸入關(guān)鍵字從服務(wù)器拉信息,到推薦系統(tǒng)由系統(tǒng)向用戶推信息,這一推一拉之間的改變,使互聯(lián)網(wǎng)服務(wù)變得生動(dòng)起來。近年來,推薦系統(tǒng)迅速發(fā)展并投入實(shí)用,從國外Amazon 的商品推薦、Netflix 的電影推薦,到國內(nèi)的京東推薦商品、豆瓣 FM 的音樂推薦。國內(nèi)外的推薦系統(tǒng)為各自公司帶來了巨大的利潤,提高了營業(yè)額,同時(shí)也為用戶帶了更加便捷、舒適的體驗(yàn)。看到了推薦系統(tǒng)強(qiáng)大的服務(wù)潛力,從上世紀(jì)九十年代開始,推薦系統(tǒng)就已成為商業(yè)公司和學(xué)者眾多研究熱點(diǎn)之一。協(xié)同過濾是推薦系統(tǒng)中使用最為廣泛的方法之一,這種方法集合了社會(huì)網(wǎng)絡(luò)中的力量,參考了社會(huì)學(xué)、心理學(xué)等人文學(xué)科知識(shí),結(jié)合數(shù)學(xué)、計(jì)算機(jī)的技術(shù),進(jìn)行數(shù)據(jù)過濾。在國外有 IBM、微軟、Facebook 等公司建立研究院,在學(xué)術(shù)界,重要的學(xué)術(shù)會(huì)議和期刊如 SIGIR、TKDE 等,每一年都有大量的學(xué)者研究推薦系統(tǒng),發(fā)表了大量的文章。在每一年,Amazon、百度、Facebook 會(huì)分享部分真實(shí)數(shù)據(jù),以比賽的形式供大家研究學(xué)習(xí),以獎(jiǎng)金的方式刺激大家投入精力。
..........
第 2 章 本文涉及的相關(guān)知識(shí)
前一章節(jié)已經(jīng)講過,推薦系統(tǒng)目前已是解決 web 2.0 時(shí)代信息過載問題的重要手段之一,隨著移動(dòng)互聯(lián)網(wǎng)近年來迅猛發(fā)展,推薦系統(tǒng)在商業(yè)上被普遍應(yīng)用,從社交軟件推薦朋友,到外賣網(wǎng)站推薦店面、電商網(wǎng)站推薦商品,推薦系統(tǒng)正無時(shí)無刻不在幫助我們的生活。簡單來說,推薦系統(tǒng)就是預(yù)測(cè)一個(gè)特定的用戶是否會(huì)喜歡特定的對(duì)象,并將其推薦給用戶;或者將一組對(duì)象進(jìn)行排序,以一個(gè)用戶希望的順序推薦給一個(gè)用戶。想推薦對(duì)象給特定的用戶,就要知道該用戶相關(guān)信息,在推薦系統(tǒng)中這些信息被稱為偏好信息,在問答型社區(qū)這些信息表現(xiàn)為用戶的年齡、性別、閱讀歷史、關(guān)注的用戶、興趣標(biāo)簽等信息。本章介紹推薦系統(tǒng)常用的幾種方法,通過理論闡述的方式理解各種方式的主要使用環(huán)境,以配合本文使用相應(yīng)的方法。
2.1 基于內(nèi)容的推薦
基于內(nèi)容的推薦系統(tǒng)(Content-Based Recommenders)會(huì)在對(duì)象中提取相應(yīng)的內(nèi)容特征,根據(jù)這些特征決定是否向特定用戶推薦該對(duì)象。例如,在論文推薦系統(tǒng)中,基于內(nèi)容的推薦系統(tǒng)要分析文本信息提煉有效信息(關(guān)鍵字),對(duì)用戶進(jìn)行推薦;在音樂推薦中,使用基于內(nèi)容推薦系統(tǒng)會(huì)提取使用音樂的數(shù)據(jù),如標(biāo)題、類型、或作詞人作曲人等信息;趦(nèi)容的方法被廣泛用于信息檢索和信息過濾等領(lǐng)域。在基于內(nèi)容的推薦中,系統(tǒng)根據(jù)從推薦對(duì)象提取的信息和用戶畫像(User Profile)進(jìn)行推薦。用戶畫像包含用戶的偏好信息,通過這些信息和對(duì)象提取的信息進(jìn)行匹配。信息檢索技術(shù)(Information Retrieval,IR)和機(jī)器學(xué)習(xí)比較適合解決基于內(nèi)容推薦的問題。
.........
2.2 協(xié)同過濾
協(xié)同過濾(Collaborative filtering ,CF)在構(gòu)建推薦系統(tǒng)時(shí)經(jīng)常被使用,和基于內(nèi)容的方法不同,協(xié)同過濾不會(huì)對(duì)將要推薦的對(duì)象進(jìn)行分析提取信息,而是通過用戶對(duì)于該對(duì)象的評(píng)價(jià)來進(jìn)行推薦[2]。在基于協(xié)同過濾的推薦系統(tǒng)中,推薦是基于三個(gè)因素:(1)用戶之前的行為;(2)用戶間的社交關(guān)系;(3)其他用戶對(duì)該對(duì)象的評(píng)價(jià)?梢哉f協(xié)同過濾是根據(jù)口碑進(jìn)行篩選的,就如同現(xiàn)實(shí)社會(huì)一樣,一個(gè)用戶會(huì)受到其他人或團(tuán)體的影響喜歡或不喜歡某個(gè)事或人,同樣的事情在網(wǎng)絡(luò)世界同樣會(huì)發(fā)生。群體對(duì)項(xiàng)目的評(píng)價(jià)通過矩陣實(shí)現(xiàn),首先用戶要對(duì)對(duì)象進(jìn)行評(píng)價(jià),這個(gè)評(píng)價(jià)可以是顯式的也可以是隱式的,但是應(yīng)該以數(shù)值的形式存在,而不是文本評(píng)價(jià),例如對(duì)電影的評(píng)級(jí)通常使用星級(jí),從 1 星到5 星,1 星意味著非常不喜歡該電影而 5 星則代表非常喜歡;而隱式評(píng)級(jí)是電影的購買記錄,瀏覽該電影片花,評(píng)價(jià)信息等等[3]。
............
第 3 章 推薦系統(tǒng)建模 ....... 17
3.1 數(shù)據(jù)來源和數(shù)據(jù)描述 ........... 17
3.2 問題建模 ........... 19
3.3 答案建模 .......... 20
3.4 用戶模型 ........... 21
3.5 話題信息模型 ....... 23
3.6 整體模型 .......... 24
第 4 章 推薦系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn) ......... 26
4.1 適用于問答社區(qū)的協(xié)同過濾 .... 26
4.2 發(fā)現(xiàn)明星 .......... 29
4.3 關(guān)注關(guān)系 .......... 33
4.4 答案推薦 .......... 33
4.5 問題推薦 ........... 36
4.6 推薦冷啟動(dòng) ......... 37
4.6.1 熱門推薦 ..... 38
4.6.2 精華推薦 ..... 40
4.7 小結(jié) ............. 41
第 5 章 總結(jié)與展望 ......... 42
5.1 總結(jié) .... 42
5.2 展望 .... 42
第 4 章 推薦系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)
本文要設(shè)計(jì)一個(gè)問答型社區(qū)的推薦系統(tǒng),在第 2 章介紹了推薦系統(tǒng)常用的算法和相關(guān)理論,在第 3 章討論了用戶、問題和答案的模型建立,在本章將根據(jù)前文的相關(guān)理論和建立模型來實(shí)現(xiàn)推薦。在問答社區(qū)中,推薦對(duì)象是問題和答案,所以在推薦系統(tǒng)中分為兩個(gè)部分:(1)問題推薦;(2)答案推薦。
4.1 適用于問答社區(qū)的協(xié)同過濾
協(xié)同過濾中有多種算法,在本小節(jié)將協(xié)同過濾進(jìn)行改造,使之適用于問答系統(tǒng)。在問答型社區(qū)中,包含有大量的標(biāo)簽,在作者作為模板的知乎社區(qū),有超過四十萬的話題(包含重復(fù)的),問題數(shù)量遠(yuǎn)超話題數(shù)量,所以說對(duì)于某一問題的關(guān)注者來講,user-item矩陣會(huì)極其稀疏,本文在協(xié)同過濾階段主要使用 user-topic 關(guān)注矩陣來減少稀疏性問題,user-question(user-item)關(guān)注矩陣同樣會(huì)被建立,用于輔助 user-topic 矩陣。 系統(tǒng)使用預(yù)計(jì)算的模式,即在用戶使用前進(jìn)行計(jì)算,生成一個(gè) top-N 推薦表,根據(jù)本文建模結(jié)構(gòu)計(jì)算每個(gè) user 對(duì) question 的關(guān)注,生成 user-question 矩陣,user-question關(guān)注矩陣如表 4.1 所根據(jù)作者的實(shí)驗(yàn)數(shù)據(jù)觀察,用戶通常關(guān)注的話題領(lǐng)域不會(huì)特別多,會(huì)集中在幾個(gè)領(lǐng)域內(nèi),原因在于,每個(gè)用戶的注意力有限,在話題層面一般上會(huì)產(chǎn)生關(guān)注梯度比較明顯情況,如果關(guān)注的話題屬性過于分散,實(shí)際上令用戶失去特征,所以選取 5 個(gè)關(guān)注最高的話題進(jìn)行計(jì)算,減少計(jì)算量并增加用戶個(gè)性,所以建立起矩陣后,根據(jù)用戶 u 的topic_interest 值選擇關(guān)注度最高的 5 個(gè)話題,計(jì)算用戶間的相似度,減少計(jì)算量并增加用戶個(gè)性,計(jì)算相似度的用戶集 U 選擇這 5 個(gè)話題下有關(guān)注度的所有用戶。在此需要說明的是,本文選擇計(jì)算用戶間相似度,而不是項(xiàng)目間的相似度,原因在于問題的數(shù)量相對(duì)于問題變動(dòng)比用戶變動(dòng)更加明顯,用戶間相似度計(jì)算方法參照公式(2.1),選取用戶u 相似度最高的 5 個(gè)最近鄰居,構(gòu)成為 neighbors 表,在數(shù)據(jù)庫中也保存一張 neighbors表,用于保存用戶鄰居。
總結(jié)
在 web 2.0 時(shí)代,數(shù)據(jù)量的飛速增長讓信息過濾變得前所未有的重要,原有的搜索引擎已經(jīng)難以滿足用戶瀏覽數(shù)據(jù)的要求,同時(shí)機(jī)器學(xué)習(xí),人工智能領(lǐng)域在應(yīng)用方面正逐漸走向成熟,互聯(lián)網(wǎng)技術(shù)正在變得越來越主動(dòng),而不是原來被動(dòng)的等待用戶的使用,推薦系統(tǒng)作為網(wǎng)絡(luò)主動(dòng)與用戶進(jìn)行交互的方式也越來越受到重視。精準(zhǔn)的推薦就代表更好的用戶體驗(yàn),同樣也代表了龐大的利益,搜索引擎時(shí)代 Google 利于其精準(zhǔn)的搜索技術(shù)進(jìn)行廣告投放帶來了巨大的廣告收益,今日頭條則通過推薦系統(tǒng)為其帶來了前所未有的成功。今日頭條通過微信和微博賬號(hào)登錄的方式獲得用戶在社會(huì)網(wǎng)絡(luò)的相關(guān)信息進(jìn)行推薦,可見在社會(huì)網(wǎng)絡(luò)中的推薦也可應(yīng)用到其他領(lǐng)域。同時(shí)在大數(shù)據(jù),互聯(lián)網(wǎng)+的背景下,用戶在各個(gè)領(lǐng)域的數(shù)據(jù)正通過社會(huì)網(wǎng)絡(luò)進(jìn)行連接,所以社會(huì)網(wǎng)絡(luò)中的推薦正變得非常有前景。 首先本文介紹了推薦系統(tǒng)這種解決信息過濾手段的研究背景和研究意義,以及國內(nèi)外的現(xiàn)狀,通過對(duì)于問答社區(qū)這種社交網(wǎng)絡(luò)的分析,以一個(gè)具有更高維度信息的眼光看待問答社區(qū)。其次介紹現(xiàn)有的推薦算法的基本原理,以推薦系統(tǒng)的角度,對(duì)其進(jìn)行對(duì)比,,介紹社區(qū)中明星發(fā)現(xiàn)的原理,為后文的系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)充實(shí)了理論基礎(chǔ)。最后,通過對(duì)于問答社區(qū)的分析和對(duì)推薦算法的理解,對(duì)問答社區(qū)進(jìn)行建模,并最終實(shí)現(xiàn)了推薦系統(tǒng),該推薦系統(tǒng)可對(duì)基于用戶的歷史數(shù)據(jù)進(jìn)行協(xié)同推薦,可以發(fā)現(xiàn)明星,通過明星發(fā)現(xiàn)和基于內(nèi)容的推薦進(jìn)行答案推薦,通過動(dòng)態(tài)和精華問題的方法解決推薦冷啟動(dòng)的問題,并實(shí)現(xiàn)了答案的動(dòng)態(tài)推薦。
.........
參考文獻(xiàn)(略)
本文編號(hào):86161
本文鏈接:http://sikaile.net/wenshubaike/lwfw/86161.html