面向推薦系統(tǒng)的關(guān)鍵問題研究及應(yīng)用
發(fā)布時間:2018-01-29 02:07
本文關(guān)鍵詞: 推薦系統(tǒng) 協(xié)同過濾 用戶相似度模型 時間回溯模型 全局優(yōu)化算法 用戶屬性預(yù)測模型 演化博弈 出處:《中國科學(xué)技術(shù)大學(xué)》2014年博士論文 論文類型:學(xué)位論文
【摘要】:隨著互聯(lián)網(wǎng)近年來在國內(nèi)外爆炸式的發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)、信息以前所未有的速度瘋狂增長。因此怎樣從海量數(shù)據(jù)中發(fā)現(xiàn)自己希望尋找的內(nèi)容已經(jīng)成為越來越多的用戶面臨的一大難題,也成為大量專家學(xué)者研究的熱門課題。 用戶從互聯(lián)網(wǎng)上發(fā)現(xiàn)并獲取數(shù)據(jù)信息,一般看來經(jīng)歷了三個階段:1,最初始是各類門戶網(wǎng)站的建立,如sina、sohu、yahoo等,他們幫助用戶梳理、組織各類常用的熱門的資源、信息,供用戶發(fā)現(xiàn)、瀏覽。但一方面梳理整合的信息畢竟是有限的,用戶的需求不一定包含其中;另一方面隨著數(shù)據(jù)的爆炸式增長,太多的數(shù)據(jù)會使得門戶網(wǎng)站變得雜亂臃腫,因此這些網(wǎng)站也只能選擇相對重要的信息檢索。2,然后是搜索引擎的出現(xiàn),如google,baidu等,用戶能通過搜索引擎檢索自己希望獲取的內(nèi)容;然而檢索結(jié)果的準(zhǔn)確性極依賴于用戶對問題的描述,同時一般用戶的描述通常是不夠準(zhǔn)確的,這會直接導(dǎo)致檢索結(jié)果出現(xiàn)偏差,用戶很難完全準(zhǔn)確的找到自己所需的結(jié)果。3,最近則是推薦系統(tǒng)的產(chǎn)生,用戶不再需要主動搜索,而系統(tǒng)會智能的通過用戶的屬性信息,用戶的歷史記錄,為用戶推薦用戶可能會需要的信息,如taobao、netflix等會智能的為用戶推薦商品、電影,這在用戶需求不夠明確時,能為用戶精簡信息。值得注意的是以上三個階段不是一個進化的過程,而是一個相互補充,互相協(xié)作的關(guān)系。 由于推薦系統(tǒng)能很好的解決互聯(lián)網(wǎng)“信息過載”的問題,因此廣受用戶歡迎,也因此被越來越多的網(wǎng)站、公司使用,而與之相應(yīng)的推薦算法也越來越受到學(xué)術(shù)界的重視,成為一個重要的研究領(lǐng)域。然而面對不同種類的數(shù)據(jù)與越來越復(fù)雜的應(yīng)用場景,推薦系統(tǒng)會面臨不同的問題,如冷啟動問題和可擴展性等常規(guī)問題;又如應(yīng)用場景的區(qū)別、數(shù)據(jù)分布的不一致會使得同樣的算法在不同場景、數(shù)據(jù)上得到的結(jié)果相差很遠(yuǎn);同時存在的是某些推薦算法問題的求解困難等新問題。針對以上推薦系統(tǒng)中存在的問題,本文深入研究推薦系統(tǒng),做了以下幾點研究工作: (1)基于非參數(shù)統(tǒng)計的相似度模型研究。 協(xié)同過濾算法是推薦系統(tǒng)最基本也是最主流的算法,被成功的運用于大量商業(yè)模型中,取得了很好的效果。該算法主要由兩步組成,其中相似度的計算是第一步也是最為關(guān)鍵的一步。然而1,不同應(yīng)用場景的數(shù)據(jù)會有各自的特點,具有明顯的差異性、分布明顯不同,使用同樣的相似度度量模型是不夠準(zhǔn)確的;2,傳統(tǒng)的歐氏距離、皮爾遜相關(guān)度、余弦相似度等都有各自的局限性,已經(jīng)不能直接應(yīng)用于越來越復(fù)雜的場景:3,對于稀疏的數(shù)據(jù),算出的相似度置信概率極低,直接用于推薦會降低推薦精度;谝陨显,本文提出了一種基于非參數(shù)統(tǒng)計的相似度模型,基于非參數(shù)統(tǒng)計的思想,該模型能將不同場景的數(shù)據(jù)映射到統(tǒng)一的空間,去除不同數(shù)據(jù)間的差異,將其統(tǒng)一到相同的標(biāo)準(zhǔn)。同時由于投影后的空間具有良好的線性性,相似度度量能很好的使用線性相似度方式計算,解決上述幾點問題,提高推薦精度。 (2)基于時間回溯的特征預(yù)測模型研究。 數(shù)據(jù)量的不足往往是各種機器學(xué)習(xí)模型面臨的最大問題之一,大量的研究表明,數(shù)據(jù)對于模型結(jié)果的重要性遠(yuǎn)遠(yuǎn)大于算法對于模型的重要性。在推薦系統(tǒng)中,用戶的歷史行為是最主要的模型數(shù)據(jù)來源。傳統(tǒng)的推薦系統(tǒng)可以根據(jù)用戶的歷史行為預(yù)測他們的屬性(如愛好、年齡、性別等),也可以直接通過歷史行為找到類似的用戶進而進行推薦。然而一直以來的研究中,對用戶歷史行為的使用都是樸素、簡單的,并沒有注重歷史行為的時間維度。本文提出了一種基于時間回溯的特征預(yù)測模型,使歷史數(shù)據(jù)的利用率大大增大,從某種意義上數(shù)倍的豐富了數(shù)據(jù)量,提高預(yù)測精度。并且,本文在taobao的真實數(shù)據(jù)上使用該方法預(yù)測用戶孩子的年齡,結(jié)果表明預(yù)測精度大大高于傳統(tǒng)方法。 (3)基于演化博弈的全局優(yōu)化算法研究。 大量的推薦算法問題,甚至數(shù)據(jù)挖掘問題,在模型的求解過程中,都會規(guī)約到求解全局優(yōu)化問題。因此求解全局優(yōu)化問題是推薦系統(tǒng)中的一個重點問題,也是難點問題。目前,常用的算法,如梯度下降法、隨機梯度下降法或者牛頓法,只適合求解凸函數(shù)最優(yōu)化(凸優(yōu)化)問題。而本文提出的基于演化博弈的全局優(yōu)化算法嘗試求解連續(xù)域上的全局優(yōu)化問題,剔除掉凸函數(shù)這一強限制條件。同時在求解的過程中,基于演化博弈,本文提出了一種自適應(yīng)的參數(shù)調(diào)整方案,能極大的提高算法的準(zhǔn)確性,并一定程度減少算法的收斂時間。
[Abstract]:闅忕潃浜掕仈緗戣繎騫存潵鍦ㄥ浗鍐呭鐖嗙偢寮忕殑鍙戝睍,浜掕仈緗戜笂鐨勬暟鎹,
本文編號:1472204
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1472204.html
最近更新
教材專著