大數(shù)據(jù)環(huán)境下基于k-means的混合推薦算法應(yīng)用研究
發(fā)布時(shí)間:2020-08-12 01:48
【摘要】:隨著大數(shù)據(jù)時(shí)代的到來,網(wǎng)上購(gòu)物逐漸深入到我們的衣、食、住、行方面,線下交易逐漸轉(zhuǎn)變成線上交易,我們足不出戶就可以解決日常生活所需,電子商務(wù)平臺(tái)的發(fā)展給我們的生活帶來了很大的便利。各大電子商務(wù)平臺(tái)每天存在大量的瀏覽、交易數(shù)據(jù),這些海量的信息隱藏著許多對(duì)用戶或者商家有價(jià)值的數(shù)據(jù),這些有價(jià)值的數(shù)據(jù)可以經(jīng)過轉(zhuǎn)化給用戶和商家提供更好的服務(wù)。大量的數(shù)據(jù)是從平臺(tái)的日志、數(shù)據(jù)庫(kù)或者爬蟲出來的數(shù)據(jù),是沒有經(jīng)過處理的,以人力從這些數(shù)據(jù)中獲取有價(jià)值的信息提高服務(wù)是無法實(shí)現(xiàn)的,需要一些科學(xué)的方法來支持完成,主要的推薦算法有基于內(nèi)容的推薦算法、協(xié)同過濾推薦算法和混合推薦算法等。本文針對(duì)這些主要的推薦方法進(jìn)行分析比較過后,發(fā)現(xiàn)由于用戶、商品數(shù)據(jù)量大但是評(píng)分?jǐn)?shù)據(jù)少,會(huì)導(dǎo)致評(píng)分矩陣稀疏問題,這樣一來會(huì)影響推薦算法的精確度。因此使用傳統(tǒng)的推薦算法不能給用戶帶來更好的服務(wù),也不能給商家創(chuàng)造更多的價(jià)值,需要更適合的算法來提高服務(wù)質(zhì)量。傳統(tǒng)的協(xié)同過濾算法主要思想是基于歷史數(shù)據(jù)產(chǎn)生用戶-項(xiàng)目評(píng)分矩陣找到與目標(biāo)用戶相似的用戶并對(duì)其進(jìn)行項(xiàng)目推薦,評(píng)分矩陣在電影、圖書、音樂等應(yīng)用領(lǐng)域可以看成是從數(shù)字1到5的直觀的評(píng)分?jǐn)?shù)據(jù)。但是在電子商務(wù)的環(huán)境下,用戶-項(xiàng)目的評(píng)分矩陣不是顯式的數(shù)字表現(xiàn)形式,而是基于用戶行為的隱式表現(xiàn)形式。針對(duì)電子商務(wù)領(lǐng)域,本文是基于用戶行為畫像提出的一種改進(jìn)的協(xié)同過濾算法,利用改進(jìn)的算法計(jì)算用戶之間的相似度。在本文中通過分析用戶的行為、商品的特征和用戶-商品的交互特征建立用戶行為的畫像模型,基于構(gòu)建的用戶畫像模型提出一種改進(jìn)的協(xié)同過濾算法,這個(gè)算法是把用戶的網(wǎng)絡(luò)購(gòu)物行為和基于時(shí)間的用戶網(wǎng)絡(luò)購(gòu)物行為頻率混合起來計(jì)算用戶之間的相似度,再與k-means聚類算法融合,根據(jù)融合算法完成用戶的項(xiàng)目推薦。最后通過計(jì)算算法的準(zhǔn)確率、召回率和F1值進(jìn)行算法驗(yàn)證性實(shí)驗(yàn),最終結(jié)果表明算法相較于經(jīng)典的協(xié)同過濾算法的準(zhǔn)確率有了大幅度的提高,證明了本文所提算法的有效可行性。
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.3
【圖文】:
圖1.1邐2012-2017上半年中國(guó)電子商務(wù)市場(chǎng)交易規(guī)模逡逑在巨大的交易量中,包含了人們的衣、食、住、行的各個(gè)方面。人們的生活逡逑越來越與互聯(lián)網(wǎng)密不可分的同時(shí),也會(huì)被互聯(lián)網(wǎng)過量雜亂的信息所干擾,從海量逡逑的數(shù)據(jù)中找到自己需要的信息往往會(huì)耗費(fèi)網(wǎng)絡(luò)用戶大量的時(shí)間,F(xiàn)在大多的互聯(lián)逡逑
18邐end邋for逡逑19邐return邋centeroids,clusterAssment;//輸出最終聚類中心和矩陣逡逑k-means聚類算法示例圖如圖4.2所示,通過聚類算法把數(shù)據(jù)分為3類即聚逡逑類中心個(gè)數(shù)K值為3
逑5.4算法流程總結(jié)逡逑算法流程如圖5.邋2所示,通過對(duì)原始數(shù)據(jù)的預(yù)處理,再進(jìn)行用戶、商品、交逡逑互行為的特征提取,得出訓(xùn)練數(shù)據(jù)集合和測(cè)試數(shù)據(jù)集合,根據(jù)訓(xùn)練數(shù)據(jù)集合的數(shù)逡逑據(jù)進(jìn)行用戶聚類,利用聚類結(jié)果對(duì)每一類進(jìn)行協(xié)調(diào)過濾算法計(jì)算相似用戶,得出逡逑預(yù)測(cè)結(jié)果,并在測(cè)試數(shù)據(jù)集合上測(cè)試預(yù)測(cè)結(jié)果的精準(zhǔn)度。逡逑訓(xùn)練集數(shù)據(jù)逡逑邐^邐逡逑用戶聚類逡逑邐^邐逡逑協(xié)同過濾預(yù)測(cè)逡逑-邐i逡逑邐^邐逡逑評(píng)估預(yù)測(cè)結(jié)果逡逑圖5.邋2算法總流程圖逡逑本論文的實(shí)驗(yàn)的硬件環(huán)境是:Intel邋(R)邋Core邋(TM)邋i5-6300HQCPU@2.3GHz,逡逑內(nèi)存4G;軟件環(huán)境是Windowsl0/64位操作系統(tǒng),^u發(fā)語言是Python編程語言。逡逑5.5實(shí)驗(yàn)結(jié)果與分析逡逑經(jīng)過上述實(shí)驗(yàn)過程,得到推薦預(yù)測(cè)結(jié)果,如下表所示,TOP-N結(jié)果選取前五逡逑個(gè)預(yù)測(cè)結(jié)果進(jìn)行推薦。逡逑表5.3邋T0P-N結(jié)果推薦表逡逑User_id邐Iteml邐Item2邐Item3邐Item4
本文編號(hào):2789867
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.3
【圖文】:
圖1.1邐2012-2017上半年中國(guó)電子商務(wù)市場(chǎng)交易規(guī)模逡逑在巨大的交易量中,包含了人們的衣、食、住、行的各個(gè)方面。人們的生活逡逑越來越與互聯(lián)網(wǎng)密不可分的同時(shí),也會(huì)被互聯(lián)網(wǎng)過量雜亂的信息所干擾,從海量逡逑的數(shù)據(jù)中找到自己需要的信息往往會(huì)耗費(fèi)網(wǎng)絡(luò)用戶大量的時(shí)間,F(xiàn)在大多的互聯(lián)逡逑
18邐end邋for逡逑19邐return邋centeroids,clusterAssment;//輸出最終聚類中心和矩陣逡逑k-means聚類算法示例圖如圖4.2所示,通過聚類算法把數(shù)據(jù)分為3類即聚逡逑類中心個(gè)數(shù)K值為3
逑5.4算法流程總結(jié)逡逑算法流程如圖5.邋2所示,通過對(duì)原始數(shù)據(jù)的預(yù)處理,再進(jìn)行用戶、商品、交逡逑互行為的特征提取,得出訓(xùn)練數(shù)據(jù)集合和測(cè)試數(shù)據(jù)集合,根據(jù)訓(xùn)練數(shù)據(jù)集合的數(shù)逡逑據(jù)進(jìn)行用戶聚類,利用聚類結(jié)果對(duì)每一類進(jìn)行協(xié)調(diào)過濾算法計(jì)算相似用戶,得出逡逑預(yù)測(cè)結(jié)果,并在測(cè)試數(shù)據(jù)集合上測(cè)試預(yù)測(cè)結(jié)果的精準(zhǔn)度。逡逑訓(xùn)練集數(shù)據(jù)逡逑邐^邐逡逑用戶聚類逡逑邐^邐逡逑協(xié)同過濾預(yù)測(cè)逡逑-邐i逡逑邐^邐逡逑評(píng)估預(yù)測(cè)結(jié)果逡逑圖5.邋2算法總流程圖逡逑本論文的實(shí)驗(yàn)的硬件環(huán)境是:Intel邋(R)邋Core邋(TM)邋i5-6300HQCPU@2.3GHz,逡逑內(nèi)存4G;軟件環(huán)境是Windowsl0/64位操作系統(tǒng),^u發(fā)語言是Python編程語言。逡逑5.5實(shí)驗(yàn)結(jié)果與分析逡逑經(jīng)過上述實(shí)驗(yàn)過程,得到推薦預(yù)測(cè)結(jié)果,如下表所示,TOP-N結(jié)果選取前五逡逑個(gè)預(yù)測(cè)結(jié)果進(jìn)行推薦。逡逑表5.3邋T0P-N結(jié)果推薦表逡逑User_id邐Iteml邐Item2邐Item3邐Item4
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 聶林海;;我國(guó)電子商務(wù)發(fā)展的特點(diǎn)和趨勢(shì)[J];中國(guó)流通經(jīng)濟(jì);2014年06期
2 陳志敏;李志強(qiáng);;基于用戶特征和項(xiàng)目屬性的協(xié)同過濾推薦算法[J];計(jì)算機(jī)應(yīng)用;2011年07期
相關(guān)博士學(xué)位論文 前1條
1 余永紅;融合多源信息的推薦算法研究[D];南京大學(xué);2017年
本文編號(hào):2789867
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/2789867.html
最近更新
教材專著