天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于電商用戶消費(fèi)行為數(shù)據(jù)的聚類分析

發(fā)布時(shí)間:2018-05-18 09:18

  本文選題:數(shù)據(jù)挖掘 + 聚類分析 ; 參考:《蘭州大學(xué)》2017年碩士論文


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,依托于互聯(lián)網(wǎng)的各種產(chǎn)品給我們的生活帶來(lái)無(wú)限的便利,但隨之而來(lái)的是信息的爆炸,每天有大量的用戶行為數(shù)據(jù)被收集。面對(duì)著這些海量的數(shù)據(jù),有效的數(shù)據(jù)挖掘的工作一方面可以幫助企業(yè)深層次的挖掘未知的信息,找到企業(yè)新的創(chuàng)收點(diǎn),另一方面,可以基于用戶歷史消費(fèi)行為數(shù)據(jù)進(jìn)行個(gè)性化服務(wù),從而增加客戶粘度。本文基于為電商增加用戶粘度的考慮,利用用戶消費(fèi)行為的歷史數(shù)據(jù)進(jìn)行聚類分析,然后在屬于同一群體內(nèi)的消費(fèi)者進(jìn)行分析,挖掘其消費(fèi)行為的規(guī)律,從而達(dá)到個(gè)性化服務(wù)的作用。一般情況下,在對(duì)人群進(jìn)行劃分的時(shí)候采用聚類算法,這其中K-means聚類算法由于其算法邏輯簡(jiǎn)單,結(jié)果便于解釋被廣泛的使用。K-means聚類算法通過(guò)比較用戶距離不同類心的距離,將用戶劃入不同的類簇,其中,在計(jì)算樣本相似度時(shí),一般采用的是歐氏距離,歐氏距離沒(méi)有將樣本特征的重要性加以區(qū)分,沒(méi)有考慮樣本特征間的差異,這就導(dǎo)致在聚類時(shí)信息表達(dá)不夠準(zhǔn)確。為了改進(jìn)K-means算法中的不足,本文利用信息論中熵的概念,對(duì)用戶的特征向量進(jìn)行權(quán)值的修改,達(dá)到充分描述用戶消費(fèi)行為的作用,此外,還采用了PSO算法優(yōu)化初始類心的選取。最后,改進(jìn)后的聚類算法結(jié)果表明在該場(chǎng)景下可以顯著地提高聚類算法的性能,用戶的聚類效果更加顯著。
[Abstract]:With the rapid development of Internet technology, a variety of products relying on the Internet bring us unlimited convenience in our lives, but with the explosion of information, a large number of user behavior data are collected every day. In the face of these huge amounts of data, effective data mining can help enterprises to mine unknown information and find new income points on the one hand, on the other hand, Personalized services can be provided based on historical consumer behavior data, thereby increasing customer viscosity. Based on the consideration of increasing user viscosity for e-commerce, this paper uses the historical data of consumer behavior to cluster analysis, and then analyzes the consumers belonging to the same group, and excavates the rules of consumer behavior. In order to achieve the role of personalized services. In general, the clustering algorithm is used when dividing the crowd, in which the K-means clustering algorithm is easy to explain by comparing the distance between the user and different centers because of the simple logic of the algorithm, and the result is convenient to explain the widely used .K-means clustering algorithm by comparing the distance between the user and the center of the cluster. Users are grouped into different clusters, in which Euclidean distance is generally used in calculating sample similarity. Euclidean distance does not distinguish the importance of sample features and does not consider the differences between sample features. This leads to inaccurate information expression in clustering. In order to improve the deficiency of K-means algorithm, this paper uses the concept of entropy in information theory to modify the weight of the user's eigenvector to fully describe the user's consumption behavior. In addition, the PSO algorithm is used to optimize the selection of the initial class center. Finally, the improved clustering algorithm results show that the performance of the clustering algorithm can be significantly improved in this scenario, and the clustering effect of users is more significant.
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP311.13;F713.55

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 殷瑞剛;魏帥;李晗;于洪;;深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)方法綜述[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2016年08期

2 莊池杰;張斌;胡軍;李秋碩;曾嶸;;基于無(wú)監(jiān)督學(xué)習(xí)的電力用戶異常用電模式檢測(cè)[J];中國(guó)電機(jī)工程學(xué)報(bào);2016年02期

3 李濤;曾春秋;周武柏;周綺鳳;鄭理;;大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘——從應(yīng)用的角度看大數(shù)據(jù)挖掘[J];大數(shù)據(jù);2015年04期

4 賈真;何大可;尹紅風(fēng);李天瑞;;基于無(wú)監(jiān)督學(xué)習(xí)的部分-整體關(guān)系獲取[J];西南交通大學(xué)學(xué)報(bào);2014年04期

5 何清;李寧;羅文娟;史忠植;;大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J];模式識(shí)別與人工智能;2014年04期

6 吉根林;趙斌;;面向大數(shù)據(jù)的時(shí)空數(shù)據(jù)挖掘綜述[J];南京師大學(xué)報(bào)(自然科學(xué)版);2014年01期

7 王夢(mèng)雪;;數(shù)據(jù)挖掘綜述[J];軟件導(dǎo)刊;2013年10期

8 劉濱;;分布式數(shù)據(jù)挖掘綜述[J];河北科技大學(xué)學(xué)報(bào);2014年01期

9 賀瑤;王文慶;薛飛;;基于云計(jì)算的海量數(shù)據(jù)挖掘研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年02期

10 李明江;唐穎;周力軍;;數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J];中國(guó)新通信;2012年22期

相關(guān)博士學(xué)位論文 前6條

1 朱林;基于特征加權(quán)與特征選擇的數(shù)據(jù)挖掘算法研究[D];上海交通大學(xué);2013年

2 白雪;聚類分析中的相似性度量及其應(yīng)用研究[D];北京交通大學(xué);2012年

3 周世兵;聚類分析中的最佳聚類數(shù)確定方法研究及應(yīng)用[D];江南大學(xué);2011年

4 王駿;無(wú)監(jiān)督學(xué)習(xí)中聚類和閾值分割新方法研究[D];南京理工大學(xué);2011年

5 趙恒;數(shù)據(jù)挖掘中聚類若干問(wèn)題研究[D];西安電子科技大學(xué);2005年

6 楊小兵;聚類分析中若干關(guān)鍵技術(shù)的研究[D];浙江大學(xué);2005年

相關(guān)碩士學(xué)位論文 前5條

1 崔廣風(fēng);數(shù)據(jù)挖掘中的統(tǒng)計(jì)方法及其應(yīng)用研究[D];西南石油大學(xué);2014年

2 侯丹丹;基于屬性權(quán)重的聚類算法研究[D];河北工業(yè)大學(xué);2011年

3 許麗利;聚類分析的算法及應(yīng)用[D];吉林大學(xué);2010年

4 李丹丹;基于權(quán)重設(shè)計(jì)的聚類融合算法研究及應(yīng)用[D];遼寧工程技術(shù)大學(xué);2009年

5 郭軍華;數(shù)據(jù)挖掘中聚類分析的研究[D];武漢理工大學(xué);2003年

,

本文編號(hào):1905288

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/1905288.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9a76b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com