社會(huì)網(wǎng)絡(luò)中基于用戶評(píng)分?jǐn)?shù)據(jù)的協(xié)同推薦研究
本文選題:推薦系統(tǒng) 切入點(diǎn):相似度計(jì)算 出處:《河南大學(xué)》2016年碩士論文
【摘要】:近些年來,隨著信息技術(shù)的發(fā)展,電子商務(wù)領(lǐng)域積累了大量的數(shù)據(jù),海量數(shù)據(jù)在為客戶提供多樣化商品選擇的同時(shí)也帶來了選擇難的問題。推薦系統(tǒng)作為一種基于海量信息進(jìn)行檢索和篩選的個(gè)性化推送技術(shù)越來越受到人們的重視。它以客戶的實(shí)際需求為中心,根據(jù)客戶的歷史行為數(shù)據(jù)預(yù)測(cè)用戶的行為偏好,從而主動(dòng)為客戶提供個(gè)性化的數(shù)據(jù)信息服務(wù)。然而,在基于用戶評(píng)分進(jìn)行用戶興趣偏好建模的推薦系統(tǒng)中常常面臨著一些不可避免的問題,如用戶相似度計(jì)算精度問題、評(píng)分矩陣稀疏性問題。針對(duì)推薦系統(tǒng)中這兩個(gè)常見的問題本文分別進(jìn)行了探索,提出了一種新的計(jì)算用戶相似度的計(jì)算方法,改善了傳統(tǒng)相似度計(jì)算方法的不足;利用了物品的標(biāo)簽信息在一定程度上緩解了評(píng)分矩陣存在大量缺失值時(shí)不能很好的找出與目標(biāo)用戶具有相似偏好的用戶的問題。具體來說,文中的貢獻(xiàn)主要包含以下三個(gè)方面:(1)針對(duì)皮爾遜相似度在計(jì)算時(shí)遇到分母為0而相似度無法計(jì)算的情況,提出了一種改進(jìn)方法,該方法能夠根據(jù)用戶評(píng)分情況適應(yīng)選擇合理的相似度計(jì)算方法。(2)基于mahout中已有的未知評(píng)分技術(shù),結(jié)合評(píng)分項(xiàng)的標(biāo)簽信息提出了一種新的未知評(píng)分預(yù)測(cè)方法,該方法首先計(jì)算了用戶對(duì)標(biāo)簽的興趣分布,然后根據(jù)評(píng)分項(xiàng)包含標(biāo)簽的情況實(shí)現(xiàn)未知評(píng)分預(yù)測(cè)。(3)針對(duì)新提出的相似度計(jì)算方法和未知評(píng)分預(yù)測(cè)方法,結(jié)合mahout原有的方法進(jìn)行了較好的集成。
[Abstract]:In recent years, with the development of information technology, the field of electronic commerce has accumulated a lot of data. Mass data not only provides customers with a variety of goods to choose, but also brings the problem of difficult choice. As a personalized push technology based on mass information retrieval and screening, recommendation system has been paid more and more attention to. It is centered on the actual needs of the customer, Based on the customer's historical behavior data, the user's behavior preference is predicted, thus providing personalized data information service for the customer. However, In the recommendation system of user interest preference modeling based on user score, there are some unavoidable problems, such as the accuracy of user similarity calculation. This paper explores the two common problems in recommendation system, and proposes a new method to calculate user similarity, which improves the deficiency of traditional similarity calculation method. The use of the label information of the items to some extent alleviates the problem of finding users with similar preferences to the target users when there are a large number of missing values in the scoring matrix. The contributions in this paper mainly include the following three aspects: 1) an improved method is proposed to solve the problem that Pearson's similarity can not be calculated when its denominator is zero. Based on the unknown scoring technology in mahout and the label information of scoring items, a new unknown score prediction method is proposed. Firstly, the distribution of users' interest in labels is calculated, and then unknown score prediction is realized according to the condition that labels are included in the scoring items. (3) for the new similarity calculation method and unknown score prediction method, Combined with the original method of mahout, better integration is carried out.
【學(xué)位授予單位】:河南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鄭煒冬;;試卷相似度自動(dòng)評(píng)估技術(shù)的研究[J];智能計(jì)算機(jī)與應(yīng)用;2011年06期
2 趙濤;肖建;;二型模糊相似度及其應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2013年08期
3 徐志明;李棟;劉挺;李生;王剛;袁樹侖;;微博用戶的相似性度量及其應(yīng)用[J];計(jì)算機(jī)學(xué)報(bào);2014年01期
4 李桂林,陳曉云;關(guān)于聚類分析中相似度的討論[J];計(jì)算機(jī)工程與應(yīng)用;2004年31期
5 秦玉平;楊興凱;;基于案例推理的區(qū)間屬性相似度研究[J];遼寧師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年04期
6 蔣鵬;;基于本體的應(yīng)急案例相似度算法研究[J];南昌高專學(xué)報(bào);2009年03期
7 何亞;;詞語(yǔ)相似度算法的分析與改進(jìn)[J];硅谷;2011年24期
8 仇麗青;陳卓艷;;基于共同鄰居相似度的社區(qū)發(fā)現(xiàn)算法[J];信息系統(tǒng)工程;2014年05期
9 焦鵬;唐見兵;查亞兵;;仿真可信度評(píng)估中相似度方法的改進(jìn)及其應(yīng)用[J];系統(tǒng)仿真學(xué)報(bào);2007年12期
10 姜毅;樂慶玲;;一種基于興趣相似度的學(xué)習(xí)社區(qū)算法[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年16期
相關(guān)會(huì)議論文 前10條
1 劉海波;鄭德權(quán);趙鐵軍;;基于相似度線性加權(quán)方法的檢索結(jié)果聚類研究[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
2 陸勁挺;路強(qiáng);劉曉平;;對(duì)比相似度計(jì)算方法及其在功能樹擴(kuò)展中的應(yīng)用[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國(guó)第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2007年
3 董刊生;方金云;;基于向量距離的詞序相似度算法[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
4 劉曉平;陸勁挺;;任意功能樹的物元相似度求解方法[A];全國(guó)第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國(guó)第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
5 王茜;張衛(wèi)星;;基于分類樹相似度加權(quán)的協(xié)同過濾算法[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年
6 洪文學(xué);王金甲;常鳳香;宋佳霖;劉文遠(yuǎn);王立強(qiáng);;基于圖形特征增強(qiáng)的相似度分類器的研究[A];中國(guó)生物醫(yī)學(xué)工程進(jìn)展——2007中國(guó)生物醫(yī)學(xué)工程聯(lián)合學(xué)術(shù)年會(huì)論文集(上冊(cè))[C];2007年
7 雷慶;吳揚(yáng)揚(yáng);;一種基于語(yǔ)義信息計(jì)算XML文檔相似度的新方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
8 葉正;林鴻飛;楊志豪;;基于問句相似度的中文FAQ問答系統(tǒng)研究[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
9 羅辛;歐陽(yáng)元新;熊璋;袁滿;;通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集A輯一[C];2010年
10 王健;劉衍珩;焦玉;;VANETs信任傳播建模[A];中國(guó)通信學(xué)會(huì)通信軟件技術(shù)委員會(huì)2009年學(xué)術(shù)會(huì)議論文集[C];2009年
相關(guān)重要報(bào)紙文章 前1條
1 王伽 衛(wèi)江;出入境證件照片應(yīng)及時(shí)更換[N];中國(guó)國(guó)門時(shí)報(bào);2008年
相關(guān)博士學(xué)位論文 前10條
1 操震洲;矢量數(shù)據(jù)動(dòng)態(tài)多尺度網(wǎng)絡(luò)傳輸研究[D];南京大學(xué);2015年
2 程亮;基于本體的疾病數(shù)據(jù)整合與挖掘方法研究[D];哈爾濱工業(yè)大學(xué);2014年
3 劉振宇;基于區(qū)域相似度和特征降維的極化SAR影像分類[D];武漢大學(xué);2013年
4 曹,
本文編號(hào):1689522
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/1689522.html