數(shù)據(jù)數(shù)量與質(zhì)量敏感的推薦系統(tǒng)若干問題研究
本文選題:推薦系統(tǒng) + 數(shù)據(jù)數(shù)量 ; 參考:《浙江大學(xué)》2016年博士論文
【摘要】:隨著互聯(lián)網(wǎng)特別是移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)的持續(xù)爆炸式增長,信息過載現(xiàn)象越來越嚴(yán)重,使得用戶從海量數(shù)據(jù)中找到真正感興趣的信息的代價(jià)越來越高。為了解決這一問題,個(gè)性化推薦系統(tǒng)應(yīng)運(yùn)而生。推薦系統(tǒng)通過挖掘用戶的歷史行為數(shù)據(jù)對其興趣和偏好進(jìn)行建模,從而可以幫助用戶快速地發(fā)現(xiàn)其可能感興趣的、有價(jià)值的信息。在過去的二十多年里,推薦系統(tǒng)得到了學(xué)術(shù)界和工業(yè)界的極大關(guān)注,已經(jīng)被廣泛應(yīng)用于包括電子商務(wù)、社交網(wǎng)站、影視娛樂、在線閱讀、網(wǎng)絡(luò)課程學(xué)習(xí)等在內(nèi)的不同應(yīng)用領(lǐng)域,相關(guān)的推薦技術(shù)也在不斷地發(fā)展和演進(jìn)。時(shí)至今日,許多研究學(xué)者仍然致力于設(shè)計(jì)更高效、更有效、更普適的推薦算法,F(xiàn)有的推薦算法通常將收集到的所有用戶行為數(shù)據(jù)不加處理或簡單地進(jìn)行預(yù)處理后就作為算法的輸入進(jìn)行統(tǒng)一的推薦建模。然而,在真實(shí)應(yīng)用的推薦系統(tǒng)中,不同用戶的行為數(shù)據(jù)在數(shù)量和質(zhì)量方面都會(huì)呈現(xiàn)出不同程度的差異性。系統(tǒng)中往往同時(shí)存在行為數(shù)據(jù)稀少的"冷啟動(dòng)"用戶和行為數(shù)據(jù)豐富的活躍用戶,與此同時(shí),不同用戶的行為數(shù)據(jù)中也會(huì)存在不同程度的噪聲數(shù)據(jù)。對這些數(shù)量和質(zhì)量存在顯著差異的用戶進(jìn)行統(tǒng)一的推薦建模,一方面會(huì)因?yàn)闊o法同時(shí)涵蓋不同特點(diǎn)的數(shù)據(jù)而降低推薦算法的準(zhǔn)確性,另一方面,隨著系統(tǒng)中用戶行為數(shù)據(jù)的不斷累積,將收集到的所有數(shù)據(jù)用來建模也會(huì)帶來很高的計(jì)算代價(jià)。因此,敏感地捕捉并建模用戶行為數(shù)據(jù)數(shù)量和質(zhì)量差異性的數(shù)據(jù)數(shù)量和質(zhì)量敏感的推薦方法的研究,對大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)具有非常重要的理論與應(yīng)用價(jià)值。本文圍繞數(shù)據(jù)數(shù)量與質(zhì)量敏感的推薦系統(tǒng)的若干問題展開研究,主要工作包括:1)提出了一種數(shù)據(jù)數(shù)量敏感的推薦方法針對不同用戶在行為數(shù)據(jù)數(shù)量方面存在的差異,研究用戶行為數(shù)據(jù)的數(shù)量對不同推薦算法的影響,表明將用戶(尤其是活躍用戶)的所有行為數(shù)據(jù)用于推薦建模是沒有必要的。然后,從機(jī)器學(xué)習(xí)的角度出發(fā)剖析了需要多少用戶行為數(shù)據(jù)進(jìn)行建模就足以產(chǎn)生有效的推薦。最后,提出一系列用戶行為數(shù)據(jù)的抽樣方法來選擇適量的、有代表性的用戶行為數(shù)據(jù)進(jìn)行數(shù)據(jù)數(shù)量敏感的推薦建模。實(shí)驗(yàn)結(jié)果表明,該方法在總體上提升了推薦的準(zhǔn)確性并降低了計(jì)算代價(jià)。2)提出了一種基于用戶行為一致性的分組遷移推薦方法針對不同用戶的行為數(shù)據(jù)存在不同程度的噪聲數(shù)據(jù)的現(xiàn)象,引入"用戶行為一致性"的概念來衡量用戶行為數(shù)據(jù)中含有噪聲數(shù)據(jù)的程度,進(jìn)而提出了一種基于用戶行為一致性的分組遷移推薦方法。在該方法中,首先,基于用戶行為一致性將用戶進(jìn)行分組。然后,對不同分組的用戶行為數(shù)據(jù)所構(gòu)成的數(shù)據(jù)子集進(jìn)行有針對性的噪聲處理和推薦建模。最后,借助遷移學(xué)習(xí)技術(shù)實(shí)現(xiàn)高質(zhì)量數(shù)據(jù)子集對低質(zhì)量數(shù)據(jù)子集的輔助建模。實(shí)驗(yàn)結(jié)果表明,該方法對低質(zhì)量數(shù)據(jù)分組的推薦性能有顯著的提升,進(jìn)而提升了整體的推薦性能。3)提出了一種基于語義可比物品對的排序推薦方法BPR(Bayesian Personalized Ranking)是解決單類協(xié)同過濾問題的主流算法框架,在隱式反饋推薦中得到了廣泛的應(yīng)用。然而,BPR會(huì)選擇沒有意義的噪聲物品對數(shù)據(jù)進(jìn)行建模而降低了模型的準(zhǔn)確性和收斂速度。針對這些問題,本文提出了"語義可比物品對"的概念,并因此提出了一種基于語義可比物品對的排序推薦算法(Semantic enhanced BPR,SeBPR)。該方法通過物品內(nèi)容信息學(xué)習(xí)物品的語義向量,進(jìn)而選擇語義可比較的、高質(zhì)量的物品對參與模型訓(xùn)練。實(shí)驗(yàn)表明,SeBPR可以利用相對較少的物品對得到快速收斂的、穩(wěn)定的模型。4)提出了一種數(shù)據(jù)數(shù)量和質(zhì)量敏感的推薦框架在上述研究工作的基礎(chǔ)上,本文進(jìn)一步提出了一種數(shù)據(jù)數(shù)量和質(zhì)量敏感的推薦框架,以解決現(xiàn)有推薦算法沒有充分考慮用戶行為數(shù)據(jù)在數(shù)量和質(zhì)量方面差異性的問題。該框架包括對用戶行為數(shù)據(jù)的數(shù)量和質(zhì)量的度量、基于數(shù)據(jù)數(shù)量和質(zhì)量度量的用戶分組、對不同分組的數(shù)據(jù)子集有針對性的數(shù)據(jù)預(yù)處理(數(shù)據(jù)抽樣處理和噪聲數(shù)據(jù)處理)和推薦建模以及分組模型的遷移學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,該推薦框架可以提高不同算法在評分預(yù)測和TopN推薦問題上的推薦性能。
[Abstract]:With the continuous and explosive growth of the Internet, especially the mobile Internet data, the information overload is becoming more and more serious, which makes the users find the real interesting information from the mass data more and more. In order to solve this problem, the personalized recommendation system emerges as the times require. Its interests and preferences are modeled to help users quickly discover their potential and valuable information. In the past more than 20 years, the recommendation system has received great attention from academia and industry, and has been widely used in e-commerce, social networking sites, film and television entertainment, online reading, and online course learning. The relevant recommendation technology is developing and evolving continuously. Today, many researchers are still devotes to the design of more efficient, more effective, and more universal recommendation algorithms. The existing recommendation algorithms usually take all the collected user behavior data without processing or simply preprocessing. The input of the algorithm is a unified recommendation modeling. However, in the actual application, the behavior data of different users will show different degrees of difference in terms of quantity and quality. A unified recommendation modeling for users with significant differences in quantity and quality will reduce the accuracy of the recommended algorithm on the one hand because of the inability to cover different features of the data at the same time, on the other hand, with the continuous accumulation of user behavior data in the system, it will be collected. Therefore, the study of sensitive capture and modeling of the number of user behavior data and the quantity of quality differences and the quality sensitive recommendation methods are of great theoretical and practical value to the recommendation system in large data environments. This paper focuses on the number of data. Several problems of the quality sensitive recommendation system are studied. The main work includes: 1) a data quantity sensitive recommendation method is proposed for different users' differences in the number of behavior data, the influence of the number of user behavior data on different recommendation algorithms, and it shows that all the users (especially active users) There is no need for behavioral data to be used to recommend modeling. Then, from the point of view of machine learning, the analysis of how many user behavior data is needed to create an effective recommendation. Finally, a sampling method of a series of user behavior data is proposed to select appropriate amount of user behavior data to be sensitive to the quantity of data. The experimental results show that the proposed method in general improves the accuracy of the recommendation and reduces the computational cost.2). A packet migration recommendation method based on user behavior consistency is proposed for the presence of noise data of different degrees for different users' behavior data, and the concept of "user behavior consistency" is introduced. The degree of noise data in user behavior data is measured, and then a group migration recommendation method based on user behavior consistency is proposed. In this method, first, users are grouped based on user behavior consistency. Then, the data subset of user behavior data of different groups is targeted to noise. Finally, a high quality data subset is modeled as an auxiliary model for low quality data subsets with the help of migratory learning techniques. The experimental results show that the proposed method has a significant improvement in the recommendation performance of low quality data packets and the overall recommendation performance.3).) a sort of sort recommendation based on Semantic comparable item pairs is proposed. Method BPR (Bayesian Personalized Ranking) is the mainstream algorithm framework for solving single class collaborative filtering problems. It has been widely used in implicit feedback recommendation. However, BPR will select non meaningful noise items to model the data and reduce the accuracy and convergence speed of the model. Semantic enhanced BPR (SeBPR), which is based on the semantic comparable item pair (SeBPR), is proposed in comparison with the concept of "object". This method studies the semantic vector of items through the content information of the item, and then selects the semantically comparable, high quality item to participate in the model training. The experiment shows that SeBPR can make use of relative comparison. On the basis of the above research work, a data quantity and quality sensitive recommendation framework is proposed for the fast convergent, stable model.4). This paper further proposes a data quantity and quality sensitive recommendation framework to solve the existing recommendation algorithms that do not fully consider the number and quality of user behavior data. The framework includes the measurement of the quantity and quality of the user's behavior data, the group of users based on the quantity and quality of the data, and the targeted data preprocessing (data sampling and noise data processing) and the recommendation modeling and the migration learning of the packet model for the data subsets of different groups. The results show that the recommendation framework can improve the recommendation performance of different algorithms in scoring prediction and TopN recommendation problems.
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 ;電商推薦系統(tǒng)進(jìn)階[J];IT經(jīng)理世界;2013年11期
2 米可菲;張勇;邢春曉;蔚欣;;面向大數(shù)據(jù)的開源推薦系統(tǒng)分析[J];計(jì)算機(jī)與數(shù)字工程;2013年10期
3 脫建勇;王嵩;李秀;劉文煌;;精品課共享中的推薦系統(tǒng)框架與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年17期
4 蘇冠賢;張麗霞;林丕源;劉吉平;;生物信息學(xué)推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2007年05期
5 王改芬;;推薦系統(tǒng)研究綜述[J];軟件導(dǎo)刊;2007年23期
6 葉群來;;營銷與網(wǎng)絡(luò)推薦系統(tǒng)[J];電子商務(wù);2007年10期
7 李媚;;個(gè)性化網(wǎng)絡(luò)學(xué)習(xí)資源推薦系統(tǒng)研究[J];福建電腦;2008年12期
8 潘冉;姜麗紅;;基于經(jīng)濟(jì)學(xué)模型的推薦系統(tǒng)的研究[J];計(jì)算機(jī)應(yīng)用與軟件;2008年03期
9 劉魯;任曉麗;;推薦系統(tǒng)研究進(jìn)展及展望[J];信息系統(tǒng)學(xué)報(bào);2008年01期
10 劉小燕;陳艷麗;賈宗璞;沈記全;;基于增強(qiáng)學(xué)習(xí)的旅行計(jì)劃推薦系統(tǒng)[J];計(jì)算機(jī)工程;2010年21期
相關(guān)會(huì)議論文 前8條
1 張燕;李燕萍;;基于內(nèi)容分析和點(diǎn)擊率記錄的混合音樂推薦系統(tǒng)[A];2009年通信理論與信號(hào)處理學(xué)術(shù)年會(huì)論文集[C];2009年
2 趙欣;寇綱;鄔文帥;盧艷群;;基于時(shí)間密集性的推薦系統(tǒng)攻擊檢測[A];第六屆(2011)中國管理學(xué)年會(huì)論文摘要集[C];2011年
3 張玉連;張波;張敏;;改進(jìn)的個(gè)性化信息推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年全國理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集[C];2005年
4 王君;許潔萍;;層次音樂推薦系統(tǒng)的研究[A];第18屆全國多媒體學(xué)術(shù)會(huì)議(NCMT2009)、第5屆全國人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2009)、第5屆全國普適計(jì)算學(xué)術(shù)會(huì)議(PCC2009)論文集[C];2009年
5 潘宇;林鴻飛;楊志豪;;基于用戶聚類的電子商務(wù)推薦系統(tǒng)[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
6 尤忠彬;陳越;張英;朱揚(yáng)勇;;基于Web服務(wù)的技術(shù)轉(zhuǎn)移平臺(tái)推薦系統(tǒng)研究[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
7 王國霞;劉賀平;李擎;;二部圖影射及其在推薦系統(tǒng)中的應(yīng)用[A];第25屆中國控制與決策會(huì)議論文集[C];2013年
8 王雪;董愛華;吳怡之;;基于RFID技術(shù)的智能服裝推薦系統(tǒng)設(shè)計(jì)[A];2011年全國電子信息技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2011年
相關(guān)重要報(bào)紙文章 前2條
1 ;大數(shù)據(jù)如何“落地”[N];中國新聞出版報(bào);2014年
2 本報(bào)記者 鄒大斌;大數(shù)據(jù):電商新武器[N];計(jì)算機(jī)世界;2012年
相關(guān)博士學(xué)位論文 前10條
1 周魏;推薦系統(tǒng)中基于目標(biāo)項(xiàng)目分析的托攻擊檢測研究[D];重慶大學(xué);2015年
2 田剛;融合維基知識(shí)的情境感知Web服務(wù)發(fā)現(xiàn)方法研究[D];武漢大學(xué);2015年
3 胡亮;集成多元信息的推薦系統(tǒng)建模方法的研究[D];上海交通大學(xué);2015年
4 孫麗梅;Web-based推薦系統(tǒng)中若干關(guān)鍵問題研究[D];東北大學(xué);2013年
5 鄭麟;基于屬性提升與偏好集成的上下文感知推薦[D];武漢大學(xué);2017年
6 于鵬華;數(shù)據(jù)數(shù)量與質(zhì)量敏感的推薦系統(tǒng)若干問題研究[D];浙江大學(xué);2016年
7 王宏宇;商務(wù)推薦系統(tǒng)的設(shè)計(jì)研究[D];中國科學(xué)技術(shù)大學(xué);2007年
8 楊東輝;基于情感相似度的社會(huì)化推薦系統(tǒng)研究[D];哈爾濱工業(yè)大學(xué);2014年
9 曹渝昆;基于神經(jīng)網(wǎng)絡(luò)和模糊邏輯的智能推薦系統(tǒng)研究[D];重慶大學(xué);2006年
10 王立才;上下文感知推薦系統(tǒng)若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 朱孔真;基于云計(jì)算的電子商務(wù)智能推薦系統(tǒng)研究[D];武漢理工大學(xué);2014年
2 郭敬澤;基于賦權(quán)評分和Dpark的分布式推薦系統(tǒng)研究與實(shí)現(xiàn)[D];天津理工大學(xué);2015年
3 周俊宇;信息推薦系統(tǒng)的研究與設(shè)計(jì)[D];江南大學(xué);2015年
4 李煒;基于電子商務(wù)平臺(tái)的保險(xiǎn)推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2013年
5 車豐;基于排序主題模型的論文推薦系統(tǒng)[D];大連海事大學(xué);2015年
6 秦大路;基于因式分解機(jī)模型的上下文感知推薦系統(tǒng)研究[D];鄭州大學(xué);2015年
7 徐霞婷;動(dòng)態(tài)路網(wǎng)監(jiān)控與導(dǎo)航推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];蘇州大學(xué);2015年
8 黃學(xué)峰;基于Hadoop的電影推薦系統(tǒng)研究與實(shí)現(xiàn)[D];南京師范大學(xué);2015年
9 路小瑞;基于Hadoop平臺(tái)的職位推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];上海交通大學(xué);2015年
10 李愛寶;基于組合消費(fèi)行為分析的團(tuán)購?fù)扑]系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
,本文編號(hào):1806920
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/1806920.html