大規(guī)模PU學(xué)習(xí)
[Abstract]:The machine learning method based on positive samples and unlabeled samples is called Positive and Unlabeled Learn-ing, for short PU learning. In reality, PU learning has many application scenarios, for example, the existing user data of a product can be regarded as positive samples. Based on these positive samples, enterprises need to discover potential new users among a large number of unknown users. This process is called Lookalike extension. In this paper, PU learning is divided into two categories according to the different application scenarios, one is the PU classification algorithm, the other is the PU matrix complement algorithm. The first kind of PU classification algorithm is mainly used to model a particular task, such as the Lookalike extension of a product. The second kind of PU matrix complement algorithm is mainly used to model the relationship between two kinds of entities, such as single-class cooperative filtering and multi-label learning. In many cases, in addition to obtaining relational matrices between entities, there are also auxiliary feature information, such as feature data for users or commodities in single-class collaborative filtering. In this case, PU inductive matrix complement algorithm will achieve better results. The existing PU learning methods are based on single machine, but in big data era, the data scale is increasing, and the practical machine learning algorithm should have the ability to distribute. In this paper, we design and implement the distributed version of PU learning algorithm on big data processing platform Spark. In addition, we propose a new method of clustering PU inductive matrix complement, which is inspired by the multitask learning method. The main contents of this paper are as follows: first, the distributed version of the existing PU classification algorithm is implemented, including the distributed two-step method and the distributed cost-sensitive learning method. On the enterprise level Lookalike data set, the effects of various strategies are compared. The extensibility of the algorithm is verified. Secondly, the distributed version of the existing PU inductive matrix complement algorithm is implemented. Experiments are carried out on the recommendation system and the standard data set of multi-label learning, and it is proved that the algorithm has strong extensibility. Thirdly, the PU inductive matrix complement algorithm based on clustering idea is proposed, and the distributed version is implemented. The algorithm is compared with the existing PU inductive matrix complement algorithm on the recommendation system and the standard data set of multi-label learning. The new algorithm improves greatly on AUC and has certain expansibility.
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP181
【相似文獻(xiàn)】
相關(guān)期刊論文 前6條
1 張立榮;PU濕法仿真皮[J];今日科技;1994年04期
2 ;高檔PU聚酯漆應(yīng)市[J];蘭州科技情報(bào);1995年03期
3 于成業(yè);何小海;滕奇志;鐘國(guó)韻;李元;;基于非規(guī)則PU模式的HEVC視頻編碼方法[J];電視技術(shù);2014年09期
4 王好;;太極服務(wù)器4CPU起步[J];每周電腦報(bào);1998年12期
5 富震;;基于SVM主動(dòng)學(xué)習(xí)技術(shù)的PU文本分類[J];計(jì)算技術(shù)與自動(dòng)化;2014年01期
6 張義偉;曾田;;基于486CPU的SDRAM控制器的設(shè)計(jì)與實(shí)現(xiàn)[J];電子元器件應(yīng)用;2005年06期
相關(guān)會(huì)議論文 前10條
1 賈麗霞;張國(guó)騰;;PU/蒙脫土納米復(fù)合材料的性能研究[A];中國(guó)硅酸鹽學(xué)會(huì)2003年學(xué)術(shù)年會(huì)論文摘要集[C];2003年
2 賈麗霞;張國(guó)騰;;PU/蒙脫土納米復(fù)合材料的性能研究[A];第十五屆玻璃鋼/復(fù)合材料學(xué)術(shù)年會(huì)論文集[C];2003年
3 賈麗霞;張國(guó)騰;;PU/蒙脫土納米復(fù)合材料的性能研究[A];第十五屆玻璃鋼/復(fù)合材料學(xué)術(shù)年會(huì)論文集[C];2003年
4 趙雅平;張生棟;毛國(guó)淑;;同位素稀釋-萃取液閃法測(cè)量高放廢水中~(241)Pu的濃度[A];中國(guó)化學(xué)會(huì)第26屆學(xué)術(shù)年會(huì)現(xiàn)代核化學(xué)與放射化學(xué)分會(huì)場(chǎng)論文集[C];2008年
5 張長(zhǎng)利;左萬(wàn)利;彭濤;赫楓齡;彭釗;邵慧勇;;基于無(wú)監(jiān)督聚類的PU文本分類方法[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年
6 于靜;馬應(yīng)明;鄭軍芳;司高華;;Pu在高鹽地下水中的存在形態(tài)及其遷移性能分析[A];中國(guó)核科學(xué)技術(shù)進(jìn)展報(bào)告——中國(guó)核學(xué)會(huì)2009年學(xué)術(shù)年會(huì)論文集(第一卷·第5冊(cè))[C];2009年
7 楊宗q;;PU硬泡防火應(yīng)用研究[A];2006年絕熱隔音材料輕質(zhì)建筑板材新技術(shù)新產(chǎn)品論文集[C];2006年
8 譚建新;陳耀中;林漳基;;腐殖酸還原Pu(Ⅵ)的動(dòng)力學(xué)研究(英文)[A];中國(guó)高放廢物地質(zhì)處置十年進(jìn)展[C];2004年
9 于靜;王旭輝;司高華;王江;金玉仁;韓小元;;Pu(Ⅳ)、Pu(Ⅴ)在不同質(zhì)地砂土中分配系數(shù)研究[A];中國(guó)化學(xué)會(huì)第26屆學(xué)術(shù)年會(huì)現(xiàn)代核化學(xué)與放射化學(xué)分會(huì)場(chǎng)論文集[C];2008年
10 吳倫強(qiáng);楊明太;向方壽;高戈;劉鈞;;萃取分離同位素稀α-譜法測(cè)量土壤中的~(239)Pu[A];加入WTO和中國(guó)科技與可持續(xù)發(fā)展——挑戰(zhàn)與機(jī)遇、責(zé)任和對(duì)策(下冊(cè))[C];2002年
相關(guān)重要報(bào)紙文章 前7條
1 馬澄清;上海弗列加新增PU空濾芯生產(chǎn)線 Shanghai Fleetguard Increase PU Air Filter Production Line[N];機(jī)電商報(bào);2009年
2 張興剛;二甲醚用作泡沫PU發(fā)泡劑可行[N];中國(guó)化工報(bào);2008年
3 記者 劉永紅;石獅服裝PU產(chǎn)業(yè)迎來(lái)發(fā)展的大好時(shí)光[N];石獅日?qǐng)?bào);2011年
4 張興剛;天然油脂制PU中間體列入重大專項(xiàng)[N];中國(guó)化工報(bào);2008年
5 新華;PU方塊地毯需求前景看好[N];中國(guó)化工報(bào);2007年
6 邱美輝;石獅PU革企業(yè)完成技術(shù)升級(jí)[N];中國(guó)化工報(bào);2006年
7 顧定槐;中國(guó)PU產(chǎn)業(yè)應(yīng)集聚發(fā)展[N];中國(guó)化工報(bào);2006年
相關(guān)碩士學(xué)位論文 前6條
1 李碩;PU學(xué)習(xí)場(chǎng)景下代價(jià)敏感數(shù)據(jù)流分類算法研究[D];西北農(nóng)林科技大學(xué);2015年
2 高鵬;大規(guī)模PU學(xué)習(xí)[D];南京大學(xué);2017年
3 王勛來(lái);~(239)Pu在高廟子膨潤(rùn)土中的吸附行為研究[D];成都理工大學(xué);2012年
4 李晨;PU數(shù)據(jù)流挖掘研究[D];西北農(nóng)林科技大學(xué);2011年
5 朱朦琪;碳納米管混雜功能化及其PU復(fù)合材料制備[D];汕頭大學(xué);2010年
6 沈芳芳;PU涂層面料與粘合襯的配伍研究[D];東華大學(xué);2013年
,本文編號(hào):2344680
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2344680.html