天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

大規(guī)模PU學(xué)習(xí)

發(fā)布時(shí)間:2018-11-20 10:36
【摘要】:基于正樣本和無(wú)標(biāo)記樣本的機(jī)器學(xué)習(xí)方法稱為Positive and Unlabeled Learn-ing,簡(jiǎn)稱 PU 學(xué)習(xí)。PU 學(xué)習(xí)在現(xiàn)實(shí)中有很多應(yīng)用場(chǎng)景,例如某產(chǎn)品已有的用戶數(shù)據(jù)可以視為正樣本,企業(yè)須要基于這些正樣本在海量未知用戶中發(fā)掘潛在的新用戶,該過(guò)程稱為L(zhǎng)ookalike擴(kuò)展。本文根據(jù)應(yīng)用場(chǎng)景的不同,將PU學(xué)習(xí)分為兩類,一類是PU分類算法,一類是PU矩陣補(bǔ)全算法。第一類PU分類算法,主要針對(duì)某一特定的任務(wù)進(jìn)行建模,例如某產(chǎn)品的Lookalike擴(kuò)展。第二類PU矩陣補(bǔ)全算法,主要針對(duì)兩類實(shí)體間的關(guān)系進(jìn)行建模,例如單類協(xié)同過(guò)濾和多標(biāo)記學(xué)習(xí)等應(yīng)用。很多時(shí)候,除了能獲取實(shí)體間的關(guān)系矩陣外,還有一些輔助的特征信息,例如單類協(xié)同過(guò)濾中,我們可獲得用戶或商品的特征數(shù)據(jù),此時(shí)使用PU歸納式矩陣補(bǔ)全算法會(huì)取得更好的效果。已有的PU學(xué)習(xí)方法均是基于單機(jī)進(jìn)行的,但是在大數(shù)據(jù)時(shí)代,數(shù)據(jù)規(guī)模不斷增長(zhǎng),實(shí)用的機(jī)器學(xué)習(xí)算法應(yīng)當(dāng)具備可分布式的能力。本文在大數(shù)據(jù)處理平臺(tái)Spark上,設(shè)計(jì)并實(shí)現(xiàn)了已有PU學(xué)習(xí)算法的分布式版本。此外,我們從多任務(wù)學(xué)習(xí)的方法中受到啟發(fā),提出了聚類PU歸納式矩陣補(bǔ)全的新方法。本文工作主要包括如下內(nèi)容:一、實(shí)現(xiàn)了已有PU分類算法的分布式版本,包括分布式的兩步驟方法和分布式代價(jià)敏感學(xué)習(xí)法,在企業(yè)級(jí)Lookalike數(shù)據(jù)集上,對(duì)比了各種策略的效果,并驗(yàn)證了算法具有一定的可擴(kuò)展性。二、實(shí)現(xiàn)了已有PU歸納式矩陣補(bǔ)全算法的分布式版本,在推薦系統(tǒng)和多標(biāo)記學(xué)習(xí)的標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),驗(yàn)證了算法具有較強(qiáng)的可擴(kuò)展性。三、提出了基于聚類思想的PU歸納式矩陣補(bǔ)全算法,實(shí)現(xiàn)了分布式版本,在推薦系統(tǒng)和多標(biāo)記學(xué)習(xí)的標(biāo)準(zhǔn)數(shù)據(jù)集上,與已有的PU歸納式矩陣補(bǔ)全算法進(jìn)行對(duì)比。新算法在AUC上獲得較大提升,且具有一定的可擴(kuò)展性。
[Abstract]:The machine learning method based on positive samples and unlabeled samples is called Positive and Unlabeled Learn-ing, for short PU learning. In reality, PU learning has many application scenarios, for example, the existing user data of a product can be regarded as positive samples. Based on these positive samples, enterprises need to discover potential new users among a large number of unknown users. This process is called Lookalike extension. In this paper, PU learning is divided into two categories according to the different application scenarios, one is the PU classification algorithm, the other is the PU matrix complement algorithm. The first kind of PU classification algorithm is mainly used to model a particular task, such as the Lookalike extension of a product. The second kind of PU matrix complement algorithm is mainly used to model the relationship between two kinds of entities, such as single-class cooperative filtering and multi-label learning. In many cases, in addition to obtaining relational matrices between entities, there are also auxiliary feature information, such as feature data for users or commodities in single-class collaborative filtering. In this case, PU inductive matrix complement algorithm will achieve better results. The existing PU learning methods are based on single machine, but in big data era, the data scale is increasing, and the practical machine learning algorithm should have the ability to distribute. In this paper, we design and implement the distributed version of PU learning algorithm on big data processing platform Spark. In addition, we propose a new method of clustering PU inductive matrix complement, which is inspired by the multitask learning method. The main contents of this paper are as follows: first, the distributed version of the existing PU classification algorithm is implemented, including the distributed two-step method and the distributed cost-sensitive learning method. On the enterprise level Lookalike data set, the effects of various strategies are compared. The extensibility of the algorithm is verified. Secondly, the distributed version of the existing PU inductive matrix complement algorithm is implemented. Experiments are carried out on the recommendation system and the standard data set of multi-label learning, and it is proved that the algorithm has strong extensibility. Thirdly, the PU inductive matrix complement algorithm based on clustering idea is proposed, and the distributed version is implemented. The algorithm is compared with the existing PU inductive matrix complement algorithm on the recommendation system and the standard data set of multi-label learning. The new algorithm improves greatly on AUC and has certain expansibility.
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP181

【相似文獻(xiàn)】

相關(guān)期刊論文 前6條

1 張立榮;PU濕法仿真皮[J];今日科技;1994年04期

2 ;高檔PU聚酯漆應(yīng)市[J];蘭州科技情報(bào);1995年03期

3 于成業(yè);何小海;滕奇志;鐘國(guó)韻;李元;;基于非規(guī)則PU模式的HEVC視頻編碼方法[J];電視技術(shù);2014年09期

4 王好;;太極服務(wù)器4CPU起步[J];每周電腦報(bào);1998年12期

5 富震;;基于SVM主動(dòng)學(xué)習(xí)技術(shù)的PU文本分類[J];計(jì)算技術(shù)與自動(dòng)化;2014年01期

6 張義偉;曾田;;基于486CPU的SDRAM控制器的設(shè)計(jì)與實(shí)現(xiàn)[J];電子元器件應(yīng)用;2005年06期

相關(guān)會(huì)議論文 前10條

1 賈麗霞;張國(guó)騰;;PU/蒙脫土納米復(fù)合材料的性能研究[A];中國(guó)硅酸鹽學(xué)會(huì)2003年學(xué)術(shù)年會(huì)論文摘要集[C];2003年

2 賈麗霞;張國(guó)騰;;PU/蒙脫土納米復(fù)合材料的性能研究[A];第十五屆玻璃鋼/復(fù)合材料學(xué)術(shù)年會(huì)論文集[C];2003年

3 賈麗霞;張國(guó)騰;;PU/蒙脫土納米復(fù)合材料的性能研究[A];第十五屆玻璃鋼/復(fù)合材料學(xué)術(shù)年會(huì)論文集[C];2003年

4 趙雅平;張生棟;毛國(guó)淑;;同位素稀釋-萃取液閃法測(cè)量高放廢水中~(241)Pu的濃度[A];中國(guó)化學(xué)會(huì)第26屆學(xué)術(shù)年會(huì)現(xiàn)代核化學(xué)與放射化學(xué)分會(huì)場(chǎng)論文集[C];2008年

5 張長(zhǎng)利;左萬(wàn)利;彭濤;赫楓齡;彭釗;邵慧勇;;基于無(wú)監(jiān)督聚類的PU文本分類方法[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年

6 于靜;馬應(yīng)明;鄭軍芳;司高華;;Pu在高鹽地下水中的存在形態(tài)及其遷移性能分析[A];中國(guó)核科學(xué)技術(shù)進(jìn)展報(bào)告——中國(guó)核學(xué)會(huì)2009年學(xué)術(shù)年會(huì)論文集(第一卷·第5冊(cè))[C];2009年

7 楊宗q;;PU硬泡防火應(yīng)用研究[A];2006年絕熱隔音材料輕質(zhì)建筑板材新技術(shù)新產(chǎn)品論文集[C];2006年

8 譚建新;陳耀中;林漳基;;腐殖酸還原Pu(Ⅵ)的動(dòng)力學(xué)研究(英文)[A];中國(guó)高放廢物地質(zhì)處置十年進(jìn)展[C];2004年

9 于靜;王旭輝;司高華;王江;金玉仁;韓小元;;Pu(Ⅳ)、Pu(Ⅴ)在不同質(zhì)地砂土中分配系數(shù)研究[A];中國(guó)化學(xué)會(huì)第26屆學(xué)術(shù)年會(huì)現(xiàn)代核化學(xué)與放射化學(xué)分會(huì)場(chǎng)論文集[C];2008年

10 吳倫強(qiáng);楊明太;向方壽;高戈;劉鈞;;萃取分離同位素稀α-譜法測(cè)量土壤中的~(239)Pu[A];加入WTO和中國(guó)科技與可持續(xù)發(fā)展——挑戰(zhàn)與機(jī)遇、責(zé)任和對(duì)策(下冊(cè))[C];2002年

相關(guān)重要報(bào)紙文章 前7條

1 馬澄清;上海弗列加新增PU空濾芯生產(chǎn)線 Shanghai Fleetguard Increase PU Air Filter Production Line[N];機(jī)電商報(bào);2009年

2 張興剛;二甲醚用作泡沫PU發(fā)泡劑可行[N];中國(guó)化工報(bào);2008年

3 記者 劉永紅;石獅服裝PU產(chǎn)業(yè)迎來(lái)發(fā)展的大好時(shí)光[N];石獅日?qǐng)?bào);2011年

4 張興剛;天然油脂制PU中間體列入重大專項(xiàng)[N];中國(guó)化工報(bào);2008年

5 新華;PU方塊地毯需求前景看好[N];中國(guó)化工報(bào);2007年

6 邱美輝;石獅PU革企業(yè)完成技術(shù)升級(jí)[N];中國(guó)化工報(bào);2006年

7 顧定槐;中國(guó)PU產(chǎn)業(yè)應(yīng)集聚發(fā)展[N];中國(guó)化工報(bào);2006年

相關(guān)碩士學(xué)位論文 前6條

1 李碩;PU學(xué)習(xí)場(chǎng)景下代價(jià)敏感數(shù)據(jù)流分類算法研究[D];西北農(nóng)林科技大學(xué);2015年

2 高鵬;大規(guī)模PU學(xué)習(xí)[D];南京大學(xué);2017年

3 王勛來(lái);~(239)Pu在高廟子膨潤(rùn)土中的吸附行為研究[D];成都理工大學(xué);2012年

4 李晨;PU數(shù)據(jù)流挖掘研究[D];西北農(nóng)林科技大學(xué);2011年

5 朱朦琪;碳納米管混雜功能化及其PU復(fù)合材料制備[D];汕頭大學(xué);2010年

6 沈芳芳;PU涂層面料與粘合襯的配伍研究[D];東華大學(xué);2013年

,

本文編號(hào):2344680

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2344680.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cb052***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
日韩一区二区三区久久| 免费观看一级欧美大片| 中文人妻精品一区二区三区四区| 丰满少妇被猛烈撞击在线视频| 欧美人妻一区二区三区| 四季av一区二区播放| 国产又色又爽又黄又免费| 欧美日韩亚洲巨色人妻| 欧美日韩国产成人高潮| 国产主播精品福利午夜二区| 亚洲视频在线观看免费中文字幕| 欧美一区日韩一区日韩一区| 九九热精品视频免费观看| 日本午夜福利视频免费观看| 丰满人妻一二区二区三区av| 免费大片黄在线观看日本| 国产亚洲精品俞拍视频福利区| 亚洲精品中文字幕熟女| 亚洲精品高清国产一线久久| 成人午夜爽爽爽免费视频| 国产肥妇一区二区熟女精品| 日本大学生精油按摩在线观看| 日韩欧美三级中文字幕| 国产一区二区不卡在线播放| 精品女同在线一区二区| 国产又猛又大又长又粗| 国产精品熟女在线视频| 精品日韩国产高清毛片| 欧美国产在线观看精品| 亚洲国产精品国自产拍社区| 99久久精品久久免费| 国产免费一区二区不卡| 色无极东京热男人的天堂| 国产大屁股喷水在线观看视频 | 乱女午夜精品一区二区三区| 国产亚洲中文日韩欧美综合网| 在线观看视频日韩精品| 亚洲高清中文字幕一区二三区 | 国产精品久久男人的天堂| 麻豆一区二区三区在线免费| 好吊日在线视频免费观看|