天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

移動(dòng)流量中基于用戶訪問(wèn)序列的表示學(xué)習(xí)及其應(yīng)用

發(fā)布時(shí)間:2020-03-31 08:42
【摘要】:近年來(lái),隨著移動(dòng)設(shè)備和4G網(wǎng)絡(luò)的普及,移動(dòng)互聯(lián)網(wǎng)深刻的影響著人們的生活方式。理解和分析移動(dòng)應(yīng)用服務(wù)、挖掘用戶行為特點(diǎn)對(duì)提供更好的移動(dòng)網(wǎng)絡(luò)服務(wù)有著重要的意義。本文基于真實(shí)的移動(dòng)互聯(lián)網(wǎng)流量提出一套通用的知識(shí)挖掘方法,利用基于神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)技術(shù),自動(dòng)的學(xué)習(xí)域名和用戶的表示向量,并將其應(yīng)用到多個(gè)不同的機(jī)器學(xué)習(xí)任務(wù)場(chǎng)景中。本文的主要工作如下:(1)基于大規(guī)模移動(dòng)DPI流量,利用分布式處理技術(shù)抽取用戶的訪問(wèn)序列。基于用戶訪問(wèn)序列數(shù)據(jù),利用三層的神經(jīng)網(wǎng)絡(luò),以預(yù)測(cè)周?chē)蛎哪繕?biāo)來(lái)學(xué)習(xí)出域名和用戶的表示向量,并將其應(yīng)用到聚類(lèi)、分類(lèi)等各種機(jī)器學(xué)習(xí)系統(tǒng)中。(2)對(duì)于從DPI數(shù)據(jù)中學(xué)習(xí)到的域名向量,我們將其應(yīng)用到域名分類(lèi)的任務(wù)中。實(shí)驗(yàn)表明,利用域名表示向量對(duì)不同公司的域名分類(lèi)正確率能夠達(dá)到93%,對(duì)不同業(yè)務(wù)類(lèi)別的域名分類(lèi)正確率能夠達(dá)到85%;此外我們還通過(guò)度量域名的余弦距離進(jìn)行域名的關(guān)系挖掘。(3)對(duì)于從DPI數(shù)據(jù)中學(xué)習(xí)到的用戶向量,我們將其應(yīng)用到用戶聚類(lèi)中,并借助于人工標(biāo)注的知識(shí)規(guī)則對(duì)聚類(lèi)結(jié)果進(jìn)行了詳細(xì)的商業(yè)興趣分析;此外,我們基于用戶表示向量進(jìn)行特征轉(zhuǎn)化,再利用孤立森林算法來(lái)進(jìn)行用戶異常檢測(cè)。實(shí)驗(yàn)驗(yàn)證了我們的方法的有效性。
【圖文】:

神經(jīng),矩陣分解


愛(ài)好邐1000邐0邐1逡逑深度學(xué)習(xí)邐0邐]邐0邐0邐0邐0逡逑自然語(yǔ)言處理邐0100邐0邐0逡逑運(yùn)動(dòng)邐0邐0邐1邐0邐0邐0逡逑基于共現(xiàn)矩陣的辦法能夠解決向量體現(xiàn)語(yǔ)意的問(wèn)題,但是沒(méi)有解決維度太高逡逑的問(wèn)題,每個(gè)向量的維度仍然等于語(yǔ)料庫(kù)的不同詞的個(gè)數(shù),并且向量仍然非常稀逡逑疏。我們可以通過(guò)降維的方法來(lái)將這高維度且系數(shù)的向量降低至低維度空間。常逡逑用的方法有矩陣奇異值分解集和非負(fù)矩陣分解。雖然矩陣分解能夠降低維度,但逡逑是矩陣分解也會(huì)有它的問(wèn)題,首先矩陣分解對(duì)計(jì)算要求比較高,其次它很難去學(xué)逡逑習(xí)新的詞,因?yàn)樗诜纸馇靶枰獦?gòu)建全局的共現(xiàn)矩陣。逡逑2.2.3基于神經(jīng)網(wǎng)絡(luò)的分布式表示模型逡逑2.2.3.1神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型逡逑基于神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)詞的分布式表示最初是由Bengi0[12I提出,該模型是基逡逑yL經(jīng)網(wǎng)絡(luò)建立的統(tǒng)計(jì)語(yǔ)言模型,簡(jiǎn)稱力NNLM,其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2-1所示。逡逑Softmax逡逑'逡逑

網(wǎng)絡(luò)結(jié)構(gòu)圖,網(wǎng)絡(luò)結(jié)構(gòu),超參數(shù),語(yǔ)料


邐.依賴逡逑圖2-2邋CBOWyL經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)逡逑具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖2-2所示。對(duì)于輸入的語(yǔ)料數(shù)據(jù),依據(jù)輸入的超參數(shù)窗逡逑口大小m,將每句話切分為若干個(gè)滑動(dòng)窗口,,對(duì)每個(gè)窗口內(nèi)其算法過(guò)程如下:逡逑1.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:TN929.5;TP393.06

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 段旭磊;張仰森;孫yN卓;;微博文本的句向量表示及相似度計(jì)算方法研究[J];計(jì)算機(jī)工程;2017年05期

2 黃仁;張衛(wèi);;基于word2vec的互聯(lián)網(wǎng)商品評(píng)論情感傾向研究[J];計(jì)算機(jī)科學(xué);2016年S1期

3 周昌令;欒興龍;肖建國(guó);;基于深度學(xué)習(xí)的域名查詢行為向量空間嵌入[J];通信學(xué)報(bào);2016年03期

4 劉知遠(yuǎn);孫茂松;林衍凱;謝若冰;;知識(shí)表示學(xué)習(xí)研究進(jìn)展[J];計(jì)算機(jī)研究與發(fā)展;2016年02期

5 陳維政;張巖;李曉明;;網(wǎng)絡(luò)表示學(xué)習(xí)[J];大數(shù)據(jù);2015年03期

6 李躍鵬;金翠;及俊川;;基于word2vec的關(guān)鍵詞提取算法[J];科研信息化技術(shù)與應(yīng)用;2015年04期

7 熊大平;王健;林鴻飛;;一種基于LDA的社區(qū)問(wèn)答問(wèn)句相似度計(jì)算方法[J];中文信息學(xué)報(bào);2012年05期

8 朱連江;馬炳先;趙學(xué)泉;;基于輪廓系數(shù)的聚類(lèi)有效性分析[J];計(jì)算機(jī)應(yīng)用;2010年S2期

9 關(guān)健,劉大昕;基于主成分分析的無(wú)監(jiān)督異常檢測(cè)[J];計(jì)算機(jī)研究與發(fā)展;2004年09期

10 劉志剛,李德仁,秦前清,史文中;支持向量機(jī)在多類(lèi)分類(lèi)問(wèn)題中的推廣[J];計(jì)算機(jī)工程與應(yīng)用;2004年07期



本文編號(hào):2608843

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2608843.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d25ea***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com