天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

針對(duì)大規(guī)模網(wǎng)絡(luò)訪問數(shù)據(jù)的相關(guān)性及用戶行為預(yù)測(cè)分析

發(fā)布時(shí)間:2018-08-30 09:32
【摘要】:隨著互聯(lián)網(wǎng)的不斷普及和電子商務(wù)的深入發(fā)展,人們的生活方式也受到了深刻的影響。互聯(lián)網(wǎng)上的各種服務(wù),如web點(diǎn)擊瀏覽、搜索引擎、網(wǎng)上購物、社交網(wǎng)站等,在為互聯(lián)網(wǎng)用戶提供便捷的同時(shí),也記錄了越來越多的用戶行為數(shù)據(jù),而這些大規(guī)模的網(wǎng)絡(luò)訪問數(shù)據(jù)間往往存在著某種隱含的特殊關(guān)系,如何從這些數(shù)據(jù)中挖掘出有價(jià)值的信息已成為研究的熱點(diǎn)。本文以運(yùn)營商大規(guī)模的DPI數(shù)據(jù)為基礎(chǔ),并結(jié)合爬蟲獲取的分類標(biāo)簽數(shù)據(jù),采用分布式的思想對(duì)數(shù)據(jù)實(shí)現(xiàn)分布式的統(tǒng)計(jì)分析、關(guān)聯(lián)分析,并基于用戶的歷史行為數(shù)據(jù),采用Markov預(yù)測(cè)模型中的PPM模型對(duì)用戶將來的行為進(jìn)行預(yù)測(cè)。本文主要是針對(duì)運(yùn)營商大規(guī)模的網(wǎng)絡(luò)訪問數(shù)據(jù)進(jìn)行處理分析,并結(jié)合基于Python實(shí)現(xiàn)的爬蟲程序,爬取網(wǎng)站URL以及對(duì)應(yīng)的分類標(biāo)簽數(shù)據(jù),然后采用Hadoop提供的HDFS實(shí)現(xiàn)對(duì)數(shù)據(jù)的分布式存儲(chǔ),并基于MapReduce框架實(shí)現(xiàn)對(duì)訪問數(shù)據(jù)可靠、高效的預(yù)處理以及針對(duì)汽車行業(yè)從頁面訪問量、獨(dú)立用戶數(shù)、平均訪問時(shí)長、集中訪問時(shí)間點(diǎn)分布四個(gè)角度進(jìn)行統(tǒng)計(jì)分析,然后利用爬蟲得到的汽車URL分類標(biāo)簽數(shù)據(jù)對(duì)DPI數(shù)據(jù)中的汽車行業(yè)用戶進(jìn)行識(shí)別,并提取汽車行業(yè)用戶的靜態(tài)行為特征和動(dòng)態(tài)行為特征,基于用戶的動(dòng)態(tài)行為序列即瀏覽行為和搜索行為進(jìn)行關(guān)聯(lián)規(guī)則挖掘和行為預(yù)測(cè)。以分布式的思想實(shí)現(xiàn)FP-Growth算法,并應(yīng)用于大規(guī)模的DPI數(shù)據(jù)中,然后對(duì)用戶的動(dòng)態(tài)行為序列進(jìn)行關(guān)聯(lián)規(guī)則挖掘,找出用戶動(dòng)態(tài)行為特征之間的關(guān)聯(lián)性,最后基于短期內(nèi)用戶歷史動(dòng)態(tài)行為特征序列的積累,構(gòu)建PPM預(yù)測(cè)模型對(duì)用戶的行為進(jìn)行預(yù)測(cè),在構(gòu)建預(yù)測(cè)模型前,對(duì)預(yù)測(cè)周期進(jìn)行了更為精確地劃分,選擇以小時(shí)為單位,根據(jù)用戶在前幾個(gè)時(shí)刻的歷史行為特征預(yù)測(cè)用戶下一時(shí)刻的行為,然后將預(yù)測(cè)得到的結(jié)果與用戶的實(shí)際訪問行為進(jìn)行比較,計(jì)算預(yù)測(cè)的準(zhǔn)確率,并得出預(yù)測(cè)準(zhǔn)確率隨著用戶訪問行為序列長度的增加而明顯提高的結(jié)論,最后,對(duì)所有的數(shù)據(jù)輸出結(jié)果進(jìn)行整理并以圖表的形式可視化呈現(xiàn)以便于進(jìn)行分析。
[Abstract]:With the continuous popularization of the Internet and the further development of electronic commerce, people's way of life has also been deeply affected. Various services on the Internet, such as web click browsing, search engine, online shopping, social networking sites and so on, not only provide convenience for Internet users, but also record more and more user behavior data. However, there is an implicit special relationship between these large-scale network access data. How to extract valuable information from these data has become a hot topic. Based on the large-scale DPI data of the operator and the classified label data obtained by the crawler, the distributed statistical analysis, association analysis and user's historical behavior data are realized by using the distributed idea in this paper. The PPM model of Markov prediction model is used to predict the future behavior of users. This paper is mainly for the operators of large-scale network access data processing and analysis, and based on the implementation of Python crawler program, crawling website URL and the corresponding classification label data, Then it uses HDFS provided by Hadoop to realize the distributed storage of data, and based on MapReduce framework to realize reliable access data, efficient preprocessing and the number of page visits, the number of independent users, and the average access time for the automobile industry. This paper makes statistical analysis from four angles of centralized access to the distribution of time points, and then identifies the automobile industry users in the DPI data by using the URL classification label data obtained by the crawler. The static and dynamic behavior characteristics of users in automobile industry are extracted, and association rules mining and behavior prediction are carried out based on the dynamic behavior sequence of users, namely browsing behavior and searching behavior. FP-Growth algorithm is implemented with distributed idea and applied to large-scale DPI data. Then association rule mining is carried out on user's dynamic behavior sequence to find out the correlation between user's dynamic behavior characteristics. Finally, based on the accumulation of historical dynamic behavior characteristics of users in a short period of time, a PPM prediction model is constructed to predict the behavior of users. Before the prediction model is constructed, the forecasting period is divided more accurately and the unit of hours is selected. According to the historical behavior characteristics of the user at the first few times, the behavior of the user at the next moment is predicted, and then the predicted results are compared with the actual user's access behavior, and the accuracy of the prediction is calculated. It is concluded that the prediction accuracy increases with the increase of the length of the user's access behavior sequence. Finally, all the data output results are sorted out and visualized in the form of charts to facilitate the analysis.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP393.0

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 彎彎;;對(duì)癥下藥 破解網(wǎng)絡(luò)訪問難題[J];網(wǎng)友世界;2011年18期

2 ;2000年的網(wǎng)絡(luò)訪問:無處不在的連接[J];計(jì)算機(jī)與網(wǎng)絡(luò);2000年Z1期

3 羅松林;撥號(hào)網(wǎng)絡(luò)訪問遠(yuǎn)程數(shù)據(jù)[J];上海微型計(jì)算機(jī);2001年03期

4 黃昆;;體育比賽網(wǎng)上行的背后——負(fù)載均衡“抵抗”網(wǎng)絡(luò)訪問[J];中國計(jì)算機(jī)用戶;2006年35期

5 曲廣平;郭迎娣;;工作組模型下網(wǎng)絡(luò)訪問過程分析與故障排除[J];煙臺(tái)職業(yè)學(xué)院學(xué)報(bào);2010年03期

6 郭柏文;;網(wǎng)絡(luò)訪問系統(tǒng)[J];通信技術(shù);1985年03期

7 周勇生;;不讓雙絞線拖累網(wǎng)絡(luò)訪問[J];電腦知識(shí)與技術(shù)(經(jīng)驗(yàn)技巧);2014年04期

8 彎彎;;切斷黑手!讓網(wǎng)絡(luò)訪問更安全[J];電腦知識(shí)與技術(shù)(經(jīng)驗(yàn)技巧);2014年06期

9 羅松林;利用撥號(hào)網(wǎng)絡(luò)訪問遠(yuǎn)程數(shù)據(jù)[J];家用電器;2000年12期

10 石恒;王勇;;企業(yè)內(nèi)部用戶網(wǎng)絡(luò)訪問監(jiān)控系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年09期

相關(guān)會(huì)議論文 前10條

1 羅志安;羅元鑫;;SSL協(xié)議及其在網(wǎng)絡(luò)訪問中的應(yīng)用[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十三卷)[C];2008年

2 武小年;周勝源;;數(shù)據(jù)挖掘在用戶行為可信研究中的應(yīng)用[A];第十一屆保密通信與信息安全現(xiàn)狀研討會(huì)論文集[C];2009年

3 樊旺斌;劉正捷;陳東;張海昕;;博客服務(wù)系統(tǒng)用戶行為研究——用戶訪談[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第2屆中國人機(jī)交互學(xué)術(shù)會(huì)議(CHCI'06)論文集[C];2006年

4 張書娟;董喜雙;關(guān)毅;;基于電子商務(wù)用戶行為的同義詞識(shí)別[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

5 曹建勛;劉奕群;岑榮偉;馬少平;茹立云;;基于用戶行為的色情網(wǎng)站識(shí)別[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

6 李海宏;翟靜;唐常杰;李智;;基于用戶行為挖掘的個(gè)性化Web瀏覽器原型[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

7 鄢小彬;肖新平;;基于灰色馬爾可夫模型的煤礦安全預(yù)測(cè)[A];第九屆中國青年信息與管理學(xué)者大會(huì)論文集[C];2007年

8 寇玉波;李玉坤;孟小峰;張相於;趙婧;;個(gè)人數(shù)據(jù)空間管理中的任務(wù)挖掘策略[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年

9 羅榮桂;黃敏鎂;;基于自適應(yīng)神經(jīng)模糊推理系統(tǒng)的服務(wù)業(yè)發(fā)展預(yù)測(cè)模型[A];Well-off Society Strategies and Systems Engineering--Proceedings of the 13th Annual Conference of System Engineering Society of China[C];2004年

10 王亮;劉豹;徐德民;;預(yù)測(cè)模型的選擇及其智能化實(shí)現(xiàn)[A];科學(xué)決策與系統(tǒng)工程——中國系統(tǒng)工程學(xué)會(huì)第六次年會(huì)論文集[C];1990年

相關(guān)重要報(bào)紙文章 前10條

1 張樹忠;《在網(wǎng)絡(luò)中隱身》另有方法[N];中國電腦教育報(bào);2004年

2 張旭軍;焦點(diǎn)永遠(yuǎn)不在已經(jīng)解決了的問題上[N];網(wǎng)絡(luò)世界;2007年

3 黑海豚;網(wǎng)絡(luò)訪問被誰劫持[N];電腦報(bào);2008年

4 編譯 宋麗娜;嚴(yán)格控制網(wǎng)絡(luò)訪問[N];計(jì)算機(jī)世界;2006年

5 曹雙力;合伙破曹[N];中國計(jì)算機(jī)報(bào);2004年

6 ;NAP偏重終端代理及接入服務(wù)[N];中國計(jì)算機(jī)報(bào);2008年

7 小常;巧妙控制用戶訪問共享[N];計(jì)算機(jī)世界;2004年

8 本報(bào)記者  張旭軍;優(yōu)化進(jìn)行時(shí)[N];網(wǎng)絡(luò)世界;2006年

9 張衛(wèi)平;解除Windows XP的文件共享限制[N];電腦報(bào);2004年

10 特約撰稿 董群;NAC與需求同脈搏[N];通信信息報(bào);2007年

相關(guān)博士學(xué)位論文 前10條

1 張少敏;擴(kuò)展組織PKI網(wǎng)絡(luò)訪問控制方法研究[D];西安電子科技大學(xué);2008年

2 蔣朦;社交媒體復(fù)雜行為分析與建模[D];清華大學(xué);2015年

3 陳亞睿;云計(jì)算環(huán)境下用戶行為認(rèn)證與安全控制研究[D];北京科技大學(xué);2012年

4 張亞楠;基于用戶行為的信任感知推薦方法研究[D];哈爾濱工程大學(xué);2014年

5 楊悅;基于網(wǎng)絡(luò)用戶行為的搜索排行榜研究[D];北京交通大學(xué);2013年

6 陽德青;面向社會(huì)網(wǎng)絡(luò)的用戶行為挖掘與應(yīng)用研究[D];復(fù)旦大學(xué);2013年

7 郭U,

本文編號(hào):2212676


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2212676.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶02df4***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com