天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

針對大規(guī)模網(wǎng)絡訪問數(shù)據(jù)的相關性及用戶行為預測分析

發(fā)布時間:2018-08-30 09:32
【摘要】:隨著互聯(lián)網(wǎng)的不斷普及和電子商務的深入發(fā)展,人們的生活方式也受到了深刻的影響;ヂ(lián)網(wǎng)上的各種服務,如web點擊瀏覽、搜索引擎、網(wǎng)上購物、社交網(wǎng)站等,在為互聯(lián)網(wǎng)用戶提供便捷的同時,也記錄了越來越多的用戶行為數(shù)據(jù),而這些大規(guī)模的網(wǎng)絡訪問數(shù)據(jù)間往往存在著某種隱含的特殊關系,如何從這些數(shù)據(jù)中挖掘出有價值的信息已成為研究的熱點。本文以運營商大規(guī)模的DPI數(shù)據(jù)為基礎,并結合爬蟲獲取的分類標簽數(shù)據(jù),采用分布式的思想對數(shù)據(jù)實現(xiàn)分布式的統(tǒng)計分析、關聯(lián)分析,并基于用戶的歷史行為數(shù)據(jù),采用Markov預測模型中的PPM模型對用戶將來的行為進行預測。本文主要是針對運營商大規(guī)模的網(wǎng)絡訪問數(shù)據(jù)進行處理分析,并結合基于Python實現(xiàn)的爬蟲程序,爬取網(wǎng)站URL以及對應的分類標簽數(shù)據(jù),然后采用Hadoop提供的HDFS實現(xiàn)對數(shù)據(jù)的分布式存儲,并基于MapReduce框架實現(xiàn)對訪問數(shù)據(jù)可靠、高效的預處理以及針對汽車行業(yè)從頁面訪問量、獨立用戶數(shù)、平均訪問時長、集中訪問時間點分布四個角度進行統(tǒng)計分析,然后利用爬蟲得到的汽車URL分類標簽數(shù)據(jù)對DPI數(shù)據(jù)中的汽車行業(yè)用戶進行識別,并提取汽車行業(yè)用戶的靜態(tài)行為特征和動態(tài)行為特征,基于用戶的動態(tài)行為序列即瀏覽行為和搜索行為進行關聯(lián)規(guī)則挖掘和行為預測。以分布式的思想實現(xiàn)FP-Growth算法,并應用于大規(guī)模的DPI數(shù)據(jù)中,然后對用戶的動態(tài)行為序列進行關聯(lián)規(guī)則挖掘,找出用戶動態(tài)行為特征之間的關聯(lián)性,最后基于短期內用戶歷史動態(tài)行為特征序列的積累,構建PPM預測模型對用戶的行為進行預測,在構建預測模型前,對預測周期進行了更為精確地劃分,選擇以小時為單位,根據(jù)用戶在前幾個時刻的歷史行為特征預測用戶下一時刻的行為,然后將預測得到的結果與用戶的實際訪問行為進行比較,計算預測的準確率,并得出預測準確率隨著用戶訪問行為序列長度的增加而明顯提高的結論,最后,對所有的數(shù)據(jù)輸出結果進行整理并以圖表的形式可視化呈現(xiàn)以便于進行分析。
[Abstract]:With the continuous popularization of the Internet and the further development of electronic commerce, people's way of life has also been deeply affected. Various services on the Internet, such as web click browsing, search engine, online shopping, social networking sites and so on, not only provide convenience for Internet users, but also record more and more user behavior data. However, there is an implicit special relationship between these large-scale network access data. How to extract valuable information from these data has become a hot topic. Based on the large-scale DPI data of the operator and the classified label data obtained by the crawler, the distributed statistical analysis, association analysis and user's historical behavior data are realized by using the distributed idea in this paper. The PPM model of Markov prediction model is used to predict the future behavior of users. This paper is mainly for the operators of large-scale network access data processing and analysis, and based on the implementation of Python crawler program, crawling website URL and the corresponding classification label data, Then it uses HDFS provided by Hadoop to realize the distributed storage of data, and based on MapReduce framework to realize reliable access data, efficient preprocessing and the number of page visits, the number of independent users, and the average access time for the automobile industry. This paper makes statistical analysis from four angles of centralized access to the distribution of time points, and then identifies the automobile industry users in the DPI data by using the URL classification label data obtained by the crawler. The static and dynamic behavior characteristics of users in automobile industry are extracted, and association rules mining and behavior prediction are carried out based on the dynamic behavior sequence of users, namely browsing behavior and searching behavior. FP-Growth algorithm is implemented with distributed idea and applied to large-scale DPI data. Then association rule mining is carried out on user's dynamic behavior sequence to find out the correlation between user's dynamic behavior characteristics. Finally, based on the accumulation of historical dynamic behavior characteristics of users in a short period of time, a PPM prediction model is constructed to predict the behavior of users. Before the prediction model is constructed, the forecasting period is divided more accurately and the unit of hours is selected. According to the historical behavior characteristics of the user at the first few times, the behavior of the user at the next moment is predicted, and then the predicted results are compared with the actual user's access behavior, and the accuracy of the prediction is calculated. It is concluded that the prediction accuracy increases with the increase of the length of the user's access behavior sequence. Finally, all the data output results are sorted out and visualized in the form of charts to facilitate the analysis.
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP393.0

【相似文獻】

相關期刊論文 前10條

1 彎彎;;對癥下藥 破解網(wǎng)絡訪問難題[J];網(wǎng)友世界;2011年18期

2 ;2000年的網(wǎng)絡訪問:無處不在的連接[J];計算機與網(wǎng)絡;2000年Z1期

3 羅松林;撥號網(wǎng)絡訪問遠程數(shù)據(jù)[J];上海微型計算機;2001年03期

4 黃昆;;體育比賽網(wǎng)上行的背后——負載均衡“抵抗”網(wǎng)絡訪問[J];中國計算機用戶;2006年35期

5 曲廣平;郭迎娣;;工作組模型下網(wǎng)絡訪問過程分析與故障排除[J];煙臺職業(yè)學院學報;2010年03期

6 郭柏文;;網(wǎng)絡訪問系統(tǒng)[J];通信技術;1985年03期

7 周勇生;;不讓雙絞線拖累網(wǎng)絡訪問[J];電腦知識與技術(經(jīng)驗技巧);2014年04期

8 彎彎;;切斷黑手!讓網(wǎng)絡訪問更安全[J];電腦知識與技術(經(jīng)驗技巧);2014年06期

9 羅松林;利用撥號網(wǎng)絡訪問遠程數(shù)據(jù)[J];家用電器;2000年12期

10 石恒;王勇;;企業(yè)內部用戶網(wǎng)絡訪問監(jiān)控系統(tǒng)的研究與實現(xiàn)[J];計算機系統(tǒng)應用;2009年09期

相關會議論文 前10條

1 羅志安;羅元鑫;;SSL協(xié)議及其在網(wǎng)絡訪問中的應用[A];全國計算機安全學術交流會論文集(第二十三卷)[C];2008年

2 武小年;周勝源;;數(shù)據(jù)挖掘在用戶行為可信研究中的應用[A];第十一屆保密通信與信息安全現(xiàn)狀研討會論文集[C];2009年

3 樊旺斌;劉正捷;陳東;張海昕;;博客服務系統(tǒng)用戶行為研究——用戶訪談[A];第二屆和諧人機環(huán)境聯(lián)合學術會議(HHME2006)——第2屆中國人機交互學術會議(CHCI'06)論文集[C];2006年

4 張書娟;董喜雙;關毅;;基于電子商務用戶行為的同義詞識別[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

5 曹建勛;劉奕群;岑榮偉;馬少平;茹立云;;基于用戶行為的色情網(wǎng)站識別[A];第六屆全國信息檢索學術會議論文集[C];2010年

6 李海宏;翟靜;唐常杰;李智;;基于用戶行為挖掘的個性化Web瀏覽器原型[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年

7 鄢小彬;肖新平;;基于灰色馬爾可夫模型的煤礦安全預測[A];第九屆中國青年信息與管理學者大會論文集[C];2007年

8 寇玉波;李玉坤;孟小峰;張相於;趙婧;;個人數(shù)據(jù)空間管理中的任務挖掘策略[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年

9 羅榮桂;黃敏鎂;;基于自適應神經(jīng)模糊推理系統(tǒng)的服務業(yè)發(fā)展預測模型[A];Well-off Society Strategies and Systems Engineering--Proceedings of the 13th Annual Conference of System Engineering Society of China[C];2004年

10 王亮;劉豹;徐德民;;預測模型的選擇及其智能化實現(xiàn)[A];科學決策與系統(tǒng)工程——中國系統(tǒng)工程學會第六次年會論文集[C];1990年

相關重要報紙文章 前10條

1 張樹忠;《在網(wǎng)絡中隱身》另有方法[N];中國電腦教育報;2004年

2 張旭軍;焦點永遠不在已經(jīng)解決了的問題上[N];網(wǎng)絡世界;2007年

3 黑海豚;網(wǎng)絡訪問被誰劫持[N];電腦報;2008年

4 編譯 宋麗娜;嚴格控制網(wǎng)絡訪問[N];計算機世界;2006年

5 曹雙力;合伙破曹[N];中國計算機報;2004年

6 ;NAP偏重終端代理及接入服務[N];中國計算機報;2008年

7 小常;巧妙控制用戶訪問共享[N];計算機世界;2004年

8 本報記者  張旭軍;優(yōu)化進行時[N];網(wǎng)絡世界;2006年

9 張衛(wèi)平;解除Windows XP的文件共享限制[N];電腦報;2004年

10 特約撰稿 董群;NAC與需求同脈搏[N];通信信息報;2007年

相關博士學位論文 前10條

1 張少敏;擴展組織PKI網(wǎng)絡訪問控制方法研究[D];西安電子科技大學;2008年

2 蔣朦;社交媒體復雜行為分析與建模[D];清華大學;2015年

3 陳亞睿;云計算環(huán)境下用戶行為認證與安全控制研究[D];北京科技大學;2012年

4 張亞楠;基于用戶行為的信任感知推薦方法研究[D];哈爾濱工程大學;2014年

5 楊悅;基于網(wǎng)絡用戶行為的搜索排行榜研究[D];北京交通大學;2013年

6 陽德青;面向社會網(wǎng)絡的用戶行為挖掘與應用研究[D];復旦大學;2013年

7 郭U,

本文編號:2212676


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2212676.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶02df4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com