針對(duì)大規(guī)模網(wǎng)絡(luò)訪問數(shù)據(jù)的相關(guān)性及用戶行為預(yù)測(cè)分析
[Abstract]:With the continuous popularization of the Internet and the further development of electronic commerce, people's way of life has also been deeply affected. Various services on the Internet, such as web click browsing, search engine, online shopping, social networking sites and so on, not only provide convenience for Internet users, but also record more and more user behavior data. However, there is an implicit special relationship between these large-scale network access data. How to extract valuable information from these data has become a hot topic. Based on the large-scale DPI data of the operator and the classified label data obtained by the crawler, the distributed statistical analysis, association analysis and user's historical behavior data are realized by using the distributed idea in this paper. The PPM model of Markov prediction model is used to predict the future behavior of users. This paper is mainly for the operators of large-scale network access data processing and analysis, and based on the implementation of Python crawler program, crawling website URL and the corresponding classification label data, Then it uses HDFS provided by Hadoop to realize the distributed storage of data, and based on MapReduce framework to realize reliable access data, efficient preprocessing and the number of page visits, the number of independent users, and the average access time for the automobile industry. This paper makes statistical analysis from four angles of centralized access to the distribution of time points, and then identifies the automobile industry users in the DPI data by using the URL classification label data obtained by the crawler. The static and dynamic behavior characteristics of users in automobile industry are extracted, and association rules mining and behavior prediction are carried out based on the dynamic behavior sequence of users, namely browsing behavior and searching behavior. FP-Growth algorithm is implemented with distributed idea and applied to large-scale DPI data. Then association rule mining is carried out on user's dynamic behavior sequence to find out the correlation between user's dynamic behavior characteristics. Finally, based on the accumulation of historical dynamic behavior characteristics of users in a short period of time, a PPM prediction model is constructed to predict the behavior of users. Before the prediction model is constructed, the forecasting period is divided more accurately and the unit of hours is selected. According to the historical behavior characteristics of the user at the first few times, the behavior of the user at the next moment is predicted, and then the predicted results are compared with the actual user's access behavior, and the accuracy of the prediction is calculated. It is concluded that the prediction accuracy increases with the increase of the length of the user's access behavior sequence. Finally, all the data output results are sorted out and visualized in the form of charts to facilitate the analysis.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP393.0
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 彎彎;;對(duì)癥下藥 破解網(wǎng)絡(luò)訪問難題[J];網(wǎng)友世界;2011年18期
2 ;2000年的網(wǎng)絡(luò)訪問:無處不在的連接[J];計(jì)算機(jī)與網(wǎng)絡(luò);2000年Z1期
3 羅松林;撥號(hào)網(wǎng)絡(luò)訪問遠(yuǎn)程數(shù)據(jù)[J];上海微型計(jì)算機(jī);2001年03期
4 黃昆;;體育比賽網(wǎng)上行的背后——負(fù)載均衡“抵抗”網(wǎng)絡(luò)訪問[J];中國計(jì)算機(jī)用戶;2006年35期
5 曲廣平;郭迎娣;;工作組模型下網(wǎng)絡(luò)訪問過程分析與故障排除[J];煙臺(tái)職業(yè)學(xué)院學(xué)報(bào);2010年03期
6 郭柏文;;網(wǎng)絡(luò)訪問系統(tǒng)[J];通信技術(shù);1985年03期
7 周勇生;;不讓雙絞線拖累網(wǎng)絡(luò)訪問[J];電腦知識(shí)與技術(shù)(經(jīng)驗(yàn)技巧);2014年04期
8 彎彎;;切斷黑手!讓網(wǎng)絡(luò)訪問更安全[J];電腦知識(shí)與技術(shù)(經(jīng)驗(yàn)技巧);2014年06期
9 羅松林;利用撥號(hào)網(wǎng)絡(luò)訪問遠(yuǎn)程數(shù)據(jù)[J];家用電器;2000年12期
10 石恒;王勇;;企業(yè)內(nèi)部用戶網(wǎng)絡(luò)訪問監(jiān)控系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年09期
相關(guān)會(huì)議論文 前10條
1 羅志安;羅元鑫;;SSL協(xié)議及其在網(wǎng)絡(luò)訪問中的應(yīng)用[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十三卷)[C];2008年
2 武小年;周勝源;;數(shù)據(jù)挖掘在用戶行為可信研究中的應(yīng)用[A];第十一屆保密通信與信息安全現(xiàn)狀研討會(huì)論文集[C];2009年
3 樊旺斌;劉正捷;陳東;張海昕;;博客服務(wù)系統(tǒng)用戶行為研究——用戶訪談[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第2屆中國人機(jī)交互學(xué)術(shù)會(huì)議(CHCI'06)論文集[C];2006年
4 張書娟;董喜雙;關(guān)毅;;基于電子商務(wù)用戶行為的同義詞識(shí)別[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
5 曹建勛;劉奕群;岑榮偉;馬少平;茹立云;;基于用戶行為的色情網(wǎng)站識(shí)別[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
6 李海宏;翟靜;唐常杰;李智;;基于用戶行為挖掘的個(gè)性化Web瀏覽器原型[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
7 鄢小彬;肖新平;;基于灰色馬爾可夫模型的煤礦安全預(yù)測(cè)[A];第九屆中國青年信息與管理學(xué)者大會(huì)論文集[C];2007年
8 寇玉波;李玉坤;孟小峰;張相於;趙婧;;個(gè)人數(shù)據(jù)空間管理中的任務(wù)挖掘策略[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
9 羅榮桂;黃敏鎂;;基于自適應(yīng)神經(jīng)模糊推理系統(tǒng)的服務(wù)業(yè)發(fā)展預(yù)測(cè)模型[A];Well-off Society Strategies and Systems Engineering--Proceedings of the 13th Annual Conference of System Engineering Society of China[C];2004年
10 王亮;劉豹;徐德民;;預(yù)測(cè)模型的選擇及其智能化實(shí)現(xiàn)[A];科學(xué)決策與系統(tǒng)工程——中國系統(tǒng)工程學(xué)會(huì)第六次年會(huì)論文集[C];1990年
相關(guān)重要報(bào)紙文章 前10條
1 張樹忠;《在網(wǎng)絡(luò)中隱身》另有方法[N];中國電腦教育報(bào);2004年
2 張旭軍;焦點(diǎn)永遠(yuǎn)不在已經(jīng)解決了的問題上[N];網(wǎng)絡(luò)世界;2007年
3 黑海豚;網(wǎng)絡(luò)訪問被誰劫持[N];電腦報(bào);2008年
4 編譯 宋麗娜;嚴(yán)格控制網(wǎng)絡(luò)訪問[N];計(jì)算機(jī)世界;2006年
5 曹雙力;合伙破曹[N];中國計(jì)算機(jī)報(bào);2004年
6 ;NAP偏重終端代理及接入服務(wù)[N];中國計(jì)算機(jī)報(bào);2008年
7 小常;巧妙控制用戶訪問共享[N];計(jì)算機(jī)世界;2004年
8 本報(bào)記者 張旭軍;優(yōu)化進(jìn)行時(shí)[N];網(wǎng)絡(luò)世界;2006年
9 張衛(wèi)平;解除Windows XP的文件共享限制[N];電腦報(bào);2004年
10 特約撰稿 董群;NAC與需求同脈搏[N];通信信息報(bào);2007年
相關(guān)博士學(xué)位論文 前10條
1 張少敏;擴(kuò)展組織PKI網(wǎng)絡(luò)訪問控制方法研究[D];西安電子科技大學(xué);2008年
2 蔣朦;社交媒體復(fù)雜行為分析與建模[D];清華大學(xué);2015年
3 陳亞睿;云計(jì)算環(huán)境下用戶行為認(rèn)證與安全控制研究[D];北京科技大學(xué);2012年
4 張亞楠;基于用戶行為的信任感知推薦方法研究[D];哈爾濱工程大學(xué);2014年
5 楊悅;基于網(wǎng)絡(luò)用戶行為的搜索排行榜研究[D];北京交通大學(xué);2013年
6 陽德青;面向社會(huì)網(wǎng)絡(luò)的用戶行為挖掘與應(yīng)用研究[D];復(fù)旦大學(xué);2013年
7 郭U,
本文編號(hào):2212676
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2212676.html