基于Hadoop的IP用戶訪問行為動(dòng)機(jī)分析研究
本文選題:Hadoop + IP用戶。 參考:《北京信息科技大學(xué)》2017年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,基于其信息流動(dòng)自由、言論自由和使用自由的特點(diǎn),使得互聯(lián)網(wǎng)形成一個(gè)無國界的虛擬溝通網(wǎng)絡(luò),同時(shí)由于IP具有唯一性的特點(diǎn),所以它更像是人們?cè)诨ヂ?lián)網(wǎng)這個(gè)“社會(huì)”的“身份證”,它可以更鮮明的突出網(wǎng)絡(luò)IP用戶的個(gè)人特色。因此,從網(wǎng)絡(luò)日志中挖掘IP用戶的上網(wǎng)行為,以此發(fā)現(xiàn)用戶的搜索意圖、興趣偏好以及上網(wǎng)動(dòng)機(jī)具有十分重要的意義。不同于傳統(tǒng)的基于網(wǎng)絡(luò)日志的用戶行為分析方法,本文重點(diǎn)關(guān)注于網(wǎng)絡(luò)日志中蘊(yùn)含的隱性信息,通過對(duì)隱性信息的深入挖掘分析,找出IP用戶上網(wǎng)行為與用戶心理之間的關(guān)系,以期為IP用戶的上網(wǎng)行為分析研究提供新的思路與方向。具體的研究工作包括以下四個(gè)方面:(1)網(wǎng)絡(luò)日志數(shù)據(jù)的采集處理及IP輔助知識(shí)庫的構(gòu)建構(gòu)建了一套面向全球的IP地域類特征知識(shí)庫。針對(duì)采集到的日志數(shù)據(jù)中存在IP定位不全、沖突及噪聲數(shù)據(jù)等問題,實(shí)現(xiàn)了網(wǎng)絡(luò)日志數(shù)據(jù)的清洗、整理和存儲(chǔ)。針對(duì)全球IP地域類特征的提取,該知識(shí)庫提升了對(duì)IP地理位置的查詢效果,同時(shí)為IP地域類特征的精確提取提供了一種可行的解決方案也為后續(xù)的IP用戶上網(wǎng)行為特征的提取提供了數(shù)據(jù)支撐。(2)網(wǎng)絡(luò)用戶上網(wǎng)行為分析及異常流量檢測(cè)方法研究提出了一種基于滑動(dòng)時(shí)間窗口的網(wǎng)絡(luò)異常流量檢測(cè)方法。通過分析網(wǎng)絡(luò)日志,分別從IP用戶的地域分布、活躍時(shí)間分布和訪問內(nèi)容分布三個(gè)層面對(duì)網(wǎng)絡(luò)用戶的上網(wǎng)行為進(jìn)行分析,并采用滑動(dòng)時(shí)間窗口技術(shù),對(duì)特定時(shí)間段下的網(wǎng)絡(luò)異常流量進(jìn)行分析檢測(cè),實(shí)現(xiàn)對(duì)異常IP的監(jiān)督與關(guān)注。通過設(shè)計(jì)的相關(guān)實(shí)驗(yàn)驗(yàn)證,結(jié)果表明,所提出的基于滑動(dòng)時(shí)間窗技術(shù)的異常流量檢測(cè)方法是有效和可行性的。(3)IP用戶訪問內(nèi)容的主題發(fā)現(xiàn)及用戶聚類方法研究提出了一種基于LDA(Latent Dirichlet Allocation)模型的用戶訪問內(nèi)容的主題發(fā)現(xiàn)方法,該方法既彌補(bǔ)了原有LDA模型提取的主題分散之缺點(diǎn),又解決了主題知識(shí)庫詞匯不完整的問題。同時(shí),通過對(duì)IP用戶所訪問的URL解析,提取訪問頁面的關(guān)鍵字、標(biāo)題及網(wǎng)頁描述等內(nèi)容信息,利用K-means聚類算法實(shí)現(xiàn)了對(duì)具有相似訪問內(nèi)容的IP用戶的聚類。(4)網(wǎng)絡(luò)用戶上網(wǎng)行為動(dòng)機(jī)分析方法研究網(wǎng)絡(luò)用戶所訪問的內(nèi)容可以反映其上網(wǎng)的動(dòng)機(jī),因此,我們可以將上網(wǎng)動(dòng)機(jī)的發(fā)現(xiàn)轉(zhuǎn)換成對(duì)其所訪問內(nèi)容的分類問題。提出了一種基于LIBSVM模型和LIBLINEAR模型相融合的加權(quán)分類模型LLA(Libsvm and Liblinear Algorithm)。該模型針對(duì)LIBSVM分類準(zhǔn)確率高和LIBLINEAR適于大數(shù)據(jù)的特點(diǎn),通過實(shí)驗(yàn)分析,對(duì)兩個(gè)模型進(jìn)行加權(quán)處理,以得到面向大數(shù)據(jù)處理的更優(yōu)分類模型,兩種模型的加權(quán)權(quán)重通過實(shí)驗(yàn)獲得。實(shí)驗(yàn)結(jié)果表明,LLA模型在對(duì)在用戶行為動(dòng)機(jī)分類中,取得了較高的準(zhǔn)確率。
[Abstract]:With the rapid development of Internet technology, based on the characteristics of freedom of information flow, freedom of speech and freedom of use, the Internet has formed a virtual communication network without national boundaries. At the same time, due to the unique characteristics of IP, So it is more like the Internet, the "social" identity card ", it can highlight the personal characteristics of network IP users. Therefore, it is of great significance to mine IP users' Internet behavior from web logs and to find out users' search intention, interest preference and Internet motivation. Different from the traditional method of user behavior analysis based on network log, this paper focuses on the hidden information contained in the log, through the in-depth mining and analysis of the hidden information, find out the relationship between IP users' online behavior and users' psychology. In order to provide a new way of thinking and research for IP users'Internet behavior analysis. The specific research work includes the following four aspects: 1) the collection and processing of network log data and the construction of a set of global IP geographical feature knowledge base. Aiming at the problems of incomplete IP location, collision and noise data in the collected log data, the cleaning, sorting and storing of the log data are realized. According to the feature extraction of global IP region, the knowledge base improves the query effect of IP geographical location. At the same time, it provides a feasible solution for the accurate extraction of IP regional features, and provides data support for the subsequent IP users' Internet behavior feature extraction. 2) Network users' Internet behavior analysis and abnormal traffic detection method. A method of network anomaly detection based on sliding time window is proposed. By analyzing the network log, this paper analyzes the Internet access behavior of the network users from the three aspects of IP users' geographical distribution, active time distribution and access content distribution, and adopts sliding time window technology. This paper analyzes and detects the abnormal network traffic in a specific time period, and monitors and pays attention to the abnormal IP. The experimental results show that, The proposed method of anomaly traffic detection based on sliding time window is effective and feasible. The topic discovery and user clustering method of IP user access content based on LDA(Latent Dirichlet allocation model is proposed. A user access content based on LDA(Latent Dirichlet allocation model is proposed. Method of topic discovery, This method not only makes up for the problem of topic dispersion in the original LDA model, but also solves the problem that the topic knowledge base vocabulary is incomplete. At the same time, by parsing the URL visited by IP users, the key words, title and description of the page are extracted. Using K-means clustering algorithm to realize clustering of IP users with similar access content. We can convert the discovery of Internet motivation into a classification of the content it accesses. A weighted classification model, LLA(Libsvm and Liblinear algorithm, is proposed based on the fusion of LIBSVM model and LIBLINEAR model. According to the characteristics of LIBSVM classification accuracy and LIBLINEAR suitable for big data, the two models are weighted by experimental analysis to obtain a better classification model for big data processing. The weighted weights of the two models are obtained by experiments. The experimental results show that the LLA model has a high accuracy in user behavior motivation classification.
【學(xué)位授予單位】:北京信息科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉晶;王偉;雷靂;;青少年移動(dòng)社交媒介使用特點(diǎn)及對(duì)教育的啟示[J];教學(xué)與管理;2016年21期
2 張艷華;張仰森;馬紅霞;;一種網(wǎng)絡(luò)日志屬性挖掘與分析方法[J];計(jì)算機(jī)應(yīng)用研究;2017年05期
3 歐陽楊帆;;從學(xué)習(xí)動(dòng)機(jī)理論看大學(xué)生學(xué)習(xí)問題[J];亞太教育;2016年03期
4 邵天會(huì);;基于Web日志挖掘的路徑補(bǔ)充算法改進(jìn)[J];中國新通信;2015年22期
5 李晶晶;徐丹;張永超;;基于云計(jì)算的行業(yè)化數(shù)據(jù)中心架構(gòu)分析[J];數(shù)字通信世界;2015年09期
6 王鵬;高鋮;陳曉美;;基于LDA模型的文本聚類研究[J];情報(bào)科學(xué);2015年01期
7 周松松;馬建紅;;基于URL相似度的會(huì)話識(shí)別方法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2014年12期
8 吳國強(qiáng);;網(wǎng)絡(luò)安全事件關(guān)聯(lián)分析與態(tài)勢(shì)評(píng)測(cè)技術(shù)研究[J];信息安全與技術(shù);2014年12期
9 左軍;;基于大數(shù)據(jù)的網(wǎng)絡(luò)用戶行為分析[J];軟件工程師;2014年10期
10 歐衛(wèi);謝贊福;謝彬彬;歐繽憶;;基于LDA模型的社交網(wǎng)絡(luò)主題社區(qū)挖掘[J];計(jì)算機(jī)與現(xiàn)代化;2014年08期
相關(guān)博士學(xué)位論文 前1條
1 郭春;基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測(cè)關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 楊志忠;基于Hadoop的網(wǎng)絡(luò)用戶行為分析[D];蘭州理工大學(xué);2016年
2 卜曉寧;基于大數(shù)據(jù)中查詢?nèi)罩镜挠脩粜袨榉治鱿到y(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京交通大學(xué);2015年
3 牛萍;TF-IDF與規(guī)則結(jié)合的中文關(guān)鍵詞自動(dòng)抽取研究[D];大連理工大學(xué);2015年
4 楊清龍;基于網(wǎng)絡(luò)日志的互聯(lián)網(wǎng)用戶行為分析[D];華中科技大學(xué);2013年
5 周婷婷;基于海量查詢?nèi)罩镜臄?shù)據(jù)挖掘及用戶行為分析[D];北京郵電大學(xué);2013年
6 田海宇;網(wǎng)絡(luò)安全事故應(yīng)對(duì)策略分析與實(shí)現(xiàn)[D];黑龍江大學(xué);2011年
7 郗洋;基于云計(jì)算的并行聚類算法研究[D];南京郵電大學(xué);2011年
8 葛秀豪;基于SaaS模式的流程引擎和規(guī)則引擎服務(wù)模型研究[D];南京郵電大學(xué);2011年
9 柴學(xué)智;面向云計(jì)算的工作流系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];上海交通大學(xué);2011年
10 陳文臣;Web日志挖掘技術(shù)的研究與應(yīng)用[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
,本文編號(hào):1972491
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1972491.html