基于Hadoop的IP用戶(hù)訪問(wèn)行為動(dòng)機(jī)分析研究
本文選題:Hadoop + IP用戶(hù); 參考:《北京信息科技大學(xué)》2017年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,基于其信息流動(dòng)自由、言論自由和使用自由的特點(diǎn),使得互聯(lián)網(wǎng)形成一個(gè)無(wú)國(guó)界的虛擬溝通網(wǎng)絡(luò),同時(shí)由于IP具有唯一性的特點(diǎn),所以它更像是人們?cè)诨ヂ?lián)網(wǎng)這個(gè)“社會(huì)”的“身份證”,它可以更鮮明的突出網(wǎng)絡(luò)IP用戶(hù)的個(gè)人特色。因此,從網(wǎng)絡(luò)日志中挖掘IP用戶(hù)的上網(wǎng)行為,以此發(fā)現(xiàn)用戶(hù)的搜索意圖、興趣偏好以及上網(wǎng)動(dòng)機(jī)具有十分重要的意義。不同于傳統(tǒng)的基于網(wǎng)絡(luò)日志的用戶(hù)行為分析方法,本文重點(diǎn)關(guān)注于網(wǎng)絡(luò)日志中蘊(yùn)含的隱性信息,通過(guò)對(duì)隱性信息的深入挖掘分析,找出IP用戶(hù)上網(wǎng)行為與用戶(hù)心理之間的關(guān)系,以期為IP用戶(hù)的上網(wǎng)行為分析研究提供新的思路與方向。具體的研究工作包括以下四個(gè)方面:(1)網(wǎng)絡(luò)日志數(shù)據(jù)的采集處理及IP輔助知識(shí)庫(kù)的構(gòu)建構(gòu)建了一套面向全球的IP地域類(lèi)特征知識(shí)庫(kù)。針對(duì)采集到的日志數(shù)據(jù)中存在IP定位不全、沖突及噪聲數(shù)據(jù)等問(wèn)題,實(shí)現(xiàn)了網(wǎng)絡(luò)日志數(shù)據(jù)的清洗、整理和存儲(chǔ)。針對(duì)全球IP地域類(lèi)特征的提取,該知識(shí)庫(kù)提升了對(duì)IP地理位置的查詢(xún)效果,同時(shí)為IP地域類(lèi)特征的精確提取提供了一種可行的解決方案也為后續(xù)的IP用戶(hù)上網(wǎng)行為特征的提取提供了數(shù)據(jù)支撐。(2)網(wǎng)絡(luò)用戶(hù)上網(wǎng)行為分析及異常流量檢測(cè)方法研究提出了一種基于滑動(dòng)時(shí)間窗口的網(wǎng)絡(luò)異常流量檢測(cè)方法。通過(guò)分析網(wǎng)絡(luò)日志,分別從IP用戶(hù)的地域分布、活躍時(shí)間分布和訪問(wèn)內(nèi)容分布三個(gè)層面對(duì)網(wǎng)絡(luò)用戶(hù)的上網(wǎng)行為進(jìn)行分析,并采用滑動(dòng)時(shí)間窗口技術(shù),對(duì)特定時(shí)間段下的網(wǎng)絡(luò)異常流量進(jìn)行分析檢測(cè),實(shí)現(xiàn)對(duì)異常IP的監(jiān)督與關(guān)注。通過(guò)設(shè)計(jì)的相關(guān)實(shí)驗(yàn)驗(yàn)證,結(jié)果表明,所提出的基于滑動(dòng)時(shí)間窗技術(shù)的異常流量檢測(cè)方法是有效和可行性的。(3)IP用戶(hù)訪問(wèn)內(nèi)容的主題發(fā)現(xiàn)及用戶(hù)聚類(lèi)方法研究提出了一種基于LDA(Latent Dirichlet Allocation)模型的用戶(hù)訪問(wèn)內(nèi)容的主題發(fā)現(xiàn)方法,該方法既彌補(bǔ)了原有LDA模型提取的主題分散之缺點(diǎn),又解決了主題知識(shí)庫(kù)詞匯不完整的問(wèn)題。同時(shí),通過(guò)對(duì)IP用戶(hù)所訪問(wèn)的URL解析,提取訪問(wèn)頁(yè)面的關(guān)鍵字、標(biāo)題及網(wǎng)頁(yè)描述等內(nèi)容信息,利用K-means聚類(lèi)算法實(shí)現(xiàn)了對(duì)具有相似訪問(wèn)內(nèi)容的IP用戶(hù)的聚類(lèi)。(4)網(wǎng)絡(luò)用戶(hù)上網(wǎng)行為動(dòng)機(jī)分析方法研究網(wǎng)絡(luò)用戶(hù)所訪問(wèn)的內(nèi)容可以反映其上網(wǎng)的動(dòng)機(jī),因此,我們可以將上網(wǎng)動(dòng)機(jī)的發(fā)現(xiàn)轉(zhuǎn)換成對(duì)其所訪問(wèn)內(nèi)容的分類(lèi)問(wèn)題。提出了一種基于LIBSVM模型和LIBLINEAR模型相融合的加權(quán)分類(lèi)模型LLA(Libsvm and Liblinear Algorithm)。該模型針對(duì)LIBSVM分類(lèi)準(zhǔn)確率高和LIBLINEAR適于大數(shù)據(jù)的特點(diǎn),通過(guò)實(shí)驗(yàn)分析,對(duì)兩個(gè)模型進(jìn)行加權(quán)處理,以得到面向大數(shù)據(jù)處理的更優(yōu)分類(lèi)模型,兩種模型的加權(quán)權(quán)重通過(guò)實(shí)驗(yàn)獲得。實(shí)驗(yàn)結(jié)果表明,LLA模型在對(duì)在用戶(hù)行為動(dòng)機(jī)分類(lèi)中,取得了較高的準(zhǔn)確率。
[Abstract]:With the rapid development of Internet technology, based on the characteristics of freedom of information flow, freedom of speech and freedom of use, the Internet has formed a virtual communication network without national boundaries. At the same time, due to the unique characteristics of IP, So it is more like the Internet, the "social" identity card ", it can highlight the personal characteristics of network IP users. Therefore, it is of great significance to mine IP users' Internet behavior from web logs and to find out users' search intention, interest preference and Internet motivation. Different from the traditional method of user behavior analysis based on network log, this paper focuses on the hidden information contained in the log, through the in-depth mining and analysis of the hidden information, find out the relationship between IP users' online behavior and users' psychology. In order to provide a new way of thinking and research for IP users'Internet behavior analysis. The specific research work includes the following four aspects: 1) the collection and processing of network log data and the construction of a set of global IP geographical feature knowledge base. Aiming at the problems of incomplete IP location, collision and noise data in the collected log data, the cleaning, sorting and storing of the log data are realized. According to the feature extraction of global IP region, the knowledge base improves the query effect of IP geographical location. At the same time, it provides a feasible solution for the accurate extraction of IP regional features, and provides data support for the subsequent IP users' Internet behavior feature extraction. 2) Network users' Internet behavior analysis and abnormal traffic detection method. A method of network anomaly detection based on sliding time window is proposed. By analyzing the network log, this paper analyzes the Internet access behavior of the network users from the three aspects of IP users' geographical distribution, active time distribution and access content distribution, and adopts sliding time window technology. This paper analyzes and detects the abnormal network traffic in a specific time period, and monitors and pays attention to the abnormal IP. The experimental results show that, The proposed method of anomaly traffic detection based on sliding time window is effective and feasible. The topic discovery and user clustering method of IP user access content based on LDA(Latent Dirichlet allocation model is proposed. A user access content based on LDA(Latent Dirichlet allocation model is proposed. Method of topic discovery, This method not only makes up for the problem of topic dispersion in the original LDA model, but also solves the problem that the topic knowledge base vocabulary is incomplete. At the same time, by parsing the URL visited by IP users, the key words, title and description of the page are extracted. Using K-means clustering algorithm to realize clustering of IP users with similar access content. We can convert the discovery of Internet motivation into a classification of the content it accesses. A weighted classification model, LLA(Libsvm and Liblinear algorithm, is proposed based on the fusion of LIBSVM model and LIBLINEAR model. According to the characteristics of LIBSVM classification accuracy and LIBLINEAR suitable for big data, the two models are weighted by experimental analysis to obtain a better classification model for big data processing. The weighted weights of the two models are obtained by experiments. The experimental results show that the LLA model has a high accuracy in user behavior motivation classification.
【學(xué)位授予單位】:北京信息科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉晶;王偉;雷靂;;青少年移動(dòng)社交媒介使用特點(diǎn)及對(duì)教育的啟示[J];教學(xué)與管理;2016年21期
2 張艷華;張仰森;馬紅霞;;一種網(wǎng)絡(luò)日志屬性挖掘與分析方法[J];計(jì)算機(jī)應(yīng)用研究;2017年05期
3 歐陽(yáng)楊帆;;從學(xué)習(xí)動(dòng)機(jī)理論看大學(xué)生學(xué)習(xí)問(wèn)題[J];亞太教育;2016年03期
4 邵天會(huì);;基于Web日志挖掘的路徑補(bǔ)充算法改進(jìn)[J];中國(guó)新通信;2015年22期
5 李晶晶;徐丹;張永超;;基于云計(jì)算的行業(yè)化數(shù)據(jù)中心架構(gòu)分析[J];數(shù)字通信世界;2015年09期
6 王鵬;高鋮;陳曉美;;基于LDA模型的文本聚類(lèi)研究[J];情報(bào)科學(xué);2015年01期
7 周松松;馬建紅;;基于URL相似度的會(huì)話(huà)識(shí)別方法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2014年12期
8 吳國(guó)強(qiáng);;網(wǎng)絡(luò)安全事件關(guān)聯(lián)分析與態(tài)勢(shì)評(píng)測(cè)技術(shù)研究[J];信息安全與技術(shù);2014年12期
9 左軍;;基于大數(shù)據(jù)的網(wǎng)絡(luò)用戶(hù)行為分析[J];軟件工程師;2014年10期
10 歐衛(wèi);謝贊福;謝彬彬;歐繽憶;;基于LDA模型的社交網(wǎng)絡(luò)主題社區(qū)挖掘[J];計(jì)算機(jī)與現(xiàn)代化;2014年08期
相關(guān)博士學(xué)位論文 前1條
1 郭春;基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測(cè)關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 楊志忠;基于Hadoop的網(wǎng)絡(luò)用戶(hù)行為分析[D];蘭州理工大學(xué);2016年
2 卜曉寧;基于大數(shù)據(jù)中查詢(xún)?nèi)罩镜挠脩?hù)行為分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京交通大學(xué);2015年
3 牛萍;TF-IDF與規(guī)則結(jié)合的中文關(guān)鍵詞自動(dòng)抽取研究[D];大連理工大學(xué);2015年
4 楊清龍;基于網(wǎng)絡(luò)日志的互聯(lián)網(wǎng)用戶(hù)行為分析[D];華中科技大學(xué);2013年
5 周婷婷;基于海量查詢(xún)?nèi)罩镜臄?shù)據(jù)挖掘及用戶(hù)行為分析[D];北京郵電大學(xué);2013年
6 田海宇;網(wǎng)絡(luò)安全事故應(yīng)對(duì)策略分析與實(shí)現(xiàn)[D];黑龍江大學(xué);2011年
7 郗洋;基于云計(jì)算的并行聚類(lèi)算法研究[D];南京郵電大學(xué);2011年
8 葛秀豪;基于SaaS模式的流程引擎和規(guī)則引擎服務(wù)模型研究[D];南京郵電大學(xué);2011年
9 柴學(xué)智;面向云計(jì)算的工作流系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];上海交通大學(xué);2011年
10 陳文臣;Web日志挖掘技術(shù)的研究與應(yīng)用[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
,本文編號(hào):1972491
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1972491.html