基于大數(shù)據(jù)中查詢?nèi)罩镜挠脩粜袨榉治鱿到y(tǒng)的設(shè)計與實(shí)現(xiàn)
本文關(guān)鍵詞:基于大數(shù)據(jù)中查詢?nèi)罩镜挠脩粜袨榉治鱿到y(tǒng)的設(shè)計與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的普及和發(fā)展,人們之間通過網(wǎng)絡(luò)來進(jìn)行信息交流逐漸頻繁,然而,如何進(jìn)行有效的信息檢索隨之成為網(wǎng)民面臨的難題之一。搜索引擎通過將雜亂無序的信息組織起來,建立有序的索引文檔,為人們進(jìn)行有效的信息檢索提供了極大的方便。 用戶與搜索引擎交互的過程中會產(chǎn)生了大量的查詢?nèi)罩尽_@些用戶查詢?nèi)罩局邪S多和用戶相關(guān)的信息,可以直接捕捉到用戶的顯性需求并發(fā)掘其隱性需求,因此對用戶日志的研究越來越引起人們的關(guān)注。用戶查詢?nèi)罩臼艿礁鞔蠡ヂ?lián)網(wǎng)公司尤其是搜索類的互聯(lián)網(wǎng)公司的重視,它們都期望通過精準(zhǔn)及時的日志分析和挖掘來發(fā)現(xiàn)用戶的行為特征,以此提高用戶使用的滿意度,進(jìn)而提升企業(yè)的市場競爭力。另一方面,隨著日志數(shù)量指數(shù)式的增長,如何有效快速地處理大量的日志成為一個挑戰(zhàn),這對于傳統(tǒng)的數(shù)據(jù)庫的存儲模式和服務(wù)器的計算性能都是考驗(yàn),而Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。利用分布式技術(shù)存儲并計算海量日志,使得對查詢?nèi)罩镜难芯孔兊酶臃奖恪?基于以上現(xiàn)狀并閱讀大量參考文獻(xiàn)后,本文通過對搜索引擎日志產(chǎn)生的過程進(jìn)行詳細(xì)分析,以Hadoop為平臺,運(yùn)用HDFS分布式文件系統(tǒng)存儲海量日志并采用MapReduce計算模式,設(shè)計了一個基于海量查詢?nèi)罩镜挠脩粜袨榉治銎脚_,主要包括四個模塊,即日志采集模塊、日志存儲模塊、日志分析模塊和數(shù)據(jù)可視化模塊。其中,日志分析模塊為整個系統(tǒng)的重點(diǎn),主要從關(guān)鍵字排名、URL排名、主機(jī)排名、用戶搜索統(tǒng)計、時間段統(tǒng)計、日搜索統(tǒng)計六個維度對搜索日志進(jìn)行了分析,并以Web文本挖掘的流程為思路對用戶查詢?nèi)罩具M(jìn)行挖掘。最后,通過搭建實(shí)驗(yàn)環(huán)境來驗(yàn)證本平臺,分析了分布式平臺的運(yùn)行效率,對系統(tǒng)平臺進(jìn)行性能優(yōu)化,并對優(yōu)化前后系統(tǒng)運(yùn)行耗時進(jìn)行了對比分析。通過實(shí)驗(yàn)數(shù)據(jù)表明,論文中所設(shè)計的基于查詢?nèi)罩镜挠脩粜袨榉治鱿到y(tǒng)具有良好的有效性和可靠性。
【關(guān)鍵詞】:大數(shù)據(jù) Hadoop 查詢?nèi)罩痉治?/strong> 用戶行為
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP311.52
【目錄】:
- 致謝5-6
- 摘要6-7
- ABSTRACT7-9
- 目錄9-12
- 1 緒論12-16
- 1.1 研究背景及意義12-14
- 1.1.1 社會背景12-13
- 1.1.2 技術(shù)背景13
- 1.1.3 研究意義13-14
- 1.2 國內(nèi)外研究現(xiàn)狀14
- 1.3 論文主要工作14-15
- 1.4 論文組織結(jié)構(gòu)15-16
- 2 相關(guān)技術(shù)介紹16-29
- 2.1 Hadoop框架16-22
- 2.1.1 Hadoop技術(shù)簡介16-17
- 2.1.2 HDFS分布式文件系統(tǒng)17-19
- 2.1.3 MapReduce計算模式19-22
- 2.2 Web文本聚類22-28
- 2.2.1 Web文本聚類概念22
- 2.2.2 Web文本聚類過程22-23
- 2.2.3 Web文本聚類技術(shù)23-28
- 2.3 本章小結(jié)28-29
- 3 用戶行為分析系統(tǒng)的總體設(shè)計29-33
- 3.1 系統(tǒng)需求分析29-31
- 3.1.1 項目背景及目標(biāo)29-30
- 3.1.2 系統(tǒng)業(yè)務(wù)需求30
- 3.1.3 系統(tǒng)功能需求30-31
- 3.2 系統(tǒng)總體架構(gòu)設(shè)計31-32
- 3.2.1 Hadoop集群層31-32
- 3.2.2 HDFS存儲層32
- 3.2.3 MapReduce計算層32
- 3.2.4 業(yè)務(wù)邏輯層32
- 3.2.5 用戶接口層32
- 3.3 本章小結(jié)32-33
- 4 用戶行為分析系統(tǒng)的詳細(xì)設(shè)計33-47
- 4.1 日志采集33-35
- 4.1.1 搜索引擎日志的產(chǎn)生33-34
- 4.1.2 搜索引擎日志的類型34
- 4.1.3 搜索引擎日志的采集34-35
- 4.2 日志存儲35-39
- 4.2.1 存儲模塊的設(shè)計目標(biāo)35-36
- 4.2.2 存儲模塊類36-39
- 4.3 日志分析39-44
- 4.3.1 用戶搜索關(guān)鍵字排行分析39-41
- 4.3.2 用戶點(diǎn)擊URL排行分析41-42
- 4.3.3 相關(guān)關(guān)鍵字分析42-44
- 4.4 數(shù)據(jù)可視化44-46
- 4.4.1 大數(shù)據(jù)可視化的特性44-45
- 4.4.2 數(shù)據(jù)可視化工具45-46
- 4.5 本章小結(jié)46-47
- 5 用戶行為分析系統(tǒng)的實(shí)現(xiàn)47-67
- 5.1 系統(tǒng)環(huán)境說明47-48
- 5.1.1 軟硬件環(huán)境47
- 5.1.2 集群網(wǎng)絡(luò)環(huán)境47-48
- 5.2 系統(tǒng)環(huán)境搭建48-52
- 5.2.1 配置本地環(huán)境48
- 5.2.2 設(shè)置SSH無密碼互聯(lián)環(huán)境48-49
- 5.2.3 配置Hadoop49-52
- 5.3 實(shí)驗(yàn)與結(jié)果分析52-66
- 5.3.1 數(shù)據(jù)來源53-54
- 5.3.2 用戶登錄54
- 5.3.3 日志導(dǎo)入54-55
- 5.3.4 用戶行為分析55-64
- 5.3.5 系統(tǒng)效率分析64-65
- 5.3.6 系統(tǒng)優(yōu)化65-66
- 5.4 本章小結(jié)66-67
- 6 總結(jié)與展望67-68
- 參考文獻(xiàn)68-70
- 作者簡歷70-72
- 學(xué)位論文數(shù)據(jù)集72
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王剛;張順;;Web數(shù)據(jù)挖掘在搜索引擎中的運(yùn)用[J];計算機(jī)光盤軟件與應(yīng)用;2013年16期
2 王建勇,單松巍,雷鳴,謝正茂,李曉明;海量Web搜索引擎系統(tǒng)中用戶行為的分布特征及其啟示[J];中國科學(xué)E輯:技術(shù)科學(xué);2001年04期
3 陽小華;周龍驤;;World Wide Web的索引與查詢技術(shù)[J];計算機(jī)科學(xué);1997年06期
4 楊文峰,李星;網(wǎng)絡(luò)搜索引擎的用戶查詢分析[J];計算機(jī)工程;2001年06期
5 陳全;鄧倩妮;;云計算及其關(guān)鍵技術(shù)[J];計算機(jī)應(yīng)用;2009年09期
6 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學(xué)報;2007年01期
7 馮汝偉;謝強(qiáng);丁秋林;;基于文本聚類與分布式Lucene的知識檢索[J];計算機(jī)應(yīng)用;2013年01期
8 董志安;呂學(xué)強(qiáng);;基于百度搜索日志的用戶行為分析[J];計算機(jī)應(yīng)用與軟件;2013年07期
9 李建迎;;基于FusionCharts的圖形驗(yàn)證碼的研究與實(shí)現(xiàn)[J];計算機(jī)應(yīng)用與軟件;2014年08期
10 孫彥超;王興芬;;基于Hadoop框架的MapReduce計算模式的優(yōu)化設(shè)計[J];計算機(jī)科學(xué);2014年S2期
本文關(guān)鍵詞:基于大數(shù)據(jù)中查詢?nèi)罩镜挠脩粜袨榉治鱿到y(tǒng)的設(shè)計與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:347870
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/347870.html