Web日志挖掘系統(tǒng)的研究與實現(xiàn)
本文關(guān)鍵詞:Web日志挖掘系統(tǒng)的研究與實現(xiàn)
更多相關(guān)文章: Web日志挖掘 模式發(fā)現(xiàn) 模式分析 查詢推薦
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)正以難以置信的速度爆發(fā)式的增長,Web2.0的普及使得互聯(lián)網(wǎng)的每一個參與者既是信息的消費者同時又是信息的發(fā)布者,海量數(shù)據(jù)的時代已經(jīng)到來。 在面對海量數(shù)據(jù)的時候,用戶總希望用一種最輕便、最快捷、最直接的方式獲取到所需內(nèi)容,而搜索引擎恰好滿足了用戶的所有使用需求,越來越多的人傾向于用搜索引擎作為他們在互聯(lián)網(wǎng)上獲取知識和信息的入口。而搜索引擎的服務(wù)器會記錄所有用戶的訪問行為,對這些日志數(shù)據(jù)進行分析,可以獲取到很多深層次的知識,并借此進一步完善Web技術(shù),加強其智能處理、自我學習的特性,為此Web日志挖掘(也可稱為Web使用挖掘)技術(shù)應(yīng)運而生,成為了當下的互聯(lián)網(wǎng)研究熱點。 本文就是以學術(shù)搜索引擎的日志文件作為研究對象,力求給科技信息服務(wù)帶來更多的幫助。本文首先介紹了Web日志挖掘的發(fā)展歷程和研究現(xiàn)狀,并在此基礎(chǔ)上進一步展開說明了本文研究中所涉及的各項技術(shù);之后,以數(shù)據(jù)預處理(包含數(shù)據(jù)清洗、數(shù)據(jù)修正、數(shù)據(jù)壓縮)、模式發(fā)現(xiàn)(包含用戶識別、會話切分、查詢內(nèi)容發(fā)現(xiàn))、模式分析(包含統(tǒng)計分析、序列分析、演化分析等)、基于語義關(guān)聯(lián)的查詢推薦四個主要的系統(tǒng)功能為介紹重點,詳細的闡述了原型系統(tǒng)從設(shè)計到實現(xiàn)的各個細節(jié)。 最后,系統(tǒng)會給用戶提供良好的交互界面,以圖表的形式將結(jié)果更為直觀的展現(xiàn)出來,便于用戶的使用和分析:此外,本文還提出了將Web日志挖掘系統(tǒng)同作者網(wǎng)絡(luò)和關(guān)鍵詞網(wǎng)絡(luò)相結(jié)合的構(gòu)想,力求讓系統(tǒng)的功能更加完善,提供給用戶更多樣的科技信息服務(wù)。
【關(guān)鍵詞】:Web日志挖掘 模式發(fā)現(xiàn) 模式分析 查詢推薦
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.09;TP311.52
【目錄】:
- 摘要4-5
- abstract5-9
- 第一章 緒論9-14
- 1.1 選題背景及意義9-10
- 1.2 國內(nèi)外的相關(guān)工作及研究現(xiàn)狀10-11
- 1.2.1 國外研究現(xiàn)狀10-11
- 1.2.2 國內(nèi)研究現(xiàn)狀11
- 1.3 論文的研究內(nèi)容11-13
- 1.4 論文的組織結(jié)構(gòu)13-14
- 第二章 相關(guān)技術(shù)綜述14-25
- 2.1 Web數(shù)據(jù)挖掘14-16
- 2.2 Web日志挖掘的概念和內(nèi)容16-18
- 2.3 Hadoop生態(tài)系統(tǒng)介紹18-21
- 2.4 推薦算法及其應(yīng)用21-22
- 2.5 文本的相似度計算22-24
- 2.6 本章小結(jié)24-25
- 第三章 查詢推薦與并行化的設(shè)計方案研究25-32
- 3.1 查詢推薦技術(shù)的探索25-29
- 3.1.1 基于日志的查詢推薦的傳統(tǒng)劃分方法25
- 3.1.2 基于使用技術(shù)的劃分方法25-26
- 3.1.3 基于語義關(guān)聯(lián)的查詢推薦26-29
- 3.2 并行環(huán)境下的設(shè)計方案29-31
- 3.2.1 數(shù)據(jù)預處理的MR算法設(shè)計29-30
- 3.2.2 用戶識別的MR算法設(shè)計30-31
- 3.2.3 會話切分的多線程設(shè)計31
- 3.3 本章小結(jié)31-32
- 第四章 Web日志挖掘系統(tǒng)的設(shè)計32-40
- 4.1 系統(tǒng)的架構(gòu)設(shè)計32-33
- 4.2 數(shù)據(jù)預處理33-36
- 4.3 模式發(fā)現(xiàn)36-38
- 4.3.1 用戶訪問行為發(fā)現(xiàn)36-37
- 4.3.2 用戶查詢內(nèi)容發(fā)現(xiàn)37-38
- 4.4 模式分析38-39
- 4.4.1 主要量化指標38-39
- 4.4.2 主要分析方法39
- 4.5 本章小結(jié)39-40
- 第五章 Web日志挖掘系統(tǒng)的實現(xiàn)40-60
- 5.1 系統(tǒng)開發(fā)與部署環(huán)境40
- 5.2 系統(tǒng)源碼的結(jié)構(gòu)布局40-41
- 5.3 數(shù)據(jù)存儲路徑41-42
- 5.4 系統(tǒng)模塊的實現(xiàn)42-52
- 5.4.1 數(shù)據(jù)預處理模塊42-45
- 5.4.2 模式發(fā)現(xiàn)模塊45-49
- 5.4.3 模式分析模塊49-52
- 5.5 推薦功能的實現(xiàn)52-59
- 5.6 本章小結(jié)59-60
- 第六章 Web日志挖掘系統(tǒng)的演示60-75
- 6.1 系統(tǒng)模塊測試60-69
- 6.2 系統(tǒng)的應(yīng)用場景69-70
- 6.2.1 系統(tǒng)的普適性69
- 6.2.2 應(yīng)用場景描述69-70
- 6.3 系統(tǒng)的擴展性70-74
- 6.3.1 作者(專家)網(wǎng)絡(luò)70-72
- 6.3.2 關(guān)鍵詞網(wǎng)絡(luò)72-74
- 6.3.3 擴展性總結(jié)74
- 6.4 本章小結(jié)74-75
- 第七章 總結(jié)與展望75-79
- 7.1 系統(tǒng)總結(jié)75
- 7.2 下一步工作75-79
- 參考文獻79-81
- 致謝81-82
- 攻讀碩士研究生期間發(fā)表的論文82
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 金微;;WEB日志挖掘技術(shù)的研究[J];計算機光盤軟件與應(yīng)用;2012年14期
2 侯亞麗,袁方;Web日志挖掘中的數(shù)據(jù)預處理技術(shù)[J];河北大學學報(自然科學版);2005年02期
3 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計算機研究與發(fā)展;2000年05期
4 宋擒豹,沈鈞毅;Web日志的高效多能挖掘算法[J];計算機研究與發(fā)展;2001年03期
5 王微微;夏秀峰;李曉明;;一種基于用戶行為的興趣度模型[J];計算機工程與應(yīng)用;2012年08期
6 肖立英,李建華,譚立球;Web日志挖掘技術(shù)的研究與應(yīng)用[J];計算機工程;2002年07期
7 方元康;胡學鋼;夏啟壽;;Web日志預處理中優(yōu)化的會話識別方法[J];計算機工程;2009年07期
8 程苗;陳華平;;基于Hadoop的Web日志挖掘[J];計算機工程;2011年11期
9 馬成前;毛許光;;網(wǎng)頁查重算法Shingling和Simhash研究[J];計算機與數(shù)字工程;2009年01期
10 劉毅;;略論網(wǎng)絡(luò)輿情的概念、特點、表達與傳播[J];理論界;2007年01期
,本文編號:794833
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/794833.html