基于序列模式的Web日志挖掘及其應用
發(fā)布時間:2017-05-11 11:08
本文關鍵詞:基于序列模式的Web日志挖掘及其應用,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)及信息技術的飛速發(fā)展,互聯(lián)網(wǎng)信息資源急速膨脹,人們不能有效選擇和消化紛繁復雜的信息,淹沒在信息的海洋中,這種現(xiàn)象稱為信息過載。目前,人們主要使用搜索引擎來檢索Web上的信息資源,但搜索出來的結(jié)果不夠智能友好,沒有考慮用戶的興趣愛好,出現(xiàn)了“數(shù)據(jù)豐富,知識匱乏”的現(xiàn)象。 Web挖掘是數(shù)據(jù)挖掘在Web上的應用,它從互聯(lián)網(wǎng)上的信息資源獲取知識,已成為當前計算機科學技術的一個研究熱點。Web日志挖掘也叫Web使用挖掘,是Web挖掘的一個重要分支,通過使用Web日志序列模式挖掘技術,可從網(wǎng)站服務器的日志文件中挖掘出用戶的訪問模式,有利于改善Web的結(jié)構(gòu)設計,為站點管理提供決策支持,為用戶提供更好的訪問體驗。 本文系統(tǒng)地闡述了數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘、序列模式挖掘、Web日志挖掘的各個過程。因為原始的Web日志包含了大量的噪聲數(shù)據(jù),若不作處理將影響數(shù)據(jù)挖掘結(jié)果的質(zhì)量,所以本文首先對日志進行預處理,結(jié)合Apache Log Viewer、Microsoft VisualStudio2005等工具以及預處理方法函數(shù)對日志進行數(shù)據(jù)清理和會話識別,為建立數(shù)據(jù)挖掘模型提供了數(shù)據(jù)源。然后,采用微軟的商業(yè)智能挖掘工具SQL服務器分析服務SSAS為實驗工具,Microsoft順序分析和聚類分析算法為數(shù)據(jù)挖掘算法,對預處理后的數(shù)據(jù)進行挖掘,并把挖掘出來的結(jié)果進行前端展示,得出用戶頻繁訪問的頁面欄目及基于序列模式的用戶訪問路徑。接著,本文對挖掘結(jié)果進行分析,提出了完善網(wǎng)站的四點建議,并把其應用到醫(yī)院網(wǎng)站建設中。實踐表明,網(wǎng)站的平均流量及頁面瀏覽量得到提高,用戶體驗提高較為明顯。
【關鍵詞】:數(shù)據(jù)挖掘 Web日志挖掘 序列模式挖掘 SSAS 商業(yè)智能BI
【學位授予單位】:華南理工大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP393.09;TP311.13
【目錄】:
- 摘要5-6
- ABSTRACT6-7
- 目錄7-9
- 第一章 緒論9-13
- 1.1 研究背景及意義9-10
- 1.2 國內(nèi)外研究與現(xiàn)狀10-11
- 1.3 本文研究的內(nèi)容11
- 1.4 本文的組織結(jié)構(gòu)11-12
- 1.5 本章小結(jié)12-13
- 第二章 基本概念與相關技術13-23
- 2.1 數(shù)據(jù)挖掘概述13-16
- 2.1.1 數(shù)據(jù)挖掘的定義13-14
- 2.1.2 數(shù)據(jù)挖掘的功能14-15
- 2.1.3 數(shù)據(jù)挖掘的過程15-16
- 2.2 序列模式挖掘概述16-17
- 2.3 Web 挖掘的定義17-18
- 2.4 Web 挖掘的分類18-20
- 2.4.1 Web 內(nèi)容挖掘18
- 2.4.2 Web 結(jié)構(gòu)挖掘18-20
- 2.4.3 Web 使用挖掘20
- 2.5 Web 日志挖掘的定義20-21
- 2.6 Web 日志挖掘的應用21-22
- 2.7 本章小結(jié)22-23
- 第三章 Web 日志預處理的關鍵技術及實現(xiàn)23-32
- 3.1 前言23
- 3.2 數(shù)據(jù)清理23-24
- 3.3 用戶識別24
- 3.4 會話識別24-26
- 3.5 數(shù)據(jù)預處理的實現(xiàn)26-31
- 3.5.1 相關工具及方法函數(shù)26-28
- 3.5.2 數(shù)據(jù)預處理的實現(xiàn)過程28-31
- 3.6 本章小結(jié)31-32
- 第四章 商業(yè)智能挖掘工具與算法模式32-43
- 4.1 Web 日志挖掘工具介紹32-36
- 4.1.1 BI 商業(yè)智能32
- 4.1.2 分析服務 SSAS32
- 4.1.3 SSAS 的對象及程序集32-33
- 4.1.4 SSAS 的體系結(jié)構(gòu)33-36
- 4.2 基于 SSAS 的算法選擇36-39
- 4.2.1 SSAS 算法的選擇36-37
- 4.2.2 Microsoft 順序分析和聚類分析算法概述37-38
- 4.2.3 Microsoft 順序分析和聚類分析算法的實現(xiàn)38-39
- 4.3 基于 Markov 鏈的 Web 序列與導航分析39-42
- 4.3.1 Markov 鏈的基本概念39-40
- 4.3.2 基于 Markov 鏈的 Web 序列和導航模式分析40-42
- 4.4 本章小結(jié)42-43
- 第五章 挖掘?qū)崿F(xiàn)及成果應用43-61
- 5.1 Web 日志挖掘的實現(xiàn)43-58
- 5.1.1 Web 日志挖掘的實施43-46
- 5.1.2 前端展示及實驗結(jié)果分析46-58
- 5.2 使用挖掘結(jié)果完善網(wǎng)站58-59
- 5.2.1 加強及新增相關欄目之間的正向鏈接及反向鏈接58
- 5.2.2 消除用戶訪問短路徑的“孤島”現(xiàn)象58-59
- 5.2.3 提高站內(nèi)搜索命中率及就診轉(zhuǎn)化率59
- 5.2.4 提高服務器的性能59
- 5.3 用戶體驗與應用效果59-60
- 5.4 本章小結(jié)60-61
- 總結(jié)與展望61-63
- 1. 內(nèi)容總結(jié)61
- 2. 研究展望61-63
- 參考文獻63-66
- 致謝66-67
- 附件67
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前9條
1 陸麗娜,楊怡玲,管旭東,魏恒義;Web日志挖掘中的數(shù)據(jù)預處理的研究[J];計算機工程;2000年04期
2 余長慧,潘和平;商業(yè)智能及其核心技術[J];計算機應用研究;2002年09期
3 趙紅玲,宋瀚濤,牛振東,劉桂山;Web日志挖掘中數(shù)據(jù)預處理的研究[J];計算機應用研究;2005年06期
4 閆永權;張大方;;基于頻繁的Markov鏈預測模型[J];計算機應用研究;2007年03期
5 陳卓;楊炳儒;宋威;宋澤鋒;;序列模式挖掘綜述[J];計算機應用研究;2008年07期
6 李丹實;;使用SQL Server2005構(gòu)建數(shù)據(jù)挖掘應用程序[J];煤炭技術;2011年07期
7 楊怡玲,管旭東,陸麗娜,尤晉元;一個簡單的Web日志挖掘系統(tǒng)[J];上海交通大學學報;2000年07期
8 馬瑞民;李向云;;Web日志挖掘中數(shù)據(jù)預處理技術的研究[J];計算機工程與設計;2007年10期
9 郭秀娟,李原;序列模式算法研究——類Apriori方法[J];現(xiàn)代情報;2003年12期
本文關鍵詞:基于序列模式的Web日志挖掘及其應用,由筆耕文化傳播整理發(fā)布。
本文編號:357110
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/357110.html
最近更新
教材專著