基于序列模式的Web日志挖掘及其應(yīng)用
本文關(guān)鍵詞:基于序列模式的Web日志挖掘及其應(yīng)用,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)及信息技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)信息資源急速膨脹,人們不能有效選擇和消化紛繁復(fù)雜的信息,淹沒在信息的海洋中,這種現(xiàn)象稱為信息過載。目前,人們主要使用搜索引擎來檢索Web上的信息資源,但搜索出來的結(jié)果不夠智能友好,沒有考慮用戶的興趣愛好,出現(xiàn)了“數(shù)據(jù)豐富,知識(shí)匱乏”的現(xiàn)象。 Web挖掘是數(shù)據(jù)挖掘在Web上的應(yīng)用,它從互聯(lián)網(wǎng)上的信息資源獲取知識(shí),已成為當(dāng)前計(jì)算機(jī)科學(xué)技術(shù)的一個(gè)研究熱點(diǎn)。Web日志挖掘也叫Web使用挖掘,是Web挖掘的一個(gè)重要分支,通過使用Web日志序列模式挖掘技術(shù),可從網(wǎng)站服務(wù)器的日志文件中挖掘出用戶的訪問模式,有利于改善Web的結(jié)構(gòu)設(shè)計(jì),為站點(diǎn)管理提供決策支持,為用戶提供更好的訪問體驗(yàn)。 本文系統(tǒng)地闡述了數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘、序列模式挖掘、Web日志挖掘的各個(gè)過程。因?yàn)樵嫉腤eb日志包含了大量的噪聲數(shù)據(jù),若不作處理將影響數(shù)據(jù)挖掘結(jié)果的質(zhì)量,所以本文首先對(duì)日志進(jìn)行預(yù)處理,結(jié)合Apache Log Viewer、Microsoft VisualStudio2005等工具以及預(yù)處理方法函數(shù)對(duì)日志進(jìn)行數(shù)據(jù)清理和會(huì)話識(shí)別,為建立數(shù)據(jù)挖掘模型提供了數(shù)據(jù)源。然后,采用微軟的商業(yè)智能挖掘工具SQL服務(wù)器分析服務(wù)SSAS為實(shí)驗(yàn)工具,Microsoft順序分析和聚類分析算法為數(shù)據(jù)挖掘算法,對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行挖掘,并把挖掘出來的結(jié)果進(jìn)行前端展示,得出用戶頻繁訪問的頁面欄目及基于序列模式的用戶訪問路徑。接著,本文對(duì)挖掘結(jié)果進(jìn)行分析,提出了完善網(wǎng)站的四點(diǎn)建議,并把其應(yīng)用到醫(yī)院網(wǎng)站建設(shè)中。實(shí)踐表明,網(wǎng)站的平均流量及頁面瀏覽量得到提高,用戶體驗(yàn)提高較為明顯。
【關(guān)鍵詞】:數(shù)據(jù)挖掘 Web日志挖掘 序列模式挖掘 SSAS 商業(yè)智能BI
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.09;TP311.13
【目錄】:
- 摘要5-6
- ABSTRACT6-7
- 目錄7-9
- 第一章 緒論9-13
- 1.1 研究背景及意義9-10
- 1.2 國內(nèi)外研究與現(xiàn)狀10-11
- 1.3 本文研究的內(nèi)容11
- 1.4 本文的組織結(jié)構(gòu)11-12
- 1.5 本章小結(jié)12-13
- 第二章 基本概念與相關(guān)技術(shù)13-23
- 2.1 數(shù)據(jù)挖掘概述13-16
- 2.1.1 數(shù)據(jù)挖掘的定義13-14
- 2.1.2 數(shù)據(jù)挖掘的功能14-15
- 2.1.3 數(shù)據(jù)挖掘的過程15-16
- 2.2 序列模式挖掘概述16-17
- 2.3 Web 挖掘的定義17-18
- 2.4 Web 挖掘的分類18-20
- 2.4.1 Web 內(nèi)容挖掘18
- 2.4.2 Web 結(jié)構(gòu)挖掘18-20
- 2.4.3 Web 使用挖掘20
- 2.5 Web 日志挖掘的定義20-21
- 2.6 Web 日志挖掘的應(yīng)用21-22
- 2.7 本章小結(jié)22-23
- 第三章 Web 日志預(yù)處理的關(guān)鍵技術(shù)及實(shí)現(xiàn)23-32
- 3.1 前言23
- 3.2 數(shù)據(jù)清理23-24
- 3.3 用戶識(shí)別24
- 3.4 會(huì)話識(shí)別24-26
- 3.5 數(shù)據(jù)預(yù)處理的實(shí)現(xiàn)26-31
- 3.5.1 相關(guān)工具及方法函數(shù)26-28
- 3.5.2 數(shù)據(jù)預(yù)處理的實(shí)現(xiàn)過程28-31
- 3.6 本章小結(jié)31-32
- 第四章 商業(yè)智能挖掘工具與算法模式32-43
- 4.1 Web 日志挖掘工具介紹32-36
- 4.1.1 BI 商業(yè)智能32
- 4.1.2 分析服務(wù) SSAS32
- 4.1.3 SSAS 的對(duì)象及程序集32-33
- 4.1.4 SSAS 的體系結(jié)構(gòu)33-36
- 4.2 基于 SSAS 的算法選擇36-39
- 4.2.1 SSAS 算法的選擇36-37
- 4.2.2 Microsoft 順序分析和聚類分析算法概述37-38
- 4.2.3 Microsoft 順序分析和聚類分析算法的實(shí)現(xiàn)38-39
- 4.3 基于 Markov 鏈的 Web 序列與導(dǎo)航分析39-42
- 4.3.1 Markov 鏈的基本概念39-40
- 4.3.2 基于 Markov 鏈的 Web 序列和導(dǎo)航模式分析40-42
- 4.4 本章小結(jié)42-43
- 第五章 挖掘?qū)崿F(xiàn)及成果應(yīng)用43-61
- 5.1 Web 日志挖掘的實(shí)現(xiàn)43-58
- 5.1.1 Web 日志挖掘的實(shí)施43-46
- 5.1.2 前端展示及實(shí)驗(yàn)結(jié)果分析46-58
- 5.2 使用挖掘結(jié)果完善網(wǎng)站58-59
- 5.2.1 加強(qiáng)及新增相關(guān)欄目之間的正向鏈接及反向鏈接58
- 5.2.2 消除用戶訪問短路徑的“孤島”現(xiàn)象58-59
- 5.2.3 提高站內(nèi)搜索命中率及就診轉(zhuǎn)化率59
- 5.2.4 提高服務(wù)器的性能59
- 5.3 用戶體驗(yàn)與應(yīng)用效果59-60
- 5.4 本章小結(jié)60-61
- 總結(jié)與展望61-63
- 1. 內(nèi)容總結(jié)61
- 2. 研究展望61-63
- 參考文獻(xiàn)63-66
- 致謝66-67
- 附件67
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 陸麗娜,楊怡玲,管旭東,魏恒義;Web日志挖掘中的數(shù)據(jù)預(yù)處理的研究[J];計(jì)算機(jī)工程;2000年04期
2 余長慧,潘和平;商業(yè)智能及其核心技術(shù)[J];計(jì)算機(jī)應(yīng)用研究;2002年09期
3 趙紅玲,宋瀚濤,牛振東,劉桂山;Web日志挖掘中數(shù)據(jù)預(yù)處理的研究[J];計(jì)算機(jī)應(yīng)用研究;2005年06期
4 閆永權(quán);張大方;;基于頻繁的Markov鏈預(yù)測(cè)模型[J];計(jì)算機(jī)應(yīng)用研究;2007年03期
5 陳卓;楊炳儒;宋威;宋澤鋒;;序列模式挖掘綜述[J];計(jì)算機(jī)應(yīng)用研究;2008年07期
6 李丹實(shí);;使用SQL Server2005構(gòu)建數(shù)據(jù)挖掘應(yīng)用程序[J];煤炭技術(shù);2011年07期
7 楊怡玲,管旭東,陸麗娜,尤晉元;一個(gè)簡單的Web日志挖掘系統(tǒng)[J];上海交通大學(xué)學(xué)報(bào);2000年07期
8 馬瑞民;李向云;;Web日志挖掘中數(shù)據(jù)預(yù)處理技術(shù)的研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年10期
9 郭秀娟,李原;序列模式算法研究——類Apriori方法[J];現(xiàn)代情報(bào);2003年12期
本文關(guān)鍵詞:基于序列模式的Web日志挖掘及其應(yīng)用,由筆耕文化傳播整理發(fā)布。
本文編號(hào):357110
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/357110.html