基于序列模式的Web日志挖掘及其應(yīng)用

發(fā)布時(shí)間：2017-05-11 11:08

本文關(guān)鍵詞：基于序列模式的Web日志挖掘及其應(yīng)用，，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著互聯(lián)網(wǎng)及信息技術(shù)的飛速發(fā)展，互聯(lián)網(wǎng)信息資源急速膨脹，人們不能有效選擇和消化紛繁復(fù)雜的信息，淹沒在信息的海洋中，這種現(xiàn)象稱為信息過載。目前，人們主要使用搜索引擎來檢索Web上的信息資源，但搜索出來的結(jié)果不夠智能友好，沒有考慮用戶的興趣愛好，出現(xiàn)了“數(shù)據(jù)豐富，知識(shí)匱乏”的現(xiàn)象。 Web挖掘是數(shù)據(jù)挖掘在Web上的應(yīng)用，它從互聯(lián)網(wǎng)上的信息資源獲取知識(shí)，已成為當(dāng)前計(jì)算機(jī)科學(xué)技術(shù)的一個(gè)研究熱點(diǎn)。Web日志挖掘也叫Web使用挖掘，是Web挖掘的一個(gè)重要分支，通過使用Web日志序列模式挖掘技術(shù)，可從網(wǎng)站服務(wù)器的日志文件中挖掘出用戶的訪問模式，有利于改善Web的結(jié)構(gòu)設(shè)計(jì)，為站點(diǎn)管理提供決策支持，為用戶提供更好的訪問體驗(yàn)。本文系統(tǒng)地闡述了數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘、序列模式挖掘、Web日志挖掘的各個(gè)過程。因?yàn)樵嫉腤eb日志包含了大量的噪聲數(shù)據(jù)，若不作處理將影響數(shù)據(jù)挖掘結(jié)果的質(zhì)量，所以本文首先對(duì)日志進(jìn)行預(yù)處理，結(jié)合Apache Log Viewer、Microsoft VisualStudio2005等工具以及預(yù)處理方法函數(shù)對(duì)日志進(jìn)行數(shù)據(jù)清理和會(huì)話識(shí)別，為建立數(shù)據(jù)挖掘模型提供了數(shù)據(jù)源。然后，采用微軟的商業(yè)智能挖掘工具SQL服務(wù)器分析服務(wù)SSAS為實(shí)驗(yàn)工具，Microsoft順序分析和聚類分析算法為數(shù)據(jù)挖掘算法，對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行挖掘，并把挖掘出來的結(jié)果進(jìn)行前端展示，得出用戶頻繁訪問的頁面欄目及基于序列模式的用戶訪問路徑。接著，本文對(duì)挖掘結(jié)果進(jìn)行分析，提出了完善網(wǎng)站的四點(diǎn)建議，并把其應(yīng)用到醫(yī)院網(wǎng)站建設(shè)中。實(shí)踐表明，網(wǎng)站的平均流量及頁面瀏覽量得到提高，用戶體驗(yàn)提高較為明顯。
【關(guān)鍵詞】：數(shù)據(jù)挖掘 Web日志挖掘 序列模式挖掘 SSAS 商業(yè)智能BI
【學(xué)位授予單位】：華南理工大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2014
【分類號(hào)】：TP393.09;TP311.13
【目錄】：

摘要5-6
ABSTRACT6-7
目錄7-9
第一章緒論9-13
1.1 研究背景及意義9-10
1.2 國內(nèi)外研究與現(xiàn)狀10-11
1.3 本文研究的內(nèi)容11
1.4 本文的組織結(jié)構(gòu)11-12
1.5 本章小結(jié)12-13
第二章基本概念與相關(guān)技術(shù)13-23
2.1 數(shù)據(jù)挖掘概述13-16
2.1.1 數(shù)據(jù)挖掘的定義13-14
2.1.2 數(shù)據(jù)挖掘的功能14-15
2.1.3 數(shù)據(jù)挖掘的過程15-16
2.2 序列模式挖掘概述16-17
2.3 Web 挖掘的定義17-18
2.4 Web 挖掘的分類18-20
2.4.1 Web 內(nèi)容挖掘18
2.4.2 Web 結(jié)構(gòu)挖掘18-20
2.4.3 Web 使用挖掘20
2.5 Web 日志挖掘的定義20-21
2.6 Web 日志挖掘的應(yīng)用21-22
2.7 本章小結(jié)22-23
第三章 Web 日志預(yù)處理的關(guān)鍵技術(shù)及實(shí)現(xiàn)23-32
3.1 前言23
3.2 數(shù)據(jù)清理23-24
3.3 用戶識(shí)別24
3.4 會(huì)話識(shí)別24-26
3.5 數(shù)據(jù)預(yù)處理的實(shí)現(xiàn)26-31
3.5.1 相關(guān)工具及方法函數(shù)26-28
3.5.2 數(shù)據(jù)預(yù)處理的實(shí)現(xiàn)過程28-31
3.6 本章小結(jié)31-32
第四章商業(yè)智能挖掘工具與算法模式32-43
4.1 Web 日志挖掘工具介紹32-36
4.1.1 BI 商業(yè)智能32
4.1.2 分析服務(wù) SSAS32
4.1.3 SSAS 的對(duì)象及程序集32-33
4.1.4 SSAS 的體系結(jié)構(gòu)33-36
4.2 基于 SSAS 的算法選擇36-39
4.2.1 SSAS 算法的選擇36-37
4.2.2 Microsoft 順序分析和聚類分析算法概述37-38
4.2.3 Microsoft 順序分析和聚類分析算法的實(shí)現(xiàn)38-39
4.3 基于 Markov 鏈的 Web 序列與導(dǎo)航分析39-42
4.3.1 Markov 鏈的基本概念39-40
4.3.2 基于 Markov 鏈的 Web 序列和導(dǎo)航模式分析40-42
4.4 本章小結(jié)42-43
第五章挖掘?qū)崿F(xiàn)及成果應(yīng)用43-61
5.1 Web 日志挖掘的實(shí)現(xiàn)43-58
5.1.1 Web 日志挖掘的實(shí)施43-46
5.1.2 前端展示及實(shí)驗(yàn)結(jié)果分析46-58
5.2 使用挖掘結(jié)果完善網(wǎng)站58-59
5.2.1 加強(qiáng)及新增相關(guān)欄目之間的正向鏈接及反向鏈接58
5.2.2 消除用戶訪問短路徑的“孤島”現(xiàn)象58-59
5.2.3 提高站內(nèi)搜索命中率及就診轉(zhuǎn)化率59
5.2.4 提高服務(wù)器的性能59
5.3 用戶體驗(yàn)與應(yīng)用效果59-60
5.4 本章小結(jié)60-61
總結(jié)與展望61-63
1. 內(nèi)容總結(jié)61
2. 研究展望61-63
參考文獻(xiàn)63-66
致謝66-67
附件67

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前9條

1 陸麗娜,楊怡玲,管旭東,魏恒義;Web日志挖掘中的數(shù)據(jù)預(yù)處理的研究[J];計(jì)算機(jī)工程;2000年04期

2 余長慧,潘和平;商業(yè)智能及其核心技術(shù)[J];計(jì)算機(jī)應(yīng)用研究;2002年09期

3 趙紅玲,宋瀚濤,牛振東,劉桂山;Web日志挖掘中數(shù)據(jù)預(yù)處理的研究[J];計(jì)算機(jī)應(yīng)用研究;2005年06期

4 閆永權(quán);張大方;;基于頻繁的Markov鏈預(yù)測(cè)模型[J];計(jì)算機(jī)應(yīng)用研究;2007年03期

5 陳卓;楊炳儒;宋威;宋澤鋒;;序列模式挖掘綜述[J];計(jì)算機(jī)應(yīng)用研究;2008年07期

6 李丹實(shí);;使用SQL Server2005構(gòu)建數(shù)據(jù)挖掘應(yīng)用程序[J];煤炭技術(shù);2011年07期

7 楊怡玲,管旭東,陸麗娜,尤晉元;一個(gè)簡單的Web日志挖掘系統(tǒng)[J];上海交通大學(xué)學(xué)報(bào);2000年07期

8 馬瑞民;李向云;;Web日志挖掘中數(shù)據(jù)預(yù)處理技術(shù)的研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年10期

9 郭秀娟,李原;序列模式算法研究——類Apriori方法[J];現(xiàn)代情報(bào);2003年12期

本文關(guān)鍵詞：基于序列模式的Web日志挖掘及其應(yīng)用，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：357110

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/357110.html

上一篇：圖像自動(dòng)標(biāo)注算法研究
下一篇：支持云計(jì)算產(chǎn)品RIA模式頁面數(shù)據(jù)抓取的模型和策略研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于序列模式的Web日志挖掘及其應(yīng)用