基于關(guān)聯(lián)規(guī)則的Web日志挖掘研究與應(yīng)用
本文關(guān)鍵詞:基于關(guān)聯(lián)規(guī)則的Web日志挖掘研究與應(yīng)用
更多相關(guān)文章: Web日志挖掘 關(guān)聯(lián)規(guī)則 Apriori算法 頻繁訪問路徑
【摘要】: 本文從理論、算法和應(yīng)用三個層次研究了關(guān)聯(lián)規(guī)則算法在Web日志挖掘中的應(yīng)用。 首先系統(tǒng)、全面地分析和論述了數(shù)據(jù)挖掘技術(shù)以及Web挖掘技術(shù),著重研究了Web日志挖掘過程中各環(huán)節(jié)的關(guān)鍵技術(shù),特別是Web日志挖掘的數(shù)據(jù)預處理過程。 其次,對關(guān)聯(lián)規(guī)則挖掘的定義、性質(zhì)、挖掘過程、挖掘算法以及研究現(xiàn)狀進行了綜述,對關(guān)聯(lián)規(guī)則經(jīng)典算法中的Apriori算法進行了深入研究與分析,針對其需要反復掃描事務(wù)數(shù)據(jù)庫,造成大量I/O開銷,影響關(guān)聯(lián)規(guī)則挖掘效率這一不足之處,提出了新的改進算法Imp_Apriori算法,主要思想為:基于在實際關(guān)聯(lián)規(guī)則挖掘中,項的數(shù)目遠小于事務(wù)數(shù)目這一事實,提出將事務(wù)數(shù)據(jù)庫轉(zhuǎn)換成項數(shù)據(jù)庫,項數(shù)據(jù)庫以項為索引,其記錄是涉及該項的事務(wù)的集合,之后挖掘就直接在項數(shù)據(jù)庫上進行。針對Apriori算法和Imp_Apriori算法,開發(fā)出兩個測試程序,對同樣的數(shù)據(jù)集在相同支持度和置信度條件下,兩種算法各自挖掘的時間進行比較,從而驗證了算法改進的可行性。 最后,在對Web日志挖掘理論和算法研究的基礎(chǔ)上,設(shè)計和實現(xiàn)了Web訪問日志挖掘系統(tǒng),并將該挖掘系統(tǒng)應(yīng)用于學院網(wǎng)絡(luò)中心的“招生信息網(wǎng)”上,對Web服務(wù)器的日志記錄進行了挖掘?qū)嶒?找出用戶的頻繁訪問路徑,得到較為理想的結(jié)果。
【關(guān)鍵詞】:Web日志挖掘 關(guān)聯(lián)規(guī)則 Apriori算法 頻繁訪問路徑
【學位授予單位】:南京理工大學
【學位級別】:碩士
【學位授予年份】:2009
【分類號】:TP311.13
【目錄】:
- 摘要3-4
- Abstract4-7
- 1 緒論7-11
- 1.1 研究背景及意義7
- 1.2 國內(nèi)外研究現(xiàn)狀7-9
- 1.2.1 國外研究現(xiàn)狀7-8
- 1.2.2 國內(nèi)研究現(xiàn)狀8-9
- 1.3 論文的工作及組織結(jié)構(gòu)9-11
- 1.3.1 論文的主要工作9
- 1.3.2 論文的組織結(jié)構(gòu)9-11
- 2 數(shù)據(jù)挖掘和Web挖掘概述11-20
- 2.1 什么是數(shù)據(jù)挖掘11
- 2.2 數(shù)據(jù)挖掘的方法和過程11-13
- 2.3 Web數(shù)據(jù)挖掘13-14
- 2.4 Web挖掘分類14-16
- 2.4.1 Web內(nèi)容挖掘14-15
- 2.4.2 Web結(jié)構(gòu)挖掘15
- 2.4.3 Web使用挖掘15-16
- 2.5 Web挖掘主要流程16-17
- 2.6 Web挖掘主要技術(shù)17-19
- 2.6.1 關(guān)聯(lián)規(guī)則17
- 2.6.2 分類聚類17-18
- 2.6.3 序列模式18
- 2.6.4 路徑分析18-19
- 2.7 Web挖掘應(yīng)用前景19-20
- 3 Web日志挖掘20-27
- 3.1 Web日志挖掘的提出20
- 3.2 Web日志挖掘的應(yīng)用20-21
- 3.3 Web日志的記錄方式21
- 3.4 Web日志分布21-22
- 3.5 Web日志挖掘數(shù)據(jù)源22-23
- 3.6 Web日志挖掘的處理過程23-24
- 3.7 數(shù)據(jù)預處理24-27
- 3.7.1 數(shù)據(jù)清理24-25
- 3.7.2 用戶識別25
- 3.7.3 會話識別25-26
- 3.7.4 路徑補充26
- 3.7.5 本文的數(shù)據(jù)預處理26-27
- 4 關(guān)聯(lián)規(guī)則算法27-42
- 4.1 關(guān)聯(lián)規(guī)則基本概念27
- 4.2 關(guān)聯(lián)規(guī)則挖掘的過程27-28
- 4.3 關(guān)聯(lián)規(guī)則的分類28-29
- 4.4 關(guān)聯(lián)規(guī)則挖掘算法的研究現(xiàn)狀29-30
- 4.5 Apriori算法及改進30-42
- 4.5.1 Apriori算法介紹30-32
- 4.5.2 Apriori算法示例32-34
- 4.5.3 Apriori算法的局限性34-35
- 4.5.4 Apriori算法的改進-Imp_Apriori算法35-37
- 4.5.5 Imp_Apriori算法示例37-39
- 4.5.6 Apriori算法和Imp_Apriori算法的性能比較39-42
- 5 Web日志挖掘系統(tǒng)設(shè)計及應(yīng)用42-52
- 5.1 系統(tǒng)的設(shè)計思想42
- 5.2 開發(fā)環(huán)境的選擇42
- 5.3 軟件開發(fā)42-46
- 5.3.1 CApriori類42-44
- 5.3.2 部分程序源代碼44-46
- 5.4 Web日志挖掘系統(tǒng)應(yīng)用46-52
- 5.4.1 Web服務(wù)器日志處理46-49
- 5.4.2 Web日志挖掘49-52
- 6 總結(jié)與展望52-54
- 6.1 總結(jié)52
- 6.2 展望52-54
- 致謝54-55
- 參考文獻55-58
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 范亞芹,劉穎,李興男;Web數(shù)據(jù)挖掘原理及實現(xiàn)[J];吉林大學學報(信息科學版);2003年04期
2 畢建欣,張岐山;關(guān)聯(lián)規(guī)則挖掘算法綜述[J];中國工程科學;2005年04期
3 楊炳儒,王建新,孫海洪;KDD中雙庫協(xié)同機制的研究(Ⅱ)[J];中國工程科學;2002年05期
4 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計算機研究與發(fā)展;2000年05期
5 楊炳儒,孫海洪;基于雙庫協(xié)同機制的挖掘關(guān)聯(lián)規(guī)則算法Maradbcm[J];計算機研究與發(fā)展;2002年11期
6 陸麗娜,xjtu.edu.cn,陳亞萍,xjtu.edu.cn,楊麥順,xjtu.edu.cn,魏恒義,xjtu.edu.cn;挖掘關(guān)聯(lián)規(guī)則算法的優(yōu)化處理[J];計算機工程與應(yīng)用;2000年08期
7 胡建武,何貞銘,張貽權(quán);WEB日志挖掘及其實現(xiàn)[J];計算機工程與應(yīng)用;2004年14期
8 許國艷,史宇清;遺傳算法在關(guān)聯(lián)規(guī)則挖掘中的應(yīng)用[J];計算機工程;2002年07期
9 李波,蔡光起;三桿六自由度并聯(lián)機器人運動學研究[J];機械設(shè)計與制造;1999年04期
10 鐵治欣,陳奇,俞瑞釗;關(guān)聯(lián)規(guī)則采掘綜述[J];計算機應(yīng)用研究;2000年01期
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 蘇海英;數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的分析與優(yōu)化研究[D];吉林大學;2006年
,本文編號:639045
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/639045.html