基于Web日志挖掘的聚類算法研究及應(yīng)用
發(fā)布時間:2017-09-06 02:01
本文關(guān)鍵詞:基于Web日志挖掘的聚類算法研究及應(yīng)用
更多相關(guān)文章: 聚類分析 事務(wù)識別 K-Means 基于密度的模糊劃分
【摘要】:當(dāng)前網(wǎng)絡(luò)技術(shù)的發(fā)展中,信息供給與信息獲取的矛盾越發(fā)突出,一方面用戶希望略過大量網(wǎng)絡(luò)冗余信息而直接獲取到所需內(nèi)容,另一方面,網(wǎng)站運營方則致力于發(fā)掘用戶群體的訪問模式,用以調(diào)整站點結(jié)構(gòu)、提供個性化服務(wù)并開展適當(dāng)?shù)纳虅?wù)推廣活動,從而增加網(wǎng)站對用戶的吸引力。而基于Web日志的用戶聚類可以根據(jù)用戶行為對用戶進行聚類,進而分析用戶訪問模式,為問題的解決提供了良好的解決方案。通過閱讀、研究大量相關(guān)文獻資料,本文提出了改進的數(shù)據(jù)預(yù)處理方法獲取用戶事務(wù)來描述用戶訪問行為,提出了一種基于模糊聚類的改進K-Means聚類算法,并設(shè)計實現(xiàn)用戶聚類分析系統(tǒng)對改進算法的有效性進行了驗證。由于日志數(shù)據(jù)質(zhì)量較低,無法直接進行挖掘聚類,所以需要完成數(shù)據(jù)預(yù)處理并獲得適合進行聚類的數(shù)據(jù)形式。在依次完成數(shù)據(jù)清洗、基于多重約束條件的用戶識別和基于相鄰URL訪問時間閾值的會話識別后,針對用戶會話對于聚類來說粒度太粗,以及原有用戶事務(wù)識別對于頁面類型判斷不準確等問題,提出一種改進的事務(wù)識別算法,進而識別導(dǎo)航頁面及內(nèi)容頁面,同時建立用戶訪問樹并獲取有效用戶事務(wù)為用戶聚類提供了高質(zhì)量的輸入數(shù)據(jù)。接下來,對經(jīng)典聚類算法K-Means進行深入研究,針對算法初始中心點選擇的問題,提出一種基于密度的模糊劃分算法,首先根據(jù)距離完成模糊劃分獲得高密度區(qū)域,接下來基于密度的方法對這些區(qū)域進行合并調(diào)整,最后取各個高密度區(qū)域中適當(dāng)?shù)狞c作為初始聚類中心進行劃分聚類,避免聚類僅得到局部最優(yōu)解,有效降低算法迭代時間,并提高聚類質(zhì)量。最后基于經(jīng)典聚類數(shù)據(jù)集Iris對改進K-Means算法的準確性進行實驗考證,同時設(shè)計實現(xiàn)了基于Web日志的用戶聚類分析系統(tǒng),選取真實Web日志完成數(shù)據(jù)預(yù)處理及用戶聚類,驗證了改進事務(wù)識別算法及改進K-Means算法的可用性,將理論應(yīng)用于實踐中。
【關(guān)鍵詞】:聚類分析 事務(wù)識別 K-Means 基于密度的模糊劃分
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.09;TP311.13
【目錄】:
- 摘要4-5
- Abstract5-9
- 第1章 緒論9-15
- 1.1 論文的研究背景與意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-13
- 1.2.1 國外研究現(xiàn)狀10-12
- 1.2.2 國內(nèi)研究現(xiàn)狀12-13
- 1.3 論文主要內(nèi)容13-14
- 1.4 論文組織結(jié)構(gòu)14-15
- 第2章 Web日志挖掘相關(guān)理論和技術(shù)15-31
- 2.1 Web日志挖掘15-22
- 2.1.1 數(shù)據(jù)挖掘15-17
- 2.1.2 Web數(shù)據(jù)挖掘17-19
- 2.1.3 Web日志挖掘19-22
- 2.2 數(shù)據(jù)預(yù)處理22-24
- 2.3 聚類分析24-29
- 2.3.1 概述24-26
- 2.3.2 聚類方法分類26-28
- 2.3.3 K-Means聚類算法28-29
- 2.4 本章小結(jié)29-31
- 第3章 日志數(shù)據(jù)預(yù)處理31-43
- 3.1 Web日志的數(shù)據(jù)清洗31-32
- 3.2 基于多重約束條件的用戶識別32-34
- 3.3 會話識別及STT值確定34-35
- 3.4 識別有效用戶事務(wù)35-38
- 3.4.1 問題的提出36-37
- 3.4.2 改進的事務(wù)識別算法37-38
- 3.5 實驗分析38-40
- 3.6 本章小結(jié)40-43
- 第4章 聚類分析算法研究43-59
- 4.1 Web日志聚類數(shù)據(jù)表示43-44
- 4.1.1 用戶事務(wù)向量43
- 4.1.2 用戶事務(wù)興趣度度量矩陣43-44
- 4.2 相似度度量44-48
- 4.2.1 基于距離的度量方法44-46
- 4.2.2 相似系數(shù)46-47
- 4.2.3 用戶事務(wù)相似性度量47-48
- 4.3 改進K-Means算法48-53
- 4.3.1 問題的提出48
- 4.3.2 模糊聚類參數(shù)確定48-50
- 4.3.3 模糊聚類過程及結(jié)果調(diào)整50-52
- 4.3.4 改進K-Means算法總結(jié)描述52-53
- 4.4 實驗分析53-58
- 4.4.1 聚類初始中心點選擇實驗54-55
- 4.4.2 聚類準確性實驗55-56
- 4.4.3 用戶事務(wù)聚類實驗56-58
- 4.5 本章小結(jié)58-59
- 第5章 系統(tǒng)設(shè)計實現(xiàn)59-69
- 5.1 總體設(shè)計59-62
- 5.1.1 設(shè)計目標59
- 5.1.2 總結(jié)結(jié)構(gòu)設(shè)計59-61
- 5.1.3 模塊結(jié)構(gòu)設(shè)計61-62
- 5.2 系統(tǒng)實現(xiàn)62-66
- 5.2.1 日志數(shù)據(jù)存儲功能62-63
- 5.2.2 數(shù)據(jù)預(yù)處理功能63-64
- 5.2.3 聚類分析功能64
- 5.2.4 聚類結(jié)果分析功能64-66
- 5.3 本章小結(jié)66-69
- 結(jié)論69-71
- 參考文獻71-75
- 攻讀碩士學(xué)位期間取得的研究成果75-77
- 致謝77
本文編號:801486
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/801486.html
最近更新
教材專著