基于Web日志挖掘的聚類算法研究及應(yīng)用
發(fā)布時(shí)間:2017-09-06 02:01
本文關(guān)鍵詞:基于Web日志挖掘的聚類算法研究及應(yīng)用
更多相關(guān)文章: 聚類分析 事務(wù)識(shí)別 K-Means 基于密度的模糊劃分
【摘要】:當(dāng)前網(wǎng)絡(luò)技術(shù)的發(fā)展中,信息供給與信息獲取的矛盾越發(fā)突出,一方面用戶希望略過大量網(wǎng)絡(luò)冗余信息而直接獲取到所需內(nèi)容,另一方面,網(wǎng)站運(yùn)營(yíng)方則致力于發(fā)掘用戶群體的訪問模式,用以調(diào)整站點(diǎn)結(jié)構(gòu)、提供個(gè)性化服務(wù)并開展適當(dāng)?shù)纳虅?wù)推廣活動(dòng),從而增加網(wǎng)站對(duì)用戶的吸引力。而基于Web日志的用戶聚類可以根據(jù)用戶行為對(duì)用戶進(jìn)行聚類,進(jìn)而分析用戶訪問模式,為問題的解決提供了良好的解決方案。通過閱讀、研究大量相關(guān)文獻(xiàn)資料,本文提出了改進(jìn)的數(shù)據(jù)預(yù)處理方法獲取用戶事務(wù)來描述用戶訪問行為,提出了一種基于模糊聚類的改進(jìn)K-Means聚類算法,并設(shè)計(jì)實(shí)現(xiàn)用戶聚類分析系統(tǒng)對(duì)改進(jìn)算法的有效性進(jìn)行了驗(yàn)證。由于日志數(shù)據(jù)質(zhì)量較低,無法直接進(jìn)行挖掘聚類,所以需要完成數(shù)據(jù)預(yù)處理并獲得適合進(jìn)行聚類的數(shù)據(jù)形式。在依次完成數(shù)據(jù)清洗、基于多重約束條件的用戶識(shí)別和基于相鄰URL訪問時(shí)間閾值的會(huì)話識(shí)別后,針對(duì)用戶會(huì)話對(duì)于聚類來說粒度太粗,以及原有用戶事務(wù)識(shí)別對(duì)于頁(yè)面類型判斷不準(zhǔn)確等問題,提出一種改進(jìn)的事務(wù)識(shí)別算法,進(jìn)而識(shí)別導(dǎo)航頁(yè)面及內(nèi)容頁(yè)面,同時(shí)建立用戶訪問樹并獲取有效用戶事務(wù)為用戶聚類提供了高質(zhì)量的輸入數(shù)據(jù)。接下來,對(duì)經(jīng)典聚類算法K-Means進(jìn)行深入研究,針對(duì)算法初始中心點(diǎn)選擇的問題,提出一種基于密度的模糊劃分算法,首先根據(jù)距離完成模糊劃分獲得高密度區(qū)域,接下來基于密度的方法對(duì)這些區(qū)域進(jìn)行合并調(diào)整,最后取各個(gè)高密度區(qū)域中適當(dāng)?shù)狞c(diǎn)作為初始聚類中心進(jìn)行劃分聚類,避免聚類僅得到局部最優(yōu)解,有效降低算法迭代時(shí)間,并提高聚類質(zhì)量。最后基于經(jīng)典聚類數(shù)據(jù)集Iris對(duì)改進(jìn)K-Means算法的準(zhǔn)確性進(jìn)行實(shí)驗(yàn)考證,同時(shí)設(shè)計(jì)實(shí)現(xiàn)了基于Web日志的用戶聚類分析系統(tǒng),選取真實(shí)Web日志完成數(shù)據(jù)預(yù)處理及用戶聚類,驗(yàn)證了改進(jìn)事務(wù)識(shí)別算法及改進(jìn)K-Means算法的可用性,將理論應(yīng)用于實(shí)踐中。
【關(guān)鍵詞】:聚類分析 事務(wù)識(shí)別 K-Means 基于密度的模糊劃分
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP393.09;TP311.13
【目錄】:
- 摘要4-5
- Abstract5-9
- 第1章 緒論9-15
- 1.1 論文的研究背景與意義9-10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-13
- 1.2.1 國(guó)外研究現(xiàn)狀10-12
- 1.2.2 國(guó)內(nèi)研究現(xiàn)狀12-13
- 1.3 論文主要內(nèi)容13-14
- 1.4 論文組織結(jié)構(gòu)14-15
- 第2章 Web日志挖掘相關(guān)理論和技術(shù)15-31
- 2.1 Web日志挖掘15-22
- 2.1.1 數(shù)據(jù)挖掘15-17
- 2.1.2 Web數(shù)據(jù)挖掘17-19
- 2.1.3 Web日志挖掘19-22
- 2.2 數(shù)據(jù)預(yù)處理22-24
- 2.3 聚類分析24-29
- 2.3.1 概述24-26
- 2.3.2 聚類方法分類26-28
- 2.3.3 K-Means聚類算法28-29
- 2.4 本章小結(jié)29-31
- 第3章 日志數(shù)據(jù)預(yù)處理31-43
- 3.1 Web日志的數(shù)據(jù)清洗31-32
- 3.2 基于多重約束條件的用戶識(shí)別32-34
- 3.3 會(huì)話識(shí)別及STT值確定34-35
- 3.4 識(shí)別有效用戶事務(wù)35-38
- 3.4.1 問題的提出36-37
- 3.4.2 改進(jìn)的事務(wù)識(shí)別算法37-38
- 3.5 實(shí)驗(yàn)分析38-40
- 3.6 本章小結(jié)40-43
- 第4章 聚類分析算法研究43-59
- 4.1 Web日志聚類數(shù)據(jù)表示43-44
- 4.1.1 用戶事務(wù)向量43
- 4.1.2 用戶事務(wù)興趣度度量矩陣43-44
- 4.2 相似度度量44-48
- 4.2.1 基于距離的度量方法44-46
- 4.2.2 相似系數(shù)46-47
- 4.2.3 用戶事務(wù)相似性度量47-48
- 4.3 改進(jìn)K-Means算法48-53
- 4.3.1 問題的提出48
- 4.3.2 模糊聚類參數(shù)確定48-50
- 4.3.3 模糊聚類過程及結(jié)果調(diào)整50-52
- 4.3.4 改進(jìn)K-Means算法總結(jié)描述52-53
- 4.4 實(shí)驗(yàn)分析53-58
- 4.4.1 聚類初始中心點(diǎn)選擇實(shí)驗(yàn)54-55
- 4.4.2 聚類準(zhǔn)確性實(shí)驗(yàn)55-56
- 4.4.3 用戶事務(wù)聚類實(shí)驗(yàn)56-58
- 4.5 本章小結(jié)58-59
- 第5章 系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)59-69
- 5.1 總體設(shè)計(jì)59-62
- 5.1.1 設(shè)計(jì)目標(biāo)59
- 5.1.2 總結(jié)結(jié)構(gòu)設(shè)計(jì)59-61
- 5.1.3 模塊結(jié)構(gòu)設(shè)計(jì)61-62
- 5.2 系統(tǒng)實(shí)現(xiàn)62-66
- 5.2.1 日志數(shù)據(jù)存儲(chǔ)功能62-63
- 5.2.2 數(shù)據(jù)預(yù)處理功能63-64
- 5.2.3 聚類分析功能64
- 5.2.4 聚類結(jié)果分析功能64-66
- 5.3 本章小結(jié)66-69
- 結(jié)論69-71
- 參考文獻(xiàn)71-75
- 攻讀碩士學(xué)位期間取得的研究成果75-77
- 致謝77
本文編號(hào):801486
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/801486.html
最近更新
教材專著