基于Web日志挖掘的聚類算法研究及應(yīng)用

發(fā)布時間：2017-09-06 02:01

本文關(guān)鍵詞：基于Web日志挖掘的聚類算法研究及應(yīng)用

【摘要】：當(dāng)前網(wǎng)絡(luò)技術(shù)的發(fā)展中,信息供給與信息獲取的矛盾越發(fā)突出,一方面用戶希望略過大量網(wǎng)絡(luò)冗余信息而直接獲取到所需內(nèi)容,另一方面,網(wǎng)站運營方則致力于發(fā)掘用戶群體的訪問模式,用以調(diào)整站點結(jié)構(gòu)、提供個性化服務(wù)并開展適當(dāng)?shù)纳虅?wù)推廣活動,從而增加網(wǎng)站對用戶的吸引力。而基于Web日志的用戶聚類可以根據(jù)用戶行為對用戶進行聚類,進而分析用戶訪問模式,為問題的解決提供了良好的解決方案。通過閱讀、研究大量相關(guān)文獻資料,本文提出了改進的數(shù)據(jù)預(yù)處理方法獲取用戶事務(wù)來描述用戶訪問行為,提出了一種基于模糊聚類的改進K-Means聚類算法,并設(shè)計實現(xiàn)用戶聚類分析系統(tǒng)對改進算法的有效性進行了驗證。由于日志數(shù)據(jù)質(zhì)量較低,無法直接進行挖掘聚類,所以需要完成數(shù)據(jù)預(yù)處理并獲得適合進行聚類的數(shù)據(jù)形式。在依次完成數(shù)據(jù)清洗、基于多重約束條件的用戶識別和基于相鄰URL訪問時間閾值的會話識別后,針對用戶會話對于聚類來說粒度太粗,以及原有用戶事務(wù)識別對于頁面類型判斷不準確等問題,提出一種改進的事務(wù)識別算法,進而識別導(dǎo)航頁面及內(nèi)容頁面,同時建立用戶訪問樹并獲取有效用戶事務(wù)為用戶聚類提供了高質(zhì)量的輸入數(shù)據(jù)。接下來,對經(jīng)典聚類算法K-Means進行深入研究,針對算法初始中心點選擇的問題,提出一種基于密度的模糊劃分算法,首先根據(jù)距離完成模糊劃分獲得高密度區(qū)域,接下來基于密度的方法對這些區(qū)域進行合并調(diào)整,最后取各個高密度區(qū)域中適當(dāng)?shù)狞c作為初始聚類中心進行劃分聚類,避免聚類僅得到局部最優(yōu)解,有效降低算法迭代時間,并提高聚類質(zhì)量。最后基于經(jīng)典聚類數(shù)據(jù)集Iris對改進K-Means算法的準確性進行實驗考證,同時設(shè)計實現(xiàn)了基于Web日志的用戶聚類分析系統(tǒng),選取真實Web日志完成數(shù)據(jù)預(yù)處理及用戶聚類,驗證了改進事務(wù)識別算法及改進K-Means算法的可用性,將理論應(yīng)用于實踐中。
【關(guān)鍵詞】：聚類分析 事務(wù)識別 K-Means 基于密度的模糊劃分
【學(xué)位授予單位】：北京工業(yè)大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2016
【分類號】：TP393.09;TP311.13
【目錄】：

摘要4-5
Abstract5-9
第1章緒論9-15
1.1 論文的研究背景與意義9-10
1.2 國內(nèi)外研究現(xiàn)狀10-13
1.2.1 國外研究現(xiàn)狀10-12
1.2.2 國內(nèi)研究現(xiàn)狀12-13
1.3 論文主要內(nèi)容13-14
1.4 論文組織結(jié)構(gòu)14-15
第2章 Web日志挖掘相關(guān)理論和技術(shù)15-31
2.1 Web日志挖掘15-22
2.1.1 數(shù)據(jù)挖掘15-17
2.1.2 Web數(shù)據(jù)挖掘17-19
2.1.3 Web日志挖掘19-22
2.2 數(shù)據(jù)預(yù)處理22-24
2.3 聚類分析24-29
2.3.1 概述24-26
2.3.2 聚類方法分類26-28
2.3.3 K-Means聚類算法28-29
2.4 本章小結(jié)29-31
第3章日志數(shù)據(jù)預(yù)處理31-43
3.1 Web日志的數(shù)據(jù)清洗31-32
3.2 基于多重約束條件的用戶識別32-34
3.3 會話識別及STT值確定34-35
3.4 識別有效用戶事務(wù)35-38
3.4.1 問題的提出36-37
3.4.2 改進的事務(wù)識別算法37-38
3.5 實驗分析38-40
3.6 本章小結(jié)40-43
第4章聚類分析算法研究43-59
4.1 Web日志聚類數(shù)據(jù)表示43-44
4.1.1 用戶事務(wù)向量43
4.1.2 用戶事務(wù)興趣度度量矩陣43-44
4.2 相似度度量44-48
4.2.1 基于距離的度量方法44-46
4.2.2 相似系數(shù)46-47
4.2.3 用戶事務(wù)相似性度量47-48
4.3 改進K-Means算法48-53
4.3.1 問題的提出48
4.3.2 模糊聚類參數(shù)確定48-50
4.3.3 模糊聚類過程及結(jié)果調(diào)整50-52
4.3.4 改進K-Means算法總結(jié)描述52-53
4.4 實驗分析53-58
4.4.1 聚類初始中心點選擇實驗54-55
4.4.2 聚類準確性實驗55-56
4.4.3 用戶事務(wù)聚類實驗56-58
4.5 本章小結(jié)58-59
第5章系統(tǒng)設(shè)計實現(xiàn)59-69
5.1 總體設(shè)計59-62
5.1.1 設(shè)計目標59
5.1.2 總結(jié)結(jié)構(gòu)設(shè)計59-61
5.1.3 模塊結(jié)構(gòu)設(shè)計61-62
5.2 系統(tǒng)實現(xiàn)62-66
5.2.1 日志數(shù)據(jù)存儲功能62-63
5.2.2 數(shù)據(jù)預(yù)處理功能63-64
5.2.3 聚類分析功能64
5.2.4 聚類結(jié)果分析功能64-66
5.3 本章小結(jié)66-69
結(jié)論69-71
參考文獻71-75
攻讀碩士學(xué)位期間取得的研究成果75-77
致謝77

，

本文編號：801486

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/801486.html

上一篇：聲紋識別技術(shù)及其應(yīng)用現(xiàn)狀
下一篇：基于RSA加密解密的即時通訊系統(tǒng)的設(shè)計與實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Web日志挖掘的聚類算法研究及應(yīng)用