一種改進(jìn)K-Means算法的Web日志挖掘技術(shù)的研究
發(fā)布時(shí)間:2021-05-16 13:31
隨著互聯(lián)網(wǎng)和信息技術(shù)的快速發(fā)展,從云服務(wù)上獲取知識(shí)成為了人們學(xué)習(xí)的重要途徑,同時(shí),不斷涌現(xiàn)出的各種云服務(wù)應(yīng)用使得服務(wù)器存儲(chǔ)的數(shù)據(jù)量急劇增加。Web日志作為云端應(yīng)用的重要組成部分,大量有用的知識(shí)和待挖掘的信息被存儲(chǔ)在其中,人們既可以根據(jù)日志文件獲取該應(yīng)用的用戶訪問(wèn)情況,也可以對(duì)日志文件進(jìn)行預(yù)處理之后運(yùn)用數(shù)據(jù)挖掘算法進(jìn)行深度知識(shí)挖掘,獲取人們需要的有價(jià)值的信息。Web日志作為服務(wù)器的記錄文件,記錄了網(wǎng)站最重要的信息,隨著數(shù)據(jù)量的增加,找出一種應(yīng)對(duì)大數(shù)據(jù)量的數(shù)據(jù)挖掘算法,以更有效的分析日志文件迫在眉睫。本文主要分析的Web日志用戶聚類是在對(duì)日志文件進(jìn)行數(shù)據(jù)預(yù)處理的基礎(chǔ)上,建立用戶會(huì)話序列矩陣,進(jìn)而對(duì)其進(jìn)行聚類分析,最終進(jìn)行相關(guān)應(yīng)用。對(duì)于此類研究,國(guó)內(nèi)外學(xué)者主要集中在對(duì)數(shù)據(jù)挖掘算法的改進(jìn)研究上,而大多方案不具備大數(shù)據(jù)環(huán)境下并發(fā)處理數(shù)據(jù)的能力,因此針對(duì)海量數(shù)據(jù)的挖掘算法并發(fā)化問(wèn)題也是本文研究的重點(diǎn)。針對(duì)上述問(wèn)題,本文重點(diǎn)研究了一種結(jié)合密度參數(shù)與坐標(biāo)旋轉(zhuǎn)算法的ICKM(Improve cordic K-Means)算法,借助MapReduce原理及分布式理論,在解決傳統(tǒng)算法缺陷的同時(shí)使算法具備了在...
【文章來(lái)源】:江蘇科技大學(xué)江蘇省
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.1.1 Web日志挖掘
1.1.2 云計(jì)算和大數(shù)據(jù)技術(shù)
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 Web挖掘技術(shù)
1.2.2 K-均值聚類算法
1.2.3 分布式計(jì)算
1.3 本文研究?jī)?nèi)容
1.4 本文的組織框架
第2章 Web日志挖掘技術(shù)的研究
2.1 Web數(shù)據(jù)挖掘
2.1.1 數(shù)據(jù)挖掘
2.1.2 Web數(shù)據(jù)挖掘
2.2 Web日志挖掘概述
2.3 Web日志挖掘數(shù)據(jù)預(yù)處理技術(shù)
2.3.1 數(shù)據(jù)清洗
2.3.2 用戶識(shí)別
2.3.3 會(huì)話識(shí)別
2.4 本章小結(jié)
第3章 K-均值聚類算法相關(guān)研究
3.1 聚類分析
3.1.1 聚類分析簡(jiǎn)介
3.1.2 聚類分析方法
3.2 基于聚類的Web日志挖掘
3.3 K-均值聚類算法
3.3.1 算法描述
3.3.2 基于K-均值聚類的用戶聚類
3.3.3 算法缺陷
3.4 改進(jìn)的K-均值聚類算法
3.4.1 ICKM算法描述
3.4.2 算法特點(diǎn)
3.5 本章小結(jié)
第4章 基于MapReduce的 K-均值算法
4.1 云計(jì)算
4.2 分布式相關(guān)技術(shù)
4.2.1 Hadoop運(yùn)行框架
4.2.2 HDFS分布式文件系統(tǒng)
4.2.3 MapReduce編程模型
4.3 ICKM算法的MapReduce并行化
4.3.1 ICKM并行化可行性分析
4.3.2 ICKM算法的Map階段
4.3.3 ICKM算法的Reduce階段
4.4 本章小結(jié)
第5章 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
5.1 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)樣本
5.1.1 實(shí)驗(yàn)環(huán)境
5.1.2 實(shí)驗(yàn)樣本
5.2 Web日志挖掘系統(tǒng)數(shù)據(jù)模型建立
5.3 實(shí)驗(yàn)結(jié)果與分析
5.3.1 實(shí)驗(yàn)性能參數(shù)
5.3.2 實(shí)驗(yàn)結(jié)果與分析
5.4 實(shí)驗(yàn)性能分析
5.5 本章小結(jié)
總結(jié)和展望
參考文獻(xiàn)
攻讀碩士期間發(fā)表的學(xué)術(shù)論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]云計(jì)算視域下數(shù)據(jù)挖掘技術(shù)[J]. 楊繼武. 電子技術(shù)與軟件工程. 2019(05)
[2]大數(shù)據(jù)時(shí)代下計(jì)算機(jī)信息處理技術(shù)研究[J]. 陳冠宇. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2019(03)
[3]基于Hadoop平臺(tái)的數(shù)據(jù)挖掘算法應(yīng)用研究[J]. 陳娥祥. 渤海大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(03)
[4]基于K-means聚類的疊放螺母的定位研究[J]. 陳佳濤,劉琦. 技術(shù)與市場(chǎng). 2017(12)
[5]基于相鄰請(qǐng)求的動(dòng)態(tài)時(shí)間閾值會(huì)話識(shí)別算法[J]. 曾令,肖如良. 計(jì)算機(jī)應(yīng)用. 2017(11)
[6]web日志挖掘中會(huì)話識(shí)別方法[J]. 袁藝,陳海光. 上海師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(05)
[7]Web數(shù)據(jù)挖掘綜述[J]. 熊富琴. 電子世界. 2016(18)
[8]Web日志挖掘中的數(shù)據(jù)預(yù)處理研究[J]. 黃宏濤. 黑龍江科技信息. 2014(31)
[9]Web日志挖掘中的數(shù)據(jù)預(yù)處理技術(shù)研究[J]. 楊玉梅. 科技視界. 2014(12)
[10]最大距離法選取初始簇中心的K-means文本聚類算法的研究[J]. 翟東海,魚(yú)江,高飛,于磊,丁鋒. 計(jì)算機(jī)應(yīng)用研究. 2014(03)
博士論文
[1]聚類分析及其應(yīng)用研究[D]. 唐東明.電子科技大學(xué) 2010
碩士論文
[1]基于微博文本和社交信息的性別分類方法研究[D]. 戴斌.蘇州大學(xué) 2017
[2]基于Web挖掘的個(gè)性化推薦系統(tǒng)研究[D]. 潘磊.江蘇科技大學(xué) 2017
[3]基于用戶Web訪問(wèn)日志聚類的推薦算法研究與應(yīng)用[D]. 于福生.大連海事大學(xué) 2017
[4]基于Web使用挖掘的網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)研究[D]. 劉明鳴.電子科技大學(xué) 2016
[5]基于海量WEB日志的網(wǎng)絡(luò)惡意行為分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 徐安林.中國(guó)科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2015
[6]基于用戶興趣和模糊聚類的Web日志挖掘應(yīng)用研究[D]. 謝建麗.福州大學(xué) 2015
[7]數(shù)據(jù)挖掘K-means聚類算法的研究[D]. 楊陽(yáng).湖南師范大學(xué) 2015
[8]云計(jì)算環(huán)境下大GML空間數(shù)據(jù)并行存取關(guān)鍵技術(shù)研究[D]. 吳學(xué)饒.江西理工大學(xué) 2015
[9]k-均值聚類算法的改進(jìn)與實(shí)現(xiàn)[D]. 董騏瑞.吉林大學(xué) 2015
[10]基于序列模式的Web日志挖掘及其應(yīng)用[D]. 王合清.華南理工大學(xué) 2014
本文編號(hào):3189777
【文章來(lái)源】:江蘇科技大學(xué)江蘇省
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.1.1 Web日志挖掘
1.1.2 云計(jì)算和大數(shù)據(jù)技術(shù)
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 Web挖掘技術(shù)
1.2.2 K-均值聚類算法
1.2.3 分布式計(jì)算
1.3 本文研究?jī)?nèi)容
1.4 本文的組織框架
第2章 Web日志挖掘技術(shù)的研究
2.1 Web數(shù)據(jù)挖掘
2.1.1 數(shù)據(jù)挖掘
2.1.2 Web數(shù)據(jù)挖掘
2.2 Web日志挖掘概述
2.3 Web日志挖掘數(shù)據(jù)預(yù)處理技術(shù)
2.3.1 數(shù)據(jù)清洗
2.3.2 用戶識(shí)別
2.3.3 會(huì)話識(shí)別
2.4 本章小結(jié)
第3章 K-均值聚類算法相關(guān)研究
3.1 聚類分析
3.1.1 聚類分析簡(jiǎn)介
3.1.2 聚類分析方法
3.2 基于聚類的Web日志挖掘
3.3 K-均值聚類算法
3.3.1 算法描述
3.3.2 基于K-均值聚類的用戶聚類
3.3.3 算法缺陷
3.4 改進(jìn)的K-均值聚類算法
3.4.1 ICKM算法描述
3.4.2 算法特點(diǎn)
3.5 本章小結(jié)
第4章 基于MapReduce的 K-均值算法
4.1 云計(jì)算
4.2 分布式相關(guān)技術(shù)
4.2.1 Hadoop運(yùn)行框架
4.2.2 HDFS分布式文件系統(tǒng)
4.2.3 MapReduce編程模型
4.3 ICKM算法的MapReduce并行化
4.3.1 ICKM并行化可行性分析
4.3.2 ICKM算法的Map階段
4.3.3 ICKM算法的Reduce階段
4.4 本章小結(jié)
第5章 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
5.1 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)樣本
5.1.1 實(shí)驗(yàn)環(huán)境
5.1.2 實(shí)驗(yàn)樣本
5.2 Web日志挖掘系統(tǒng)數(shù)據(jù)模型建立
5.3 實(shí)驗(yàn)結(jié)果與分析
5.3.1 實(shí)驗(yàn)性能參數(shù)
5.3.2 實(shí)驗(yàn)結(jié)果與分析
5.4 實(shí)驗(yàn)性能分析
5.5 本章小結(jié)
總結(jié)和展望
參考文獻(xiàn)
攻讀碩士期間發(fā)表的學(xué)術(shù)論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]云計(jì)算視域下數(shù)據(jù)挖掘技術(shù)[J]. 楊繼武. 電子技術(shù)與軟件工程. 2019(05)
[2]大數(shù)據(jù)時(shí)代下計(jì)算機(jī)信息處理技術(shù)研究[J]. 陳冠宇. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2019(03)
[3]基于Hadoop平臺(tái)的數(shù)據(jù)挖掘算法應(yīng)用研究[J]. 陳娥祥. 渤海大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(03)
[4]基于K-means聚類的疊放螺母的定位研究[J]. 陳佳濤,劉琦. 技術(shù)與市場(chǎng). 2017(12)
[5]基于相鄰請(qǐng)求的動(dòng)態(tài)時(shí)間閾值會(huì)話識(shí)別算法[J]. 曾令,肖如良. 計(jì)算機(jī)應(yīng)用. 2017(11)
[6]web日志挖掘中會(huì)話識(shí)別方法[J]. 袁藝,陳海光. 上海師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(05)
[7]Web數(shù)據(jù)挖掘綜述[J]. 熊富琴. 電子世界. 2016(18)
[8]Web日志挖掘中的數(shù)據(jù)預(yù)處理研究[J]. 黃宏濤. 黑龍江科技信息. 2014(31)
[9]Web日志挖掘中的數(shù)據(jù)預(yù)處理技術(shù)研究[J]. 楊玉梅. 科技視界. 2014(12)
[10]最大距離法選取初始簇中心的K-means文本聚類算法的研究[J]. 翟東海,魚(yú)江,高飛,于磊,丁鋒. 計(jì)算機(jī)應(yīng)用研究. 2014(03)
博士論文
[1]聚類分析及其應(yīng)用研究[D]. 唐東明.電子科技大學(xué) 2010
碩士論文
[1]基于微博文本和社交信息的性別分類方法研究[D]. 戴斌.蘇州大學(xué) 2017
[2]基于Web挖掘的個(gè)性化推薦系統(tǒng)研究[D]. 潘磊.江蘇科技大學(xué) 2017
[3]基于用戶Web訪問(wèn)日志聚類的推薦算法研究與應(yīng)用[D]. 于福生.大連海事大學(xué) 2017
[4]基于Web使用挖掘的網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)研究[D]. 劉明鳴.電子科技大學(xué) 2016
[5]基于海量WEB日志的網(wǎng)絡(luò)惡意行為分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 徐安林.中國(guó)科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2015
[6]基于用戶興趣和模糊聚類的Web日志挖掘應(yīng)用研究[D]. 謝建麗.福州大學(xué) 2015
[7]數(shù)據(jù)挖掘K-means聚類算法的研究[D]. 楊陽(yáng).湖南師范大學(xué) 2015
[8]云計(jì)算環(huán)境下大GML空間數(shù)據(jù)并行存取關(guān)鍵技術(shù)研究[D]. 吳學(xué)饒.江西理工大學(xué) 2015
[9]k-均值聚類算法的改進(jìn)與實(shí)現(xiàn)[D]. 董騏瑞.吉林大學(xué) 2015
[10]基于序列模式的Web日志挖掘及其應(yīng)用[D]. 王合清.華南理工大學(xué) 2014
本文編號(hào):3189777
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3189777.html
最近更新
教材專著