基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實現(xiàn)

發(fā)布時間：2017-05-03 12:01

本文關(guān)鍵詞：基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實現(xiàn)，，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著Internet的迅速發(fā)展,Web網(wǎng)站逐漸成為了存儲、發(fā)布、獲取、交流信息的最重要的載體。然而,隨著Web網(wǎng)站數(shù)據(jù)的急劇增加,人們在檢索信息時遇到了極大的困難。要解決這個問題,除了依靠搜索引擎外,還應(yīng)該從自身網(wǎng)站的設(shè)計做起。也就是說,在網(wǎng)站設(shè)計時就應(yīng)該從用戶出發(fā)來設(shè)計和優(yōu)化自己的站點,這就要求網(wǎng)站設(shè)計者通過分析Web數(shù)據(jù)來獲得有用的信息,從而為網(wǎng)站設(shè)計提供幫助。Web日志是這些Web數(shù)據(jù)的一部分,也是較為完整與富于結(jié)構(gòu)化的數(shù)據(jù)。通過對Web日志的分析,可以挖掘出網(wǎng)站的各個頁面內(nèi)容之間的相關(guān)性,分析出各類用戶的不同喜好及訪問意圖,從而對網(wǎng)站的結(jié)構(gòu)及內(nèi)容提出改進(jìn)意見,使站點的整體性能得到提高。本文查閱了國內(nèi)外大量關(guān)于Web使用挖掘的相關(guān)文獻(xiàn),在這基礎(chǔ)上對Web使用挖掘相關(guān)算法進(jìn)行分析,并對部分算法進(jìn)行改進(jìn),通過實驗來驗證改進(jìn)效果。設(shè)計了一個基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng),使算法得以實現(xiàn),并將該系統(tǒng)應(yīng)用于具體網(wǎng)站中。本文主要包括以下內(nèi)容：(1)本文研究了Web使用挖掘數(shù)據(jù)預(yù)處理過程,包括頁面識別、用戶識別、會話識別、事務(wù)數(shù)據(jù)庫生成等等,對現(xiàn)有算法進(jìn)行了分析并選擇合適的算法,提出了基于“頁面內(nèi)容特性”的數(shù)據(jù)預(yù)處理算法,該算法更加強調(diào)頁面的語義內(nèi)容,使得后面的分析結(jié)果更有價值。(2)本文研究了關(guān)聯(lián)分析與聚類分析。對經(jīng)典的Apriori關(guān)聯(lián)挖掘算法進(jìn)行了分析,提出了一種改進(jìn)的Apriori算法,提高了算法的效率,通過各種數(shù)據(jù)量下的對比實驗證明該算法的有效性；分析了本文所要做的聚類分析工作,提出了改進(jìn)的“用戶-頁面特性訪問矩陣”,然后使用經(jīng)典的k-means算法進(jìn)行聚類分析。(3)本文介紹了基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的實現(xiàn)過程,給出了本系統(tǒng)的概要設(shè)計與詳細(xì)設(shè)計,包括系統(tǒng)主要模塊的功能,數(shù)據(jù)庫設(shè)計,數(shù)據(jù)流圖,以及各個模塊所使用的算法及主要類的關(guān)鍵源代碼。(4)將本系統(tǒng)應(yīng)用于一個具體的網(wǎng)站上,通過對該網(wǎng)站的日志進(jìn)行挖掘與分析,得出了實驗結(jié)果,并對實驗結(jié)果進(jìn)行分析,對該網(wǎng)站的結(jié)構(gòu)與內(nèi)容提出改進(jìn)意見,從而證明了系統(tǒng)的有效性。(5)最后總結(jié)了本文的研究成果與不足之處,并提出下一步要努力的方向。
【關(guān)鍵詞】：Web使用挖掘 數(shù)據(jù)預(yù)處理 關(guān)聯(lián)規(guī)則 Apriori算法 聚類 k-means算法 網(wǎng)站日志分析系統(tǒng)
【學(xué)位授予單位】：福州大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2014
【分類號】：TP311.13;TP393.092
【目錄】：

中文摘要3-4
Abstract4-8
第一章引言8-13
1.1 論文的研究背景及意義8-9
1.2 國內(nèi)外與Web日志挖掘相關(guān)的研究現(xiàn)狀9-11
1.2.1 國外研究現(xiàn)狀9-10
1.2.2 國內(nèi)主要研究成果10-11
1.2.3 Web日志挖掘相關(guān)產(chǎn)品11
1.3 本文的特色與創(chuàng)新之處11
1.4 論文的組織結(jié)構(gòu)11-13
第二章預(yù)處理算法的研究與改進(jìn)13-28
2.1 Web日志13-15
2.2 數(shù)據(jù)預(yù)處理相關(guān)算法研究15-23
2.2.1 數(shù)據(jù)清理15-16
2.2.2 頁面識別16-17
2.2.3 用戶識別17-18
2.2.4 會話識別18-19
2.2.5 事務(wù)識別19-20
2.2.6 數(shù)據(jù)預(yù)處理過程舉例20-23
2.3 數(shù)據(jù)預(yù)處理算法的改進(jìn)23-28
2.3.1 關(guān)于“頁面特性”23-24
2.3.2 基于“頁面特性”的數(shù)據(jù)預(yù)處理算法24-28
第三章系統(tǒng)相關(guān)數(shù)據(jù)挖掘算法的研究及改進(jìn)28-41
3.1 關(guān)聯(lián)分析28-36
3.1.1 關(guān)聯(lián)分析概述28-29
3.1.2 Apriori算法29-30
3.1.3 Apriori算法的改進(jìn)30-33
3.1.4 Apriori算法與Trans_Apriori算法之間的效率對比33-36
3.2 聚類分析36-41
3.2.1 聚類分析概述36-37
3.2.2 本系統(tǒng)中的聚類分析37
3.2.3 改進(jìn)的用戶-頁面特性訪問矩陣37-39
3.2.4 K-Means聚類算法39-41
第四章網(wǎng)站日志分析系統(tǒng)的設(shè)計與實現(xiàn)41-64
4.1 網(wǎng)站日志分析系統(tǒng)的概要設(shè)計41-46
4.1.1 網(wǎng)站日志分析系統(tǒng)的主要功能模塊41-43
4.1.2 網(wǎng)站日志分析系統(tǒng)的數(shù)據(jù)庫設(shè)計43-44
4.1.3 網(wǎng)站日志分析系統(tǒng)的工作流程44-46
4.2 網(wǎng)站日志分析系統(tǒng)主要模塊的詳細(xì)設(shè)計與實現(xiàn)46-64
4.2.1 數(shù)據(jù)庫連接相關(guān)模塊46
4.2.2 數(shù)據(jù)導(dǎo)入模塊46
4.2.3 數(shù)據(jù)預(yù)處理模塊46-52
4.2.3.1 數(shù)據(jù)清理46-47
4.2.3.2 頁面識別47-48
4.2.3.3 用戶識別48-49
4.2.3.4 會話識別49-51
4.2.3.5 頁面特性導(dǎo)入51
4.2.3.6 事務(wù)識別51-52
4.2.4 基本分析模塊52-54
4.2.5 關(guān)聯(lián)分析模塊54-59
4.2.5.1 頻繁項目集的生成55-58
4.2.5.2 關(guān)聯(lián)規(guī)則生成58-59
4.2.6 聚類分析模塊59-64
第五章網(wǎng)站日志分析系統(tǒng)的應(yīng)用64-77
5.1 實驗數(shù)據(jù)介紹64
5.2 數(shù)據(jù)導(dǎo)入64-65
5.3 數(shù)據(jù)預(yù)處理65-70
5.4 基本統(tǒng)計分析70-71
5.5 關(guān)聯(lián)分析71-74
5.6 聚類分析74-77
總結(jié)77-79
—、主要研究工作77
二、不足之處及下一步要努力的方向77-79
參考文獻(xiàn)79-83
致謝83-84
個人簡歷84-85
在學(xué)期間已發(fā)表和錄用的論文85

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 程舒通;徐從富;;網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)研究進(jìn)展[J];計算機應(yīng)用研究;2009年06期

2 徐t;;談網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)研究進(jìn)展[J];東方企業(yè)文化;2010年03期

3 許波勇;;論企業(yè)網(wǎng)站的推廣[J];電腦開發(fā)與應(yīng)用;2011年06期

4 程舒通;;網(wǎng)站結(jié)構(gòu)優(yōu)化系統(tǒng)研究[J];科技傳播;2011年24期

5 王春艷;張彥芳;;網(wǎng)站結(jié)構(gòu)規(guī)劃探討[J];東方企業(yè)文化;2013年04期

6 ;1999百家頂級網(wǎng)站(一)[J];現(xiàn)代計算機;2000年01期

7 馮江,周毅剛;網(wǎng)站介紹(5)[J];新建筑;2001年05期

8 董玉民;青島建筑工程學(xué)院網(wǎng)站的規(guī)劃與建立[J];青島建筑工程學(xué)院學(xué)報;2001年03期

9 胡綱;輕松更新自己的網(wǎng)站[Macromedia Contribute 1.0][J];個人電腦;2003年02期

10 王有為,汪定偉;基于關(guān)聯(lián)系數(shù)的電子超市網(wǎng)站結(jié)構(gòu)優(yōu)化模型及算法復(fù)雜性分析[J];小型微型計算機系統(tǒng);2004年04期

中國重要報紙全文數(shù)據(jù)庫前10條

1 正言;企業(yè)網(wǎng)站步入互動通道[N];中國經(jīng)營報;2007年

2 王兆成;旅行社網(wǎng)站服務(wù)功能探討[N];中國旅游報;2008年

3 孟輝邋薛麗英;山西太原搗毀兩個淫穢色情網(wǎng)站[N];中國新聞出版報;2008年

4 劉安;檔案期刊與網(wǎng)絡(luò)相互強身[N];中國檔案報;2003年

5 何佳訊;撒“網(wǎng)”捕金[N];廠長經(jīng)理日報;2001年

6 小新;用BlazingTools Instant Source工具分析網(wǎng)站代碼[N];中國電腦教育報;2004年

7 肖丹陳蘭琴念紅梅陳正紅;全球“最佳中之最佳”BtoB網(wǎng)站[N];國際經(jīng)貿(mào)消息;2000年

8 本報記者陳亮;Google重納寶馬德國網(wǎng)站[N];南方日報;2006年

9 飛飛;專業(yè)級的選擇[N];中國電腦教育報;2002年

10 ;小生產(chǎn)與大市場網(wǎng)上溝通[N];農(nóng)民日報;2000年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 賈小娟;基于交互理論的兒童網(wǎng)站引導(dǎo)性界面設(shè)計研究[D];河北工業(yè)大學(xué);2015年

2 翁錦琳;基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實現(xiàn)[D];福州大學(xué);2014年

3 何坤鵬;基于本體的網(wǎng)站結(jié)構(gòu)知識獲取與分析[D];北京化工大學(xué);2007年

4 杜華;電子商務(wù)網(wǎng)站結(jié)構(gòu)優(yōu)化模型與算法研究[D];首都師范大學(xué);2009年

5 賈夢青;基于用戶訪問行為分析的網(wǎng)站分類研究[D];鄭州大學(xué);2009年

6 郜鑫博;基于關(guān)鍵資源的網(wǎng)站分類研究[D];哈爾濱工業(yè)大學(xué);2009年

7 叢帥;基于關(guān)鍵資源的網(wǎng)站分類研究[D];哈爾濱工業(yè)大學(xué);2010年

8 李毅;交互式網(wǎng)站的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2011年

9 韓云端;基于瀏覽者的網(wǎng)站結(jié)構(gòu)研究[D];山西財經(jīng)大學(xué);2006年

10 夏曄;基于網(wǎng)站分類的網(wǎng)絡(luò)用戶隱私信息保護(hù)模型[D];復(fù)旦大學(xué);2012年

本文關(guān)鍵詞：基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實現(xiàn)，由筆耕文化傳播整理發(fā)布。

本文編號：342938

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/342938.html

上一篇：網(wǎng)絡(luò)環(huán)境下的商標(biāo)侵權(quán)及其法律責(zé)任
下一篇：基于跳躍式匹配的多模式匹配算法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實現(xiàn)