基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實現(xiàn)
本文關(guān)鍵詞:基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著Internet的迅速發(fā)展,Web網(wǎng)站逐漸成為了存儲、發(fā)布、獲取、交流信息的最重要的載體。然而,隨著Web網(wǎng)站數(shù)據(jù)的急劇增加,人們在檢索信息時遇到了極大的困難。要解決這個問題,除了依靠搜索引擎外,還應(yīng)該從自身網(wǎng)站的設(shè)計做起。也就是說,在網(wǎng)站設(shè)計時就應(yīng)該從用戶出發(fā)來設(shè)計和優(yōu)化自己的站點,這就要求網(wǎng)站設(shè)計者通過分析Web數(shù)據(jù)來獲得有用的信息,從而為網(wǎng)站設(shè)計提供幫助。Web日志是這些Web數(shù)據(jù)的一部分,也是較為完整與富于結(jié)構(gòu)化的數(shù)據(jù)。通過對Web日志的分析,可以挖掘出網(wǎng)站的各個頁面內(nèi)容之間的相關(guān)性,分析出各類用戶的不同喜好及訪問意圖,從而對網(wǎng)站的結(jié)構(gòu)及內(nèi)容提出改進(jìn)意見,使站點的整體性能得到提高。本文查閱了國內(nèi)外大量關(guān)于Web使用挖掘的相關(guān)文獻(xiàn),在這基礎(chǔ)上對Web使用挖掘相關(guān)算法進(jìn)行分析,并對部分算法進(jìn)行改進(jìn),通過實驗來驗證改進(jìn)效果。設(shè)計了一個基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng),使算法得以實現(xiàn),并將該系統(tǒng)應(yīng)用于具體網(wǎng)站中。本文主要包括以下內(nèi)容:(1)本文研究了Web使用挖掘數(shù)據(jù)預(yù)處理過程,包括頁面識別、用戶識別、會話識別、事務(wù)數(shù)據(jù)庫生成等等,對現(xiàn)有算法進(jìn)行了分析并選擇合適的算法,提出了基于“頁面內(nèi)容特性”的數(shù)據(jù)預(yù)處理算法,該算法更加強調(diào)頁面的語義內(nèi)容,使得后面的分析結(jié)果更有價值。(2)本文研究了關(guān)聯(lián)分析與聚類分析。對經(jīng)典的Apriori關(guān)聯(lián)挖掘算法進(jìn)行了分析,提出了一種改進(jìn)的Apriori算法,提高了算法的效率,通過各種數(shù)據(jù)量下的對比實驗證明該算法的有效性;分析了本文所要做的聚類分析工作,提出了改進(jìn)的“用戶-頁面特性訪問矩陣”,然后使用經(jīng)典的k-means算法進(jìn)行聚類分析。(3)本文介紹了基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的實現(xiàn)過程,給出了本系統(tǒng)的概要設(shè)計與詳細(xì)設(shè)計,包括系統(tǒng)主要模塊的功能,數(shù)據(jù)庫設(shè)計,數(shù)據(jù)流圖,以及各個模塊所使用的算法及主要類的關(guān)鍵源代碼。(4)將本系統(tǒng)應(yīng)用于一個具體的網(wǎng)站上,通過對該網(wǎng)站的日志進(jìn)行挖掘與分析,得出了實驗結(jié)果,并對實驗結(jié)果進(jìn)行分析,對該網(wǎng)站的結(jié)構(gòu)與內(nèi)容提出改進(jìn)意見,從而證明了系統(tǒng)的有效性。(5)最后總結(jié)了本文的研究成果與不足之處,并提出下一步要努力的方向。
【關(guān)鍵詞】:Web使用挖掘 數(shù)據(jù)預(yù)處理 關(guān)聯(lián)規(guī)則 Apriori算法 聚類 k-means算法 網(wǎng)站日志分析系統(tǒng)
【學(xué)位授予單位】:福州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP311.13;TP393.092
【目錄】:
- 中文摘要3-4
- Abstract4-8
- 第一章 引言8-13
- 1.1 論文的研究背景及意義8-9
- 1.2 國內(nèi)外與Web日志挖掘相關(guān)的研究現(xiàn)狀9-11
- 1.2.1 國外研究現(xiàn)狀9-10
- 1.2.2 國內(nèi)主要研究成果10-11
- 1.2.3 Web日志挖掘相關(guān)產(chǎn)品11
- 1.3 本文的特色與創(chuàng)新之處11
- 1.4 論文的組織結(jié)構(gòu)11-13
- 第二章 預(yù)處理算法的研究與改進(jìn)13-28
- 2.1 Web日志13-15
- 2.2 數(shù)據(jù)預(yù)處理相關(guān)算法研究15-23
- 2.2.1 數(shù)據(jù)清理15-16
- 2.2.2 頁面識別16-17
- 2.2.3 用戶識別17-18
- 2.2.4 會話識別18-19
- 2.2.5 事務(wù)識別19-20
- 2.2.6 數(shù)據(jù)預(yù)處理過程舉例20-23
- 2.3 數(shù)據(jù)預(yù)處理算法的改進(jìn)23-28
- 2.3.1 關(guān)于“頁面特性”23-24
- 2.3.2 基于“頁面特性”的數(shù)據(jù)預(yù)處理算法24-28
- 第三章 系統(tǒng)相關(guān)數(shù)據(jù)挖掘算法的研究及改進(jìn)28-41
- 3.1 關(guān)聯(lián)分析28-36
- 3.1.1 關(guān)聯(lián)分析概述28-29
- 3.1.2 Apriori算法29-30
- 3.1.3 Apriori算法的改進(jìn)30-33
- 3.1.4 Apriori算法與Trans_Apriori算法之間的效率對比33-36
- 3.2 聚類分析36-41
- 3.2.1 聚類分析概述36-37
- 3.2.2 本系統(tǒng)中的聚類分析37
- 3.2.3 改進(jìn)的用戶-頁面特性訪問矩陣37-39
- 3.2.4 K-Means聚類算法39-41
- 第四章 網(wǎng)站日志分析系統(tǒng)的設(shè)計與實現(xiàn)41-64
- 4.1 網(wǎng)站日志分析系統(tǒng)的概要設(shè)計41-46
- 4.1.1 網(wǎng)站日志分析系統(tǒng)的主要功能模塊41-43
- 4.1.2 網(wǎng)站日志分析系統(tǒng)的數(shù)據(jù)庫設(shè)計43-44
- 4.1.3 網(wǎng)站日志分析系統(tǒng)的工作流程44-46
- 4.2 網(wǎng)站日志分析系統(tǒng)主要模塊的詳細(xì)設(shè)計與實現(xiàn)46-64
- 4.2.1 數(shù)據(jù)庫連接相關(guān)模塊46
- 4.2.2 數(shù)據(jù)導(dǎo)入模塊46
- 4.2.3 數(shù)據(jù)預(yù)處理模塊46-52
- 4.2.3.1 數(shù)據(jù)清理46-47
- 4.2.3.2 頁面識別47-48
- 4.2.3.3 用戶識別48-49
- 4.2.3.4 會話識別49-51
- 4.2.3.5 頁面特性導(dǎo)入51
- 4.2.3.6 事務(wù)識別51-52
- 4.2.4 基本分析模塊52-54
- 4.2.5 關(guān)聯(lián)分析模塊54-59
- 4.2.5.1 頻繁項目集的生成55-58
- 4.2.5.2 關(guān)聯(lián)規(guī)則生成58-59
- 4.2.6 聚類分析模塊59-64
- 第五章 網(wǎng)站日志分析系統(tǒng)的應(yīng)用64-77
- 5.1 實驗數(shù)據(jù)介紹64
- 5.2 數(shù)據(jù)導(dǎo)入64-65
- 5.3 數(shù)據(jù)預(yù)處理65-70
- 5.4 基本統(tǒng)計分析70-71
- 5.5 關(guān)聯(lián)分析71-74
- 5.6 聚類分析74-77
- 總結(jié)77-79
- —、主要研究工作77
- 二、不足之處及下一步要努力的方向77-79
- 參考文獻(xiàn)79-83
- 致謝83-84
- 個人簡歷84-85
- 在學(xué)期間已發(fā)表和錄用的論文85
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 程舒通;徐從富;;網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)研究進(jìn)展[J];計算機應(yīng)用研究;2009年06期
2 徐t;;談網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)研究進(jìn)展[J];東方企業(yè)文化;2010年03期
3 許波勇;;論企業(yè)網(wǎng)站的推廣[J];電腦開發(fā)與應(yīng)用;2011年06期
4 程舒通;;網(wǎng)站結(jié)構(gòu)優(yōu)化系統(tǒng)研究[J];科技傳播;2011年24期
5 王春艷;張彥芳;;網(wǎng)站結(jié)構(gòu)規(guī)劃探討[J];東方企業(yè)文化;2013年04期
6 ;1999百家頂級網(wǎng)站(一)[J];現(xiàn)代計算機;2000年01期
7 馮江,周毅剛;網(wǎng)站介紹(5)[J];新建筑;2001年05期
8 董玉民;青島建筑工程學(xué)院網(wǎng)站的規(guī)劃與建立[J];青島建筑工程學(xué)院學(xué)報;2001年03期
9 胡綱;輕松更新自己的網(wǎng)站[Macromedia Contribute 1.0][J];個人電腦;2003年02期
10 王有為,汪定偉;基于關(guān)聯(lián)系數(shù)的電子超市網(wǎng)站結(jié)構(gòu)優(yōu)化模型及算法復(fù)雜性分析[J];小型微型計算機系統(tǒng);2004年04期
中國重要報紙全文數(shù)據(jù)庫 前10條
1 正言;企業(yè)網(wǎng)站步入互動通道[N];中國經(jīng)營報;2007年
2 王兆成;旅行社網(wǎng)站服務(wù)功能探討[N];中國旅游報;2008年
3 孟輝邋薛麗英;山西太原搗毀兩個淫穢色情網(wǎng)站[N];中國新聞出版報;2008年
4 劉安;檔案期刊與網(wǎng)絡(luò)相互強身[N];中國檔案報;2003年
5 何佳訊;撒“網(wǎng)”捕金[N];廠長經(jīng)理日報;2001年
6 小新;用BlazingTools Instant Source工具 分析網(wǎng)站代碼[N];中國電腦教育報;2004年
7 肖丹 陳蘭琴 念紅梅 陳正紅;全球“最佳中之最佳”BtoB網(wǎng)站[N];國際經(jīng)貿(mào)消息;2000年
8 本報記者 陳亮;Google重納寶馬德國網(wǎng)站[N];南方日報;2006年
9 飛飛;專業(yè)級的選擇[N];中國電腦教育報;2002年
10 ;小生產(chǎn)與大市場 網(wǎng)上溝通[N];農(nóng)民日報;2000年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 賈小娟;基于交互理論的兒童網(wǎng)站引導(dǎo)性界面設(shè)計研究[D];河北工業(yè)大學(xué);2015年
2 翁錦琳;基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實現(xiàn)[D];福州大學(xué);2014年
3 何坤鵬;基于本體的網(wǎng)站結(jié)構(gòu)知識獲取與分析[D];北京化工大學(xué);2007年
4 杜華;電子商務(wù)網(wǎng)站結(jié)構(gòu)優(yōu)化模型與算法研究[D];首都師范大學(xué);2009年
5 賈夢青;基于用戶訪問行為分析的網(wǎng)站分類研究[D];鄭州大學(xué);2009年
6 郜鑫博;基于關(guān)鍵資源的網(wǎng)站分類研究[D];哈爾濱工業(yè)大學(xué);2009年
7 叢帥;基于關(guān)鍵資源的網(wǎng)站分類研究[D];哈爾濱工業(yè)大學(xué);2010年
8 李毅;交互式網(wǎng)站的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2011年
9 韓云端;基于瀏覽者的網(wǎng)站結(jié)構(gòu)研究[D];山西財經(jīng)大學(xué);2006年
10 夏曄;基于網(wǎng)站分類的網(wǎng)絡(luò)用戶隱私信息保護(hù)模型[D];復(fù)旦大學(xué);2012年
本文關(guān)鍵詞:基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:342938
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/342938.html