基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著Internet的迅速發(fā)展,Web網(wǎng)站逐漸成為了存儲(chǔ)、發(fā)布、獲取、交流信息的最重要的載體。然而,隨著Web網(wǎng)站數(shù)據(jù)的急劇增加,人們?cè)跈z索信息時(shí)遇到了極大的困難。要解決這個(gè)問(wèn)題,除了依靠搜索引擎外,還應(yīng)該從自身網(wǎng)站的設(shè)計(jì)做起。也就是說(shuō),在網(wǎng)站設(shè)計(jì)時(shí)就應(yīng)該從用戶出發(fā)來(lái)設(shè)計(jì)和優(yōu)化自己的站點(diǎn),這就要求網(wǎng)站設(shè)計(jì)者通過(guò)分析Web數(shù)據(jù)來(lái)獲得有用的信息,從而為網(wǎng)站設(shè)計(jì)提供幫助。Web日志是這些Web數(shù)據(jù)的一部分,也是較為完整與富于結(jié)構(gòu)化的數(shù)據(jù)。通過(guò)對(duì)Web日志的分析,可以挖掘出網(wǎng)站的各個(gè)頁(yè)面內(nèi)容之間的相關(guān)性,分析出各類用戶的不同喜好及訪問(wèn)意圖,從而對(duì)網(wǎng)站的結(jié)構(gòu)及內(nèi)容提出改進(jìn)意見(jiàn),使站點(diǎn)的整體性能得到提高。本文查閱了國(guó)內(nèi)外大量關(guān)于Web使用挖掘的相關(guān)文獻(xiàn),在這基礎(chǔ)上對(duì)Web使用挖掘相關(guān)算法進(jìn)行分析,并對(duì)部分算法進(jìn)行改進(jìn),通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證改進(jìn)效果。設(shè)計(jì)了一個(gè)基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng),使算法得以實(shí)現(xiàn),并將該系統(tǒng)應(yīng)用于具體網(wǎng)站中。本文主要包括以下內(nèi)容:(1)本文研究了Web使用挖掘數(shù)據(jù)預(yù)處理過(guò)程,包括頁(yè)面識(shí)別、用戶識(shí)別、會(huì)話識(shí)別、事務(wù)數(shù)據(jù)庫(kù)生成等等,對(duì)現(xiàn)有算法進(jìn)行了分析并選擇合適的算法,提出了基于“頁(yè)面內(nèi)容特性”的數(shù)據(jù)預(yù)處理算法,該算法更加強(qiáng)調(diào)頁(yè)面的語(yǔ)義內(nèi)容,使得后面的分析結(jié)果更有價(jià)值。(2)本文研究了關(guān)聯(lián)分析與聚類分析。對(duì)經(jīng)典的Apriori關(guān)聯(lián)挖掘算法進(jìn)行了分析,提出了一種改進(jìn)的Apriori算法,提高了算法的效率,通過(guò)各種數(shù)據(jù)量下的對(duì)比實(shí)驗(yàn)證明該算法的有效性;分析了本文所要做的聚類分析工作,提出了改進(jìn)的“用戶-頁(yè)面特性訪問(wèn)矩陣”,然后使用經(jīng)典的k-means算法進(jìn)行聚類分析。(3)本文介紹了基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的實(shí)現(xiàn)過(guò)程,給出了本系統(tǒng)的概要設(shè)計(jì)與詳細(xì)設(shè)計(jì),包括系統(tǒng)主要模塊的功能,數(shù)據(jù)庫(kù)設(shè)計(jì),數(shù)據(jù)流圖,以及各個(gè)模塊所使用的算法及主要類的關(guān)鍵源代碼。(4)將本系統(tǒng)應(yīng)用于一個(gè)具體的網(wǎng)站上,通過(guò)對(duì)該網(wǎng)站的日志進(jìn)行挖掘與分析,得出了實(shí)驗(yàn)結(jié)果,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,對(duì)該網(wǎng)站的結(jié)構(gòu)與內(nèi)容提出改進(jìn)意見(jiàn),從而證明了系統(tǒng)的有效性。(5)最后總結(jié)了本文的研究成果與不足之處,并提出下一步要努力的方向。
【關(guān)鍵詞】:Web使用挖掘 數(shù)據(jù)預(yù)處理 關(guān)聯(lián)規(guī)則 Apriori算法 聚類 k-means算法 網(wǎng)站日志分析系統(tǒng)
【學(xué)位授予單位】:福州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP311.13;TP393.092
【目錄】:
- 中文摘要3-4
- Abstract4-8
- 第一章 引言8-13
- 1.1 論文的研究背景及意義8-9
- 1.2 國(guó)內(nèi)外與Web日志挖掘相關(guān)的研究現(xiàn)狀9-11
- 1.2.1 國(guó)外研究現(xiàn)狀9-10
- 1.2.2 國(guó)內(nèi)主要研究成果10-11
- 1.2.3 Web日志挖掘相關(guān)產(chǎn)品11
- 1.3 本文的特色與創(chuàng)新之處11
- 1.4 論文的組織結(jié)構(gòu)11-13
- 第二章 預(yù)處理算法的研究與改進(jìn)13-28
- 2.1 Web日志13-15
- 2.2 數(shù)據(jù)預(yù)處理相關(guān)算法研究15-23
- 2.2.1 數(shù)據(jù)清理15-16
- 2.2.2 頁(yè)面識(shí)別16-17
- 2.2.3 用戶識(shí)別17-18
- 2.2.4 會(huì)話識(shí)別18-19
- 2.2.5 事務(wù)識(shí)別19-20
- 2.2.6 數(shù)據(jù)預(yù)處理過(guò)程舉例20-23
- 2.3 數(shù)據(jù)預(yù)處理算法的改進(jìn)23-28
- 2.3.1 關(guān)于“頁(yè)面特性”23-24
- 2.3.2 基于“頁(yè)面特性”的數(shù)據(jù)預(yù)處理算法24-28
- 第三章 系統(tǒng)相關(guān)數(shù)據(jù)挖掘算法的研究及改進(jìn)28-41
- 3.1 關(guān)聯(lián)分析28-36
- 3.1.1 關(guān)聯(lián)分析概述28-29
- 3.1.2 Apriori算法29-30
- 3.1.3 Apriori算法的改進(jìn)30-33
- 3.1.4 Apriori算法與Trans_Apriori算法之間的效率對(duì)比33-36
- 3.2 聚類分析36-41
- 3.2.1 聚類分析概述36-37
- 3.2.2 本系統(tǒng)中的聚類分析37
- 3.2.3 改進(jìn)的用戶-頁(yè)面特性訪問(wèn)矩陣37-39
- 3.2.4 K-Means聚類算法39-41
- 第四章 網(wǎng)站日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)41-64
- 4.1 網(wǎng)站日志分析系統(tǒng)的概要設(shè)計(jì)41-46
- 4.1.1 網(wǎng)站日志分析系統(tǒng)的主要功能模塊41-43
- 4.1.2 網(wǎng)站日志分析系統(tǒng)的數(shù)據(jù)庫(kù)設(shè)計(jì)43-44
- 4.1.3 網(wǎng)站日志分析系統(tǒng)的工作流程44-46
- 4.2 網(wǎng)站日志分析系統(tǒng)主要模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)46-64
- 4.2.1 數(shù)據(jù)庫(kù)連接相關(guān)模塊46
- 4.2.2 數(shù)據(jù)導(dǎo)入模塊46
- 4.2.3 數(shù)據(jù)預(yù)處理模塊46-52
- 4.2.3.1 數(shù)據(jù)清理46-47
- 4.2.3.2 頁(yè)面識(shí)別47-48
- 4.2.3.3 用戶識(shí)別48-49
- 4.2.3.4 會(huì)話識(shí)別49-51
- 4.2.3.5 頁(yè)面特性導(dǎo)入51
- 4.2.3.6 事務(wù)識(shí)別51-52
- 4.2.4 基本分析模塊52-54
- 4.2.5 關(guān)聯(lián)分析模塊54-59
- 4.2.5.1 頻繁項(xiàng)目集的生成55-58
- 4.2.5.2 關(guān)聯(lián)規(guī)則生成58-59
- 4.2.6 聚類分析模塊59-64
- 第五章 網(wǎng)站日志分析系統(tǒng)的應(yīng)用64-77
- 5.1 實(shí)驗(yàn)數(shù)據(jù)介紹64
- 5.2 數(shù)據(jù)導(dǎo)入64-65
- 5.3 數(shù)據(jù)預(yù)處理65-70
- 5.4 基本統(tǒng)計(jì)分析70-71
- 5.5 關(guān)聯(lián)分析71-74
- 5.6 聚類分析74-77
- 總結(jié)77-79
- —、主要研究工作77
- 二、不足之處及下一步要努力的方向77-79
- 參考文獻(xiàn)79-83
- 致謝83-84
- 個(gè)人簡(jiǎn)歷84-85
- 在學(xué)期間已發(fā)表和錄用的論文85
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 程舒通;徐從富;;網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)研究進(jìn)展[J];計(jì)算機(jī)應(yīng)用研究;2009年06期
2 徐t;;談網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)研究進(jìn)展[J];東方企業(yè)文化;2010年03期
3 許波勇;;論企業(yè)網(wǎng)站的推廣[J];電腦開(kāi)發(fā)與應(yīng)用;2011年06期
4 程舒通;;網(wǎng)站結(jié)構(gòu)優(yōu)化系統(tǒng)研究[J];科技傳播;2011年24期
5 王春艷;張彥芳;;網(wǎng)站結(jié)構(gòu)規(guī)劃探討[J];東方企業(yè)文化;2013年04期
6 ;1999百家頂級(jí)網(wǎng)站(一)[J];現(xiàn)代計(jì)算機(jī);2000年01期
7 馮江,周毅剛;網(wǎng)站介紹(5)[J];新建筑;2001年05期
8 董玉民;青島建筑工程學(xué)院網(wǎng)站的規(guī)劃與建立[J];青島建筑工程學(xué)院學(xué)報(bào);2001年03期
9 胡綱;輕松更新自己的網(wǎng)站[Macromedia Contribute 1.0][J];個(gè)人電腦;2003年02期
10 王有為,汪定偉;基于關(guān)聯(lián)系數(shù)的電子超市網(wǎng)站結(jié)構(gòu)優(yōu)化模型及算法復(fù)雜性分析[J];小型微型計(jì)算機(jī)系統(tǒng);2004年04期
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 正言;企業(yè)網(wǎng)站步入互動(dòng)通道[N];中國(guó)經(jīng)營(yíng)報(bào);2007年
2 王兆成;旅行社網(wǎng)站服務(wù)功能探討[N];中國(guó)旅游報(bào);2008年
3 孟輝邋薛麗英;山西太原搗毀兩個(gè)淫穢色情網(wǎng)站[N];中國(guó)新聞出版報(bào);2008年
4 劉安;檔案期刊與網(wǎng)絡(luò)相互強(qiáng)身[N];中國(guó)檔案報(bào);2003年
5 何佳訊;撒“網(wǎng)”捕金[N];廠長(zhǎng)經(jīng)理日?qǐng)?bào);2001年
6 小新;用BlazingTools Instant Source工具 分析網(wǎng)站代碼[N];中國(guó)電腦教育報(bào);2004年
7 肖丹 陳蘭琴 念紅梅 陳正紅;全球“最佳中之最佳”BtoB網(wǎng)站[N];國(guó)際經(jīng)貿(mào)消息;2000年
8 本報(bào)記者 陳亮;Google重納寶馬德國(guó)網(wǎng)站[N];南方日?qǐng)?bào);2006年
9 飛飛;專業(yè)級(jí)的選擇[N];中國(guó)電腦教育報(bào);2002年
10 ;小生產(chǎn)與大市場(chǎng) 網(wǎng)上溝通[N];農(nóng)民日?qǐng)?bào);2000年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 賈小娟;基于交互理論的兒童網(wǎng)站引導(dǎo)性界面設(shè)計(jì)研究[D];河北工業(yè)大學(xué);2015年
2 翁錦琳;基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實(shí)現(xiàn)[D];福州大學(xué);2014年
3 何坤鵬;基于本體的網(wǎng)站結(jié)構(gòu)知識(shí)獲取與分析[D];北京化工大學(xué);2007年
4 杜華;電子商務(wù)網(wǎng)站結(jié)構(gòu)優(yōu)化模型與算法研究[D];首都師范大學(xué);2009年
5 賈夢(mèng)青;基于用戶訪問(wèn)行為分析的網(wǎng)站分類研究[D];鄭州大學(xué);2009年
6 郜鑫博;基于關(guān)鍵資源的網(wǎng)站分類研究[D];哈爾濱工業(yè)大學(xué);2009年
7 叢帥;基于關(guān)鍵資源的網(wǎng)站分類研究[D];哈爾濱工業(yè)大學(xué);2010年
8 李毅;交互式網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年
9 韓云端;基于瀏覽者的網(wǎng)站結(jié)構(gòu)研究[D];山西財(cái)經(jīng)大學(xué);2006年
10 夏曄;基于網(wǎng)站分類的網(wǎng)絡(luò)用戶隱私信息保護(hù)模型[D];復(fù)旦大學(xué);2012年
本文關(guān)鍵詞:基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):342938
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/342938.html