基于Web使用挖掘的網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)研究
本文選題:Web數(shù)據(jù)挖掘 + WAP算法; 參考:《電子科技大學(xué)》2016年碩士論文
【摘要】:網(wǎng)站在構(gòu)建時,主要依靠網(wǎng)站設(shè)計開發(fā)人員的手工設(shè)計和一些先驗經(jīng)驗進(jìn)行網(wǎng)站結(jié)構(gòu)的組織,但是由于網(wǎng)站的設(shè)計開發(fā)人員與用戶對網(wǎng)站結(jié)構(gòu)組織存在著不同的理解,這種主觀性的差異將會導(dǎo)致用戶在搜索其感興趣有益的網(wǎng)頁時往往會以更多的訪問代價達(dá)到目標(biāo)網(wǎng)頁。同時,用戶在搜尋目標(biāo)網(wǎng)頁時,會產(chǎn)生一些無關(guān)的頁面點擊行為,這將大大增加服務(wù)器負(fù)荷和網(wǎng)絡(luò)的數(shù)據(jù)流量,更易造成網(wǎng)絡(luò)阻塞,導(dǎo)致網(wǎng)絡(luò)訪問速度的下降,從而影響用戶對站點的滿意度。也就說,目標(biāo)網(wǎng)頁的最優(yōu)期望定位直接決定了站點的服務(wù)質(zhì)量;赪eb使用挖掘的網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)就是通過挖掘Web日志,獲得用戶頻繁訪問路徑,從而得到目標(biāo)網(wǎng)頁的最優(yōu)定位,進(jìn)而及時調(diào)整網(wǎng)站結(jié)構(gòu),使所有的用戶都可以以很小的訪問代價瀏覽站點,更有效地獲取所需的信息;诖,本文主要做了以下幾個方面研究:1)為了使Web挖掘算法能夠在Web日志中進(jìn)行挖掘,對Web日志數(shù)據(jù)預(yù)處理過程進(jìn)行了詳細(xì)討論,探討了如何將Web日志記錄轉(zhuǎn)換成用戶會話,得到用戶訪問序列。2)針對在海量數(shù)據(jù)情況下,單機進(jìn)行數(shù)據(jù)預(yù)處理的效率將會愈來愈低的缺陷,提出一種基于Map Reduce的并行分布式處理辦法,并將其在Hadoop平臺上進(jìn)行了實現(xiàn)。3)研究并分析了Web使用挖掘方面較為經(jīng)典的關(guān)聯(lián)規(guī)則算法及其特點,針對PLWAP算法在位置編碼存在的缺陷,提出一種基于PLWAP算法改進(jìn)的挖掘算法POCWAP算法,并結(jié)合IBM Quest Project數(shù)據(jù)進(jìn)行實驗,驗證了其有效性與正確性,另外在與PLWAP算法的對比實驗中,也直觀反映出POCWAP在算法性能上較PLWAP算法有所提升。4)采用改進(jìn)的挖掘算法POCWAP算法,結(jié)合成都康賽信息技術(shù)有限公司企業(yè)網(wǎng)站的Web日志數(shù)據(jù),設(shè)計并開發(fā)出一套網(wǎng)站結(jié)構(gòu)優(yōu)化原型系統(tǒng)WSOS。重點介紹了該系統(tǒng)的系統(tǒng)框架,以及在Hadoop平臺上實現(xiàn)Web日志預(yù)處理過程,展示預(yù)處理結(jié)果和模式發(fā)現(xiàn)結(jié)果,給出改進(jìn)意見,最后對原型系統(tǒng)進(jìn)行功能測試與分析。本文的最后給出了對全文工作的歸納和總結(jié),探討了下一步研究方向。
[Abstract]:When the website is built, it mainly relies on the manual design and some prior experience of the website designer to organize the website structure, but because the website designer and the user have different understanding to the website structure organization, This subjective difference will lead users to reach the target page with more access costs when searching useful pages. At the same time, when searching for the target web page, the user will produce some irrelevant page click behavior, which will greatly increase the server load and network data flow, and easily cause network congestion, resulting in a decrease in network access speed. This affects the user's satisfaction with the site. In other words, the optimal desired location of the target web page directly determines the quality of service of the site. Web site structure optimization technology based on Web usage mining is to obtain the user frequent access path by mining Web log, and then get the optimal location of the target web page, and then adjust the website structure in time. Enables all users to visit the site at a very small cost of access and more efficiently access the information they need. Based on this, this paper mainly studies the following aspects: 1) in order to make Web mining algorithm mining in Web logs, the preprocessing process of Web log data is discussed in detail, and how to convert Web log records into user sessions is discussed. Get user access sequence. 2) in the case of mass data, the efficiency of data preprocessing on single machine will be lower and lower. A parallel distributed processing method based on Map Reduce is proposed. This paper studies and analyzes the classical association rules algorithm and its characteristics in Web usage mining, aiming at the defects of PLWAP algorithm in position coding. An improved mining algorithm POCWAP algorithm based on PLWAP algorithm is proposed, and the validity and correctness of the algorithm are verified by combining the IBM Quest Project data. In addition, in comparison with the PLWAP algorithm, the proposed algorithm is compared with the PLWAP algorithm. Also intuitively reflects that POCWAP algorithm performance has improved compared with PLWAP algorithm. 4) using the improved mining algorithm POCWAP algorithm, combined with the Chengdu Kangsai Information Technology Co., Ltd. Enterprise website Web log data, Design and develop a website structure optimization prototype system WSOS. The system framework of the system and the process of Web log preprocessing on Hadoop platform are introduced in detail. The results of preprocessing and pattern discovery are presented. Finally, the function of the prototype system is tested and analyzed. At the end of this paper, the author summarizes the work of this paper and discusses the future research direction.
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 程舒通;徐從富;;網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)研究進(jìn)展[J];計算機應(yīng)用研究;2009年06期
2 徐t;;談網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)研究進(jìn)展[J];東方企業(yè)文化;2010年03期
3 許波勇;;論企業(yè)網(wǎng)站的推廣[J];電腦開發(fā)與應(yīng)用;2011年06期
4 程舒通;;網(wǎng)站結(jié)構(gòu)優(yōu)化系統(tǒng)研究[J];科技傳播;2011年24期
5 王春艷;張彥芳;;網(wǎng)站結(jié)構(gòu)規(guī)劃探討[J];東方企業(yè)文化;2013年04期
6 ;1999百家頂級網(wǎng)站(一)[J];現(xiàn)代計算機;2000年01期
7 馮江,周毅剛;網(wǎng)站介紹(5)[J];新建筑;2001年05期
8 董玉民;青島建筑工程學(xué)院網(wǎng)站的規(guī)劃與建立[J];青島建筑工程學(xué)院學(xué)報;2001年03期
9 胡綱;輕松更新自己的網(wǎng)站[Macromedia Contribute 1.0][J];個人電腦;2003年02期
10 王有為,汪定偉;基于關(guān)聯(lián)系數(shù)的電子超市網(wǎng)站結(jié)構(gòu)優(yōu)化模型及算法復(fù)雜性分析[J];小型微型計算機系統(tǒng);2004年04期
相關(guān)重要報紙文章 前10條
1 正言;企業(yè)網(wǎng)站步入互動通道[N];中國經(jīng)營報;2007年
2 王兆成;旅行社網(wǎng)站服務(wù)功能探討[N];中國旅游報;2008年
3 孟輝邋薛麗英;山西太原搗毀兩個淫穢色情網(wǎng)站[N];中國新聞出版報;2008年
4 劉安;檔案期刊與網(wǎng)絡(luò)相互強身[N];中國檔案報;2003年
5 何佳訊;撒“網(wǎng)”捕金[N];廠長經(jīng)理日報;2001年
6 小新;用BlazingTools Instant Source工具 分析網(wǎng)站代碼[N];中國電腦教育報;2004年
7 肖丹 陳蘭琴 念紅梅 陳正紅;全球“最佳中之最佳”BtoB網(wǎng)站[N];國際經(jīng)貿(mào)消息;2000年
8 本報記者 陳亮;Google重納寶馬德國網(wǎng)站[N];南方日報;2006年
9 飛飛;專業(yè)級的選擇[N];中國電腦教育報;2002年
10 ;小生產(chǎn)與大市場 網(wǎng)上溝通[N];農(nóng)民日報;2000年
相關(guān)碩士學(xué)位論文 前10條
1 賈小娟;基于交互理論的兒童網(wǎng)站引導(dǎo)性界面設(shè)計研究[D];河北工業(yè)大學(xué);2015年
2 翁錦琳;基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實現(xiàn)[D];福州大學(xué);2014年
3 雷軍;基于ThinkPHP框架的視頻教學(xué)網(wǎng)站的設(shè)計和實現(xiàn)[D];湖北大學(xué);2015年
4 劉明鳴;基于Web使用挖掘的網(wǎng)站結(jié)構(gòu)優(yōu)化技術(shù)研究[D];電子科技大學(xué);2016年
5 芮文;基于開放鏈接模式的網(wǎng)站分類技術(shù)研究[D];東南大學(xué);2015年
6 何坤鵬;基于本體的網(wǎng)站結(jié)構(gòu)知識獲取與分析[D];北京化工大學(xué);2007年
7 杜華;電子商務(wù)網(wǎng)站結(jié)構(gòu)優(yōu)化模型與算法研究[D];首都師范大學(xué);2009年
8 賈夢青;基于用戶訪問行為分析的網(wǎng)站分類研究[D];鄭州大學(xué);2009年
9 郜鑫博;基于關(guān)鍵資源的網(wǎng)站分類研究[D];哈爾濱工業(yè)大學(xué);2009年
10 叢帥;基于關(guān)鍵資源的網(wǎng)站分類研究[D];哈爾濱工業(yè)大學(xué);2010年
,本文編號:1987076
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1987076.html