某電子商務(wù)網(wǎng)站搜索日志分析系統(tǒng)設(shè)計與實現(xiàn)
本文選題:日志分析 + 關(guān)鍵詞; 參考:《中國科學(xué)院大學(xué)(中國科學(xué)院工程管理與信息技術(shù)學(xué)院)》2017年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展以及網(wǎng)站數(shù)量的急劇增加,各網(wǎng)站對用戶的爭奪變得越來越激烈。為了更好的吸引和留住用戶,需要更好地了解網(wǎng)站用戶的使用行為,研究并分析搜索引擎的日志已成為在海量數(shù)據(jù)中獲取用戶行為有效數(shù)據(jù)的主要方法;诖,為了更好地捕捉網(wǎng)站用戶現(xiàn)實需求,了解用戶意愿,本文設(shè)計和實現(xiàn)了一個網(wǎng)站搜索日志分析系統(tǒng),從而幫助網(wǎng)站能更好的服務(wù)客戶,并實現(xiàn)網(wǎng)站的快速發(fā)展。不同網(wǎng)站的搜索引擎針對的目標(biāo)群體不同,本文的研究對象是某電子商務(wù)行業(yè)網(wǎng)站的搜索日志,通過建立日志分析系統(tǒng)來了解網(wǎng)站的用戶行為模式,并挖掘其潛在需求。本系統(tǒng)設(shè)計中存在的最大困難之處在于如何搜索海量的日志數(shù)據(jù),并實現(xiàn)搜索的高速性和準(zhǔn)確性。主要研究內(nèi)容如下:1,搜索日志的收集格式使用NCSA擴(kuò)展日志格式,網(wǎng)站頁面各分析項使用標(biāo)簽記錄,使用開源Apache和Flume海量日志采集系統(tǒng)進(jìn)行日志收集,使網(wǎng)站日志收集具有高效,準(zhǔn)確,及時等特點,減輕了開發(fā)和測試的壓力和負(fù)擔(dān),同時降低了風(fēng)險。頁面各統(tǒng)計項通過添加標(biāo)簽使分析日志具備了簡單,準(zhǔn)確的特點,降低了日志分析的負(fù)擔(dān)。2,使用分布式處理平臺Hadoop對日志進(jìn)行分析,論文中主要分析基于HDFS文件存儲和Map/Reduce的分布式處理的關(guān)鍵技術(shù),對日志分析的實現(xiàn)過程進(jìn)行了詳細(xì)的描述和分析,通過使用Hadoop解決了海量日志分析處理的時效性和準(zhǔn)確性的問題,并且代碼開發(fā)非常簡單,難度大幅度降低,項目推進(jìn)的效率提升明顯。3,設(shè)計并實現(xiàn)了用戶行為的分析模型和用戶信息質(zhì)量的評分模型,通過這兩個模型我們可以獲知用戶的網(wǎng)站瀏覽偏好以及用戶信息的質(zhì)量信息,以及關(guān)鍵詞相關(guān)性的信息,建立了用戶的偏好瀏覽模型和信息聚類模型,為信息聚合和個性化的搜索提供了數(shù)據(jù)支撐。最后,通過對上線系統(tǒng)運行兩周后的結(jié)果分析,并且按照分析結(jié)果搜索重新進(jìn)行排序設(shè)置以及聚類展示,很好地提升了使用效果,系統(tǒng)也達(dá)到了預(yù)期的目標(biāo)。
[Abstract]:With the rapid development of the Internet and the rapid increase of the number of websites, the competition for users becomes more and more fierce. In order to attract and retain users better, it is necessary to understand the user's behavior better. The research and analysis of search engine log has become the main method to obtain the effective data of user behavior in the massive data. Based on this, this paper designs and implements a website search log analysis system in order to better capture the actual needs of website users and understand users' wishes, so as to help the website to better serve customers and realize the rapid development of the website. The search engine of different websites aims at different target groups. The research object of this paper is the search log of a website in an electronic commerce industry. Through the establishment of log analysis system, we can understand the user behavior pattern of the website and mine its potential demand. The biggest difficulty in the design of this system is how to search the massive log data and realize the high speed and accuracy of the search. The main research contents are as follows: the search log collection format uses NCSA extended log format, the analysis items of website pages use label recording, and the open source Apache and Flume massive log collection system are used for log collection, which makes the website log collection efficient. Accurate, timely and other characteristics, reduce the development and testing of the pressure and burden, while reducing the risk. Each statistical item on the page has simple and accurate features by adding tags, and reduces the burden of log analysis. 2. The distributed processing platform Hadoop is used to analyze the log. In this paper, the key technologies of distributed processing based on HDFS file storage and Map/Reduce are analyzed, and the implementation process of log analysis is described and analyzed in detail. Through the use of Hadoop to solve the problem of timeliness and accuracy of massive log analysis and processing, and the code development is very simple, the difficulty is greatly reduced, The efficiency of the project is improved obviously. 3. The analysis model of user behavior and the scoring model of user information quality are designed and implemented. Through these two models, we can get the user's preference for browsing website and the quality information of user information. The user preference browsing model and information clustering model are established, which provide data support for information aggregation and personalized search. Finally, by analyzing the results of the on-line system after two weeks' running, and reordering and clustering display according to the analysis result search, the system improves the use effect well, and the system also achieves the expected goal.
【學(xué)位授予單位】:中國科學(xué)院大學(xué)(中國科學(xué)院工程管理與信息技術(shù)學(xué)院)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP393.092;TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 文娟,薛永生,段江嬌,王勁波;基于關(guān)聯(lián)規(guī)則的日志分析系統(tǒng)的設(shè)計與實現(xiàn)[J];廈門大學(xué)學(xué)報(自然科學(xué)版);2005年S1期
2 張曉剛;潘久輝;;MS SQL Server 2000日志分析方法的研究與實現(xiàn)[J];計算機(jī)工程與設(shè)計;2006年19期
3 李春林;周根鴻;張文體;;重視日志審計確保數(shù)據(jù)安全[J];醫(yī)學(xué)信息;2007年10期
4 梁曉雪;王鋒;;基于聚類的日志分析技術(shù)綜述與展望[J];云南大學(xué)學(xué)報(自然科學(xué)版);2009年S1期
5 黃海隆;陳賽娉;;計算機(jī)日志分析與管理方法的研究[J];大眾科技;2006年07期
6 鄭毅;;基于日志分析的網(wǎng)絡(luò)IDS研究[J];襄樊學(xué)院學(xué)報;2008年11期
7 陳庭平;沈麗娟;曾鵬;;日志服務(wù)器建設(shè)和應(yīng)用[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2010年09期
8 鄒先霞;賈維嘉;潘久輝;;基于數(shù)據(jù)庫日志的變化數(shù)據(jù)捕獲研究[J];小型微型計算機(jī)系統(tǒng);2012年03期
9 羅新;;防火墻日志分析系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機(jī)時代;2012年02期
10 姜良華;崔建明;;Serv-U FTP服務(wù)器日志分析系統(tǒng)設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2010年28期
相關(guān)會議論文 前10條
1 馬辰;武斌;;一種基于攻擊事件圖的蜜網(wǎng)日志分析方法[A];虛擬運營與云計算——第十八屆全國青年通信學(xué)術(shù)年會論文集(下冊)[C];2013年
2 周濤;;基于數(shù)據(jù)挖掘的入侵檢測日志分析技術(shù)研究[A];第二屆中國科學(xué)院博士后學(xué)術(shù)年會暨高新技術(shù)前沿與發(fā)展學(xué)術(shù)會議程序冊[C];2010年
3 陳晨;鄭康鋒;;一種基于支持向量機(jī)的蜜網(wǎng)系統(tǒng)日志分析方法[A];2011年通信與信息技術(shù)新進(jìn)展——第八屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2011年
4 劉莉;;基于多協(xié)議技術(shù)的日志集中管理安全方案[A];2008年中國通信學(xué)會無線及移動通信委員會學(xué)術(shù)年會論文集[C];2008年
5 耿濤;;Web日志分析在電子數(shù)據(jù)取證中的應(yīng)用[A];第二十一次全國計算機(jī)安全學(xué)術(shù)交流會論文集[C];2006年
6 閆龍川;王懷宇;李楓;毛一凡;;基于Hadoop的郵件日志分析與研究[A];2012電力行業(yè)信息化年會論文集[C];2012年
7 陳慶章;王磊;毛科技;戴國勇;;基于防火墻日志的在線攻擊偵查系統(tǒng)的設(shè)計與實現(xiàn)(英文)[A];全國第19屆計算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集(下冊)[C];2008年
8 王振亞;武斌;;基于MFI-WT算法的蜜網(wǎng)日志分析方法[A];第十七屆全國青年通信學(xué)術(shù)年會論文集[C];2012年
9 金松昌;方濱興;楊樹強(qiáng);賈焰;;基于Hadoop的網(wǎng)絡(luò)安全日志分析系統(tǒng)的設(shè)計與實現(xiàn)[A];全國計算機(jī)安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年
10 朱金清;王建新;陳志泊;;基于APRIORI的層次化聚類算法及其在IDS日志分析中的應(yīng)用[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年
相關(guān)重要報紙文章 前10條
1 中航工業(yè)南方航空工業(yè)集團(tuán)(有限)公司科技與信息部 鄒滬湘;分析日志識別暴力破解[N];計算機(jī)世界;2013年
2 ;日志分析中的五個誤區(qū)[N];網(wǎng)絡(luò)世界;2004年
3 陳代壽;網(wǎng)管的四兩撥千斤[N];中國計算機(jī)報;2004年
4 IBM大數(shù)據(jù)專家 James Kobielus 范范 編譯;大數(shù)據(jù)日志分析借機(jī)器學(xué)習(xí)騰飛[N];網(wǎng)絡(luò)世界;2014年
5 《網(wǎng)絡(luò)世界》評測實驗室 于洋;用好Web日志[N];網(wǎng)絡(luò)世界;2004年
6 重慶 航行者;IIS的安全[N];電腦報;2002年
7 河南工業(yè)職業(yè)技術(shù)學(xué)院 邱建新;監(jiān)測Squid日志的五種方法[N];計算機(jī)世界;2005年
8 shotgun;入侵檢測初步(上)[N];電腦報;2001年
9 朱閔;淺談企業(yè)核心應(yīng)用的安全審計(下)[N];網(wǎng)絡(luò)世界;2008年
10 覃進(jìn)文;在Windows 2000&&2003下快速安裝Webalizer[N];中國電腦教育報;2003年
相關(guān)博士學(xué)位論文 前3條
1 饒翔;基于日志的大規(guī)模分布式軟件系統(tǒng)可信保障技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
2 曹志波;基于日志的任務(wù)建模及調(diào)度優(yōu)化的研究[D];華南理工大學(xué);2014年
3 胡蓉;WEB日志和子空間聚類挖掘算法研究[D];華中科技大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 張?zhí)焐?日志采集與分析在Web網(wǎng)站中的設(shè)計與實現(xiàn)[D];上海交通大學(xué);2015年
2 周海靖;日志大數(shù)據(jù)分析平臺技術(shù)研究[D];山東大學(xué);2015年
3 賴特;網(wǎng)絡(luò)安全設(shè)備日志融合技術(shù)研究[D];電子科技大學(xué);2015年
4 董妍妍;基于Hadoop的Teradata數(shù)據(jù)倉庫日志分析系統(tǒng)的設(shè)計與實現(xiàn)[D];南京大學(xué);2014年
5 李名弈;IPTVQOS日志分析方法研究[D];復(fù)旦大學(xué);2013年
6 劉季函(Liu,Chi Han);基于Spark的網(wǎng)絡(luò)日志分析系統(tǒng)的設(shè)計與實現(xiàn)[D];南京大學(xué);2014年
7 李榮榮;基于Hadoop平臺的日志分析系統(tǒng)[D];復(fù)旦大學(xué);2013年
8 周云斌;基于主機(jī)的日志大數(shù)椐分析及安全性檢查[D];大連理工大學(xué);2015年
9 張迪;基于NoSQL的大規(guī)模Web日志分析系統(tǒng)的設(shè)計與實現(xiàn)[D];復(fù)旦大學(xué);2013年
10 潘宇軒;基于Django的日志分析系統(tǒng)的設(shè)計與實現(xiàn)[D];南京大學(xué);2014年
,本文編號:1800770
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1800770.html