Web環(huán)境下地學(xué)數(shù)據(jù)共享用戶行為模式分析
本文選題:網(wǎng)絡(luò)數(shù)據(jù)挖掘 + 空間數(shù)據(jù)挖掘 ; 參考:《地球信息科學(xué)學(xué)報》2016年09期
【摘要】:了解科學(xué)數(shù)據(jù)共享用戶行為特征對實現(xiàn)高效、精準的數(shù)據(jù)共享服務(wù)具有重要的參考意義。本文基于國家地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺網(wǎng)站服務(wù)器日志及服務(wù)記錄數(shù)據(jù),利用空間數(shù)據(jù)挖掘及Web使用挖掘技術(shù),探索地球系統(tǒng)科學(xué)數(shù)據(jù)共享用戶行為模式。在數(shù)據(jù)預(yù)處理階段,完成用戶識別、會話識別、位置識別,并對數(shù)據(jù)進行空間建模、空間數(shù)據(jù)庫建庫。在數(shù)據(jù)挖掘階段,分別對用戶產(chǎn)生的網(wǎng)頁瀏覽數(shù)、會話數(shù)、數(shù)據(jù)集瀏覽數(shù)為對象進行空間"熱點"分析,識別用戶行為的地域差異。針對用戶數(shù)據(jù)瀏覽和下載行為,采用FP-growth算法對用戶——數(shù)據(jù)之間進行關(guān)聯(lián)規(guī)則挖掘,發(fā)現(xiàn)用戶對數(shù)據(jù)關(guān)注和使用的高頻規(guī)律。分析結(jié)果表明:(1)該共享平臺用戶地在國內(nèi)各省市均有分布,用戶最多的3個省(市)分別為北京市、山東省、江蘇省,該分布與國內(nèi)高校學(xué)生分布相關(guān)程度不高,但與"211工程"高校學(xué)生的空間分布相關(guān)度較高;(2)空間"熱點"分析表明,北京、天津及河北北部無論在網(wǎng)頁瀏覽、數(shù)據(jù)瀏覽還是會話量上都是"熱點"區(qū)域,但識別的"冷點"區(qū)域有較大不同,尤其是數(shù)據(jù)訪問"冷點"分布較廣,如南方沿海省份、河南省、山東省、四川省等;(3)關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)多個數(shù)據(jù)瀏覽高頻項目集以及關(guān)聯(lián)規(guī)則。數(shù)據(jù)下載高頻項與數(shù)據(jù)瀏覽高頻模式較好吻合,但下載行為未表現(xiàn)出明顯關(guān)聯(lián)規(guī)則。本文提供了一種結(jié)合Web使用挖掘和空間數(shù)據(jù)挖掘的用戶行為模式挖掘方法,該方法也可用于其他類型網(wǎng)站的數(shù)據(jù)挖掘。
[Abstract]:Understanding the behavior characteristics of scientific data sharing users has important reference significance for the realization of efficient and accurate data sharing services. Based on the web server log and service record data of National Earth system Science data sharing platform, this paper explores the user behavior pattern of Earth system Science data sharing by using spatial data mining and Web usage mining technology. In the stage of data preprocessing, user identification, session recognition, location recognition are completed, and the spatial modeling of the data is carried out, and the spatial database is built. In the stage of data mining, the spatial "hot spot" analysis is carried out to identify the regional differences of users' behavior, including the number of page views, the number of sessions and the number of views of data sets generated by users. According to the behavior of user data browsing and downloading, FP-growth algorithm is used to mine association rules between users and data, and the high frequency rules of users' attention and use of data are found. The results show that the shared platform is distributed in all provinces and cities in China, and the three provinces (cities) with the most users are Beijing, Shandong and Jiangsu respectively. The degree of correlation between this distribution and the distribution of college students in China is not high. However, the spatial "hot spot" analysis of Beijing, Tianjin and northern Hebei shows that Beijing, Tianjin and northern Hebei are "hot spots" in terms of web browsing, data browsing and conversation volume. But the "cold spot" areas identified are quite different, especially the "cold spots" of data access, such as southern coastal provinces, Henan Province, Shandong Province, The mining of association rules finds many data browsing high frequency itemsets and association rules. The data download high frequency item is in good agreement with the data browsing high frequency mode, but the downloading behavior does not show obvious association rules. This paper presents a user behavior pattern mining method combining Web usage mining and spatial data mining, which can also be used in other types of Web sites.
【作者單位】: 中國科學(xué)院地理科學(xué)與資源研究所資源與環(huán)境信息系統(tǒng)國家重點實驗室;中國科學(xué)院大學(xué);江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心;
【基金】:國家科技基礎(chǔ)條件平臺——地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺(2005DKA32300) 科技基礎(chǔ)性工作重點項目(2011FY110400) 中國工程院國際工程科技知識中心項目
【分類號】:TP311.13
【相似文獻】
相關(guān)期刊論文 前10條
1 蘇紅;萬國根;;基于用戶行為關(guān)聯(lián)分析的電子取證系統(tǒng)研究[J];電信科學(xué);2010年12期
2 方彬;胡俠;王燦;;基于用戶行為的盲人圖書推薦方法[J];計算機工程;2011年15期
3 張書娟;董喜雙;關(guān)毅;;基于電子商務(wù)用戶行為的同義詞識別[J];中文信息學(xué)報;2012年03期
4 徐洋;王文生;謝能付;;基于用戶行為學(xué)習(xí)的元搜索結(jié)果聚類方法研究[J];現(xiàn)代圖書情報技術(shù);2010年04期
5 歐嵬;王勇軍;韓文報;;基于用戶行為的可信模型研究[J];計算機工程與科學(xué);2013年05期
6 周寶定;李清泉;毛慶洲;張星;;用戶行為感知輔助的室內(nèi)行人定位[J];武漢大學(xué)學(xué)報(信息科學(xué)版);2014年06期
7 段云飛;林濤;唐寧九;;基于用戶行為的自動任務(wù)識別技術(shù)研究[J];四川大學(xué)學(xué)報(自然科學(xué)版);2011年01期
8 王繼民;李雷明子;鄭玉鳳;;基于日志挖掘的移動搜索用戶行為研究綜述[J];情報理論與實踐;2014年03期
9 岑榮偉;劉奕群;張敏;茹立云;馬少平;;網(wǎng)絡(luò)檢索用戶行為可靠性分析[J];軟件學(xué)報;2010年05期
10 孫達明;張斌;張書波;馬安香;;基于用戶行為的數(shù)據(jù)關(guān)聯(lián)關(guān)系獲取方法[J];東北大學(xué)學(xué)報(自然科學(xué)版);2013年12期
相關(guān)會議論文 前2條
1 張書娟;董喜雙;關(guān)毅;;基于電子商務(wù)用戶行為的同義詞識別[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年
2 寇玉波;李玉坤;孟小峰;張相於;趙婧;;個人數(shù)據(jù)空間管理中的任務(wù)挖掘策略[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
相關(guān)重要報紙文章 前2條
1 本報記者 張櫻贏;移動醫(yī)療 “笨”有前景[N];計算機世界;2013年
2 思杰(Citrix)系統(tǒng)工程師 李兵;安全源于架構(gòu)[N];中國計算機報;2008年
相關(guān)博士學(xué)位論文 前2條
1 蔣朦;社交媒體復(fù)雜行為分析與建模[D];清華大學(xué);2015年
2 楊悅;基于網(wǎng)絡(luò)用戶行為的搜索排行榜研究[D];北京交通大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 田曉杰;用戶行為視頻音頻數(shù)據(jù)分析工具的研究與開發(fā)[D];大連海事大學(xué);2005年
2 徐江科;信息系統(tǒng)終端用戶行為可信評估研究[D];解放軍信息工程大學(xué);2012年
3 徐雄威;基于本體的上下文感知“科技論文在線”用戶行為推理研究[D];武漢理工大學(xué);2013年
4 孟天寶;基于用戶行為可信的可信軟件構(gòu)造方法的研究與應(yīng)用[D];北京工業(yè)大學(xué);2014年
5 周虹;海量數(shù)據(jù)音樂用戶行為的模型研究[D];北京郵電大學(xué);2014年
6 馬聰;基于用戶行為挖掘的情景感知推薦[D];浙江大學(xué);2015年
7 師亞凱;微博用戶行為與信息傳播研究[D];西北師范大學(xué);2015年
8 孫超;基于用戶行為和關(guān)系的內(nèi)部風(fēng)險分析[D];山東大學(xué);2015年
9 李波;信譽度模型研究及網(wǎng)絡(luò)用戶行為管理系統(tǒng)設(shè)計[D];山東科技大學(xué);2009年
10 孫一鳴;移動互聯(lián)網(wǎng)用戶行為監(jiān)測數(shù)據(jù)系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2012年
,本文編號:2038660
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2038660.html