大規(guī)模中文搜索引擎的用戶日志分析
本文關(guān)鍵詞:大規(guī)模中文搜索引擎的用戶日志分析,由筆耕文化傳播整理發(fā)布。
高級(jí)搜索殷勤的論文
華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版)
第32卷增刊
2004年11月
JourIlalofSoumChinaUniversity0fTechnology
(NatllmlscienceEdmon)
vol_32November
suppl2004
丈章編號(hào):1000一565x(2004)s一000l—05
大規(guī)模中文搜索引擎的用戶日志分析
王繼民
陳種
彭
波
(北京大學(xué)信息科學(xué)技術(shù)學(xué)院,北京100871)
摘要:北大“天網(wǎng)”是一個(gè)大規(guī)模分布式搜索引擎系統(tǒng).文中對(duì)其用戶日志進(jìn)行了分析和研究.結(jié)果顯示:用戶對(duì)系統(tǒng)的訪問(wèn)時(shí)間并不均等,一天中早晨、下午和晚上各出現(xiàn)一個(gè)波峰;通常用戶在一天內(nèi)只進(jìn)行l一2次內(nèi)容不同的查詢,多于2/3的用戶點(diǎn)擊了結(jié)果頁(yè)面中的某些罔址(uRL);多數(shù)用戶輸入的查詢串中只含有一個(gè)詞項(xiàng)并且包含中文字符,,其中以2—4個(gè)漢字居多;用戶查看結(jié)果頁(yè)面的時(shí)間大約是2~3min;只有少數(shù)用戶查看歷史網(wǎng)頁(yè)(或稱(chēng)網(wǎng)頁(yè)快照).用戶日志中不同查詢串、不同用戶和點(diǎn)擊不同uRL的數(shù)量滿足He。蠖桑
關(guān)鍵詞:搜索引擎;用戶目志;用戶行為;Heaps定律
中圖分類(lèi)號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A
www搜索引擎是一種web上的應(yīng)用軟件系統(tǒng)。它以一定的策略在web上發(fā)現(xiàn)和收集信息,對(duì)信息進(jìn)行組織和處理,為用戶提供web信息查詢服務(wù).目前搜索引擎已經(jīng)成為繼email之后人們用得最多的網(wǎng)上信息眼務(wù)系統(tǒng).
搜索引擎的工作原理來(lái)源于信息檢索(IR)的
中文用戶日志的分析和研究相對(duì)較少,而中英文兩種語(yǔ)言具有一定的差異,如英文句子由若干個(gè)用空格分開(kāi)的單詞組成,中文則是由連續(xù)的漢字字符組成.這些差異在搜索引擎的使用上有什么樣的差異呢?王建勇等”1基于北大天網(wǎng)1999年4~6月的用戶日志分析得到:用戶查詢串的分布具有明顯的局部性。查詢串的出現(xiàn)過(guò)程具有自相似性特征,據(jù)此設(shè)計(jì)了系統(tǒng)的查詢緩存,并比較了FIF0,LRu及帶衰減的LFu等三種cache替換策略.本文是對(duì)該項(xiàng)研究工作的補(bǔ)充和擴(kuò)展,試圖解答:中文用戶輸入的查詢串中包含多少個(gè)詞項(xiàng)?有多大比例的查詢串包含中文字符?用戶查看結(jié)果頁(yè)面的時(shí)間大概有多
理論,但其用戶的檢索行為與傳統(tǒng)的珉系統(tǒng),如在
線數(shù)據(jù)庫(kù)(OLDB)、光盤(pán)檢索(CD—RoM)、聯(lián)機(jī)公共檢索目錄(oPAc)等,存在很大的差異…,如用戶的并發(fā)訪問(wèn)量比較大,查詢內(nèi)容比較寬泛,用戶的查詢不需要任何領(lǐng)域知識(shí)等.搜索gl擎的用戶日志一般分為用戶查詢?nèi)罩竞陀脩酎c(diǎn)擊日志(有的系統(tǒng)也合在一起)兩類(lèi),它們分別在用戶進(jìn)行查詢和點(diǎn)擊時(shí)由系統(tǒng)自動(dòng)記錄.
長(zhǎng)?用戶對(duì)系統(tǒng)的訪問(wèn)時(shí)間是如何分布的?如何根
據(jù)日志中用戶的訪問(wèn)量估計(jì)不同查詢串、不同用戶量和點(diǎn)擊不同uRL的數(shù)量?
對(duì)搜索引擎使用記錄進(jìn)行挖掘,發(fā)現(xiàn)用戶的行
為規(guī)律,可以有效地改善和提高搜索引擎系統(tǒng)的性能.目前,對(duì)英文搜索引擎如Al協(xié)Vista,Exc恤等用戶日志的統(tǒng)計(jì)分析已有一些研究成果”“’.但針對(duì)
1數(shù)據(jù)準(zhǔn)備
北大天網(wǎng)搜索引擎”1于1997年10月正式在cEItNErr上為廣大用戶提供web信息導(dǎo)航服務(wù),目
收稿日期:2004一oB~30
+基金項(xiàng)目:國(guó)家973計(jì)劃資助項(xiàng)目(G1999032706)作者簡(jiǎn)介:王繼民(1966一),男,北京大學(xué)博士后,蘭州大學(xué)信息科學(xué)與工程學(xué)院教授,主要從事網(wǎng)絡(luò)與分布式系統(tǒng)以及web挖掘的研究.E.m蚰:wjm@nct
pku,edu.cn
前已成為國(guó)內(nèi)最好的公益性搜索引擎.到2004年初天網(wǎng)搜集系統(tǒng)已搜集到國(guó)內(nèi)靜態(tài)網(wǎng)頁(yè)2.58億個(gè)(不包括通過(guò)提交查詢?cè)~動(dòng)態(tài)生成的網(wǎng)頁(yè)),平均每天用戶進(jìn)行20余萬(wàn)次查詢。用戶點(diǎn)擊記錄lO余萬(wàn)次.
萬(wàn)方數(shù)據(jù)
本文關(guān)鍵詞:大規(guī)模中文搜索引擎的用戶日志分析,由筆耕文化傳播整理發(fā)布。
本文編號(hào):93609
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/93609.html