基于用戶行為分析的搜索引擎自動(dòng)性能評(píng)價(jià)
本文關(guān)鍵詞:基于用戶行為分析的搜索引擎自動(dòng)性能評(píng)價(jià),由筆耕文化傳播整理發(fā)布。
ISSN1000—9825,CODENRUXUEW
JournalofSoftware,V01.19,No.11,November2008.PP.3023—3032
DOI:10.3724/SP.J.100I.2008.03023
o2008byJournalofSoftware.Allrightsreserved.E-mail:jos@iscas.ac.cnhttp://www.jos.org.cnTel/Fax:+86-10.62562563
基于用戶行為分析的搜索引擎自動(dòng)性能評(píng)價(jià)
劉奕群1+,岑榮偉1,張敏1,茹立云2,馬少平1
1(清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室清華信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室(籌),北京100084)
2(搜狐公司研發(fā)中心,北京100084)
AutomaticSearchEnginePerformanceEvaluationBasedonUserBehaviorAnalysis
LIUYi.Q衄1+,CENRong-Weil,ZHANGMinl,RULi-Yun2,MAShao-Pin91
1(TsinghuaNationalLaboratoryforInformationScienceandTechnology,StateKeyLaboratoryofIntelligentTechnologyandSystems,DepartmentofComputerScienceandTechnology,TsinghunUniversity。Beijing100084,China)
2(SohuIne.Research衄【dDevelopmentCenter。Beijing100084,China)
+Correspondingauthor:E-mail:yiqunliu@tsinghea.edu.皿.http:llwww.their.cn/group/一YQLie/
LluYQ,CenRW,ZhangM,RuLY,MaSP.Automaticsearchengineperformanceevaluationbasedouuserbehavioranalysh.JournalofSoftware,2008,19(11):3023-3032.http://wwwjos.org.cn/1000?9825/19/3023.htm
dataanalysis.anautomaticsearchengineperformanceevaluationmethodisAbstrlet:Withclick-through
proposed.Thismethodgeneratesnavigationaltypequerytopics
queryingandanswersautomaticallybasedonsearchuseruser8’andclickingbehavior.Experimental
aresultsbasedonacommercialChinesesearchengine’Slogsshowthattheautomaticmethodgetssimilarevaluationresultwiththetraditionalassessor-basedones.ThismethodCan
alsoprovidetimelyevaluationresultswithlittlehumanefforts.
KeyWOrds:Webinformationretrieval;performanceevaluation;userbehavioranalysis
摘要:基于用戶行為分析的思路,提出了一種自動(dòng)進(jìn)行搜索引擎性能評(píng)價(jià)的方法.此方法能夠基于對(duì)用戶的查詢和點(diǎn)擊行為的分析自動(dòng)生成導(dǎo)航類查詢測(cè)試集合,并對(duì)查詢對(duì)應(yīng)的標(biāo)準(zhǔn)答案實(shí)現(xiàn)自動(dòng)標(biāo)注.基于中文商業(yè)搜索引擎日志的實(shí)驗(yàn)結(jié)果表明,此方法能夠與人工標(biāo)注的評(píng)價(jià)取得基本一致的評(píng)價(jià)效果,同時(shí)大大減少了評(píng)價(jià)所需的人力資源,并加快了評(píng)價(jià)反饋周期.
關(guān)鍵詞:網(wǎng)絡(luò)信息檢索;性能評(píng)價(jià);用戶行為分析
文獻(xiàn)標(biāo)識(shí)碼:A中圖法分類號(hào):TP393
檢索系統(tǒng)的評(píng)價(jià)問(wèn)題一直是信息檢索研究中最核心的問(wèn)題之一,Saracevic[1】指出.‘‘評(píng)價(jià)問(wèn)題在信息檢索研發(fā)過(guò)程中處于如此重要的地位,以至于任何一種新方法與它們的評(píng)價(jià)方式都是融為一體的".Kent首先提出了精確率.召回率的信息檢索評(píng)價(jià)框架(根據(jù)文獻(xiàn)【l】),隨后,美國(guó)政府所屬的研究機(jī)構(gòu)開(kāi)始大力支持關(guān)于檢索評(píng)價(jià)
?SupportedbytheNationalNaturalScienceFoundationofChinaunderGrantNos.60621062,60503064.60736044(國(guó)家自然科學(xué)基金);theNationalBasicResearchProgramofChinaunderGrantNo.2004CB318108(國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973));theNationalHigh.TechResearchand
ReceivedDevelopmentPlanofChinaunderGrantNo.2006AA012141(1l家高技術(shù)研究發(fā)展計(jì)劃(863))2007-04-28;Accepted2007-08—24
JournalofSoftware軟件學(xué)報(bào)V01.19,No.1l,November2008
方面的研究,而英國(guó)Cranfield工程在20世紀(jì)50年代末到60年代中期所建立的基于查詢樣例集、標(biāo)準(zhǔn)答案集和語(yǔ)料庫(kù)的評(píng)測(cè)方案,則真正使信息檢索成為了一門實(shí)證性質(zhì)的學(xué)科,也由此確立了評(píng)價(jià)在信息檢索研究中的核心地位川,其評(píng)價(jià)框架一般被稱為Cranfield方法(aCranfield-likeapproach).
Cranfield方法指出,信息檢索系統(tǒng)的評(píng)價(jià)應(yīng)由如下幾個(gè)環(huán)節(jié)組成:首先,確定查詢樣例集合,抽取最能表示用戶信息需求的一部分查詢樣例構(gòu)建一個(gè)規(guī)模恰當(dāng)?shù)募希浩浯,針?duì)查詢樣例集合.在檢索系統(tǒng)需要檢索的語(yǔ)料庫(kù)中尋找對(duì)應(yīng)的答案,即進(jìn)行標(biāo)準(zhǔn)答案集合的標(biāo)注;最后,將查詢樣例集合和語(yǔ)料庫(kù)輸入檢索系統(tǒng),系統(tǒng)反饋檢索結(jié)果,再利用檢索評(píng)價(jià)指標(biāo)對(duì)檢索結(jié)果和標(biāo)準(zhǔn)答案的接近程度進(jìn)行評(píng)價(jià),給出最終的用數(shù)值表示的評(píng)價(jià)結(jié)果.
Cranfield方法直到今天也被廣泛地應(yīng)用于包括搜索引擎在內(nèi)的大多數(shù)信息檢索系統(tǒng)評(píng)價(jià)工作中.由美國(guó)國(guó)防部高等研究計(jì)劃署(Defense
(NationalInstituteofStandardsAdvancedResearchandProjectsAgency,簡(jiǎn)稱DARPA)與美國(guó)國(guó)家標(biāo)準(zhǔn)和技術(shù)局Technology,簡(jiǎn)稱NIST)共同舉辦的TREC(文本信息檢索會(huì)
TestCollectionforIR議,http://trec.nist.gov/)就是一直基于此方法組織信息檢索評(píng)測(cè)和技術(shù)交流的論壇.除了TREC以外。也有一些針對(duì)不同語(yǔ)言設(shè)計(jì)的基于Cranfield方法的檢索評(píng)價(jià)論壇開(kāi)始嘗試運(yùn)作,如NTCIR(NACSIS
Systems)計(jì)劃與IREX(informationretrievalandextractionexercise)計(jì)劃等.
隨著萬(wàn)維網(wǎng)的不斷發(fā)展與互聯(lián)網(wǎng)信息量的增加,如何評(píng)價(jià)網(wǎng)絡(luò)信息檢索系統(tǒng)的性能逐漸成為近年信息檢索評(píng)價(jià)中的熱點(diǎn)關(guān)注方向,而在進(jìn)行這方面的評(píng)價(jià)時(shí),Cranfield方法遇到了巨大的障礙.困難主要反映在針對(duì)查詢樣例集合的標(biāo)準(zhǔn)答案標(biāo)注上,根據(jù)Voorhees[2】的估計(jì),對(duì)一個(gè)規(guī)模為800萬(wàn)文檔的語(yǔ)料庫(kù)進(jìn)行某個(gè)查詢樣例的標(biāo)準(zhǔn)答案標(biāo)注需要耗費(fèi)9個(gè)評(píng)測(cè)人員一個(gè)月的工作時(shí)間.盡管Voorhees提出了像Pooling[2】這樣的標(biāo)注方法來(lái)緩解標(biāo)注壓力,但當(dāng)前針對(duì)海量規(guī)模網(wǎng)絡(luò)文檔的答案標(biāo)注仍然是十分困難的.如TREC海量規(guī)模檢索任務(wù)(terabytetrack)一般需要耗費(fèi)十余名標(biāo)注人員2—3個(gè)月的時(shí)間進(jìn)行約幾十個(gè)查詢樣例的標(biāo)注,而其語(yǔ)料庫(kù)數(shù)據(jù)規(guī)模不過(guò)1000萬(wàn)文檔左右.考慮到當(dāng)前搜索引擎涉及到的索引頁(yè)面都在幾十億頁(yè)面以上(Yahoo!報(bào)告為192億網(wǎng)頁(yè),中文方面Sogou聲稱的索引量也超過(guò)百億),利用手工標(biāo)注答案的方式進(jìn)行網(wǎng)絡(luò)信息檢索系統(tǒng)的評(píng)價(jià)會(huì)是一個(gè)既耗費(fèi)人力又耗費(fèi)時(shí)間的過(guò)程.由于搜索引擎算法改進(jìn)、運(yùn)營(yíng)維護(hù)的需要,檢索效果評(píng)價(jià)反饋時(shí)間需要盡量縮短.因此提高搜索引擎性能評(píng)價(jià)的自動(dòng)化水平是當(dāng)前檢索系統(tǒng)評(píng)價(jià)研究中的熱點(diǎn).
本文第1節(jié)討論相關(guān)研究工作,闡明搜索引擎自動(dòng)評(píng)價(jià)方面的已有工作成果和問(wèn)題.第2節(jié)簡(jiǎn)要介紹查詢信息需求與搜索引擎評(píng)價(jià)之間的關(guān)系.第3節(jié)對(duì)搜索引擎自動(dòng)評(píng)價(jià)算法進(jìn)行推導(dǎo)。并說(shuō)明利用這種算法進(jìn)行導(dǎo)航類查詢自動(dòng)評(píng)價(jià)的具體操作.第4節(jié)給出標(biāo)準(zhǔn)答案標(biāo)注實(shí)驗(yàn)和性能評(píng)價(jià)實(shí)驗(yàn)結(jié)果.最后總結(jié)并列出主要結(jié)論.1相關(guān)研究工作概述
為了擺脫Cranfield方法在網(wǎng)絡(luò)信息檢索系統(tǒng)評(píng)價(jià)中所面臨的困境,不少研究人員提出了一些自動(dòng)進(jìn)行搜索引擎性能評(píng)估的方案,其工作集中在兩個(gè)方面:基于Cranfield框架,只是使用自動(dòng)化方法進(jìn)行答案自動(dòng)標(biāo)注;采用不同于Cranfield方法的評(píng)價(jià)框架進(jìn)行自動(dòng)化評(píng)價(jià).
在前一個(gè)方面的研究工作中,研究者嘗試使用檢索系統(tǒng)反饋的結(jié)果信息進(jìn)行自動(dòng)標(biāo)注.Soboroff等人【3】在基于TREC實(shí)驗(yàn)平臺(tái)的研究中發(fā)現(xiàn):評(píng)價(jià)人員對(duì)于結(jié)果池內(nèi)文檔的標(biāo)注結(jié)果差異基本不影響檢索系統(tǒng)性能排序的結(jié)果,因而隨機(jī)挑選結(jié)果池內(nèi)文檔作為標(biāo)準(zhǔn)答案也有可能達(dá)到評(píng)價(jià)檢索系統(tǒng)性能的作用.他們因而提出可以在檢索系統(tǒng)結(jié)果池中隨機(jī)挑選一定數(shù)量的結(jié)果作為答案集合進(jìn)行評(píng)價(jià).實(shí)驗(yàn)效果證明,以這種方式實(shí)現(xiàn)的檢索系統(tǒng)評(píng)價(jià)結(jié)果與基于手工標(biāo)注集合的評(píng)價(jià)結(jié)果正相關(guān),但因?qū)z索系統(tǒng)性能排序的影響較大而難以投入使用.Nuray等人【4】提出了對(duì)Soborofr方法的修正方案,即選擇結(jié)果池中原本在搜索引擎結(jié)果序列中排序較靠前的文檔作為標(biāo)準(zhǔn)答案,他們的方法也沒(méi)有取得與手工評(píng)價(jià)方法相類似的評(píng)價(jià)結(jié)果.
我們認(rèn)為,這類基于搜索引擎結(jié)果反饋信息(偽相關(guān)反饋信息)進(jìn)行搜索引擎評(píng)價(jià)的嘗試很難獲得成功.這是由于偽相關(guān)反饋信息本身就是一種不可靠的信息源,它只能對(duì)搜索引擎處理性能較高的查詢進(jìn)行正確的結(jié)果標(biāo)注,而事實(shí)上,由于針對(duì)這部分查詢的評(píng)價(jià)不會(huì)對(duì)搜索引擎性能的提高起到指導(dǎo)作用,因此很少需要對(duì)其進(jìn)行性能評(píng)價(jià).這就形成了需要進(jìn)行評(píng)價(jià)的查詢標(biāo)注得不好,不需要進(jìn)行評(píng)價(jià)的查詢反而標(biāo)注得較好的情況。因此
劉奕群等:基于用戶行為分析的搜索引擎自動(dòng)性能評(píng)價(jià)
這種自動(dòng)標(biāo)注的思路很難應(yīng)用于實(shí)際搜索引擎評(píng)價(jià)中.
也有部分研究人員基于已有的網(wǎng)頁(yè)目錄資源進(jìn)行結(jié)果的自動(dòng)標(biāo)注,如Chowdhury[5】和Beitzel[6】提出的利用開(kāi)放目錄計(jì)劃(ODP計(jì)劃)所整理的網(wǎng)頁(yè)目錄和對(duì)應(yīng)的網(wǎng)頁(yè)摘要資源進(jìn)行性能評(píng)測(cè)的工作.其方法的優(yōu)勢(shì)在于,答案標(biāo)注的正確性比單純使用搜索引擎結(jié)果反饋信息要高,但使用網(wǎng)頁(yè)對(duì)應(yīng)的摘要信息作為用戶查詢的模擬還是一個(gè)不合理的假設(shè),因而其工作也沒(méi)有得到大規(guī)模的普及應(yīng)用.
在第二方面的研究工作中,比較有代表性的有IBMHaifa研究院研發(fā)的“相關(guān)詞集合評(píng)價(jià)方法”與Joachims提出的基于用戶點(diǎn)擊行為的評(píng)價(jià)方法等.
Amitay等人【7】提出了“相關(guān)詞集合評(píng)價(jià)方法(termrelevancesets。簡(jiǎn)稱Trels方法)”.該方法首先選擇一定量的代表用戶查詢需求的查詢?cè)~;隨后針對(duì)每一個(gè)查詢?cè)~,手工標(biāo)注盡量多的與此查詢?cè)~相關(guān)聯(lián)的詞項(xiàng);在進(jìn)行評(píng)價(jià)時(shí).通過(guò)待評(píng)測(cè)文檔中關(guān)聯(lián)詞項(xiàng)的分布情況判定文檔的相關(guān)程度及檢索結(jié)果的可靠性.這種方法將大量手工工作從收集檢索結(jié)果的過(guò)程之后轉(zhuǎn)移到收集結(jié)果之前,他們也認(rèn)為其標(biāo)注的關(guān)聯(lián)詞項(xiàng)能夠較長(zhǎng)時(shí)間地發(fā)揮穩(wěn)定的評(píng)價(jià)作用.Trels方法在一定程度上解決了評(píng)價(jià)結(jié)果反饋時(shí)間過(guò)長(zhǎng)的問(wèn)題,但絲毫沒(méi)有減少甚至增加了相關(guān)性標(biāo)注的難度.同時(shí),詞與詞的相關(guān)程度本身就是一個(gè)難以界定的問(wèn)題.Amitay等人基于TREC小規(guī)模數(shù)據(jù)的實(shí)驗(yàn)取得了一定的效果,但并沒(méi)有將其應(yīng)用于大規(guī)模的網(wǎng)絡(luò)信息檢索系統(tǒng)評(píng)價(jià)中.
Joachims[8J提出了使用用戶點(diǎn)擊行為信息評(píng)價(jià)搜索引擎性能的思路.他設(shè)計(jì)了一個(gè)元搜索引擎,用戶輸入查詢?cè)~后,將查詢?cè)~在幾個(gè)著名搜索引擎中的查詢結(jié)果隨機(jī)混合反饋給用戶,并收集隨后用戶的結(jié)果點(diǎn)擊行為信息.根據(jù)用戶不同的點(diǎn)擊傾向性,就可以判斷搜索引擎返回結(jié)果的優(yōu)劣,Joachims同時(shí)證明了這種評(píng)價(jià)方法與傳統(tǒng)Cranfield方法評(píng)價(jià)結(jié)果具有較高的相關(guān)性.由于記錄用戶選擇檢索結(jié)果的行為是一個(gè)不耗費(fèi)人力的過(guò)程,因此可以避免傳統(tǒng)Cranfield方法反饋過(guò)慢的問(wèn)題.但在這之前,必須首先評(píng)判用戶點(diǎn)擊行為的可靠性,即用戶的點(diǎn)擊是否意味著其認(rèn)為被點(diǎn)擊的結(jié)果與查詢相關(guān).Joachims在這方面并沒(méi)有給出一個(gè)完善的解決方案,其隨機(jī)混合答案的方式盡管避免了所謂的“排序偏置”(1ip減少用戶因?yàn)榻Y(jié)果排列在前面就點(diǎn)擊它的可能性),但也與用戶正常使用搜索引擎的體驗(yàn)產(chǎn)生差異,因此收集到的用戶行為可信程度降低;同時(shí),使用這個(gè)元搜索引擎本身無(wú)法為用戶帶來(lái)更加快捷、方便的搜索體驗(yàn),因此其必然無(wú)法吸引足夠多的用戶提供點(diǎn)擊信息,進(jìn)而影響到評(píng)價(jià)結(jié)果的可信程度.
綜上所述。研究人員基于Cranfield框架進(jìn)行了自動(dòng)結(jié)果標(biāo)注的嘗試,但由于選擇的標(biāo)注方式不可靠而沒(méi)有獲得成功;在Cranfield框架之外進(jìn)行的各種嘗試,盡管其自動(dòng)化程度都較高,但其評(píng)價(jià)方法的可靠性問(wèn)題還有待商榷.我們認(rèn)為,Cranfield的檢索系統(tǒng)評(píng)價(jià)方式是經(jīng)過(guò)相當(dāng)程度的理論和實(shí)踐檢驗(yàn)的,因而在其面臨搜索引擎評(píng)價(jià)的困境時(shí)將其拋棄是一種不明智的選擇.而發(fā)展Joachims的用戶點(diǎn)擊行為分析方法,將其擴(kuò)展到查詢樣例集合的結(jié)果自動(dòng)標(biāo)注過(guò)程中,是一個(gè)可行的解決方案.
2查詢信息需求與自動(dòng)性能評(píng)價(jià)
上一節(jié),我們對(duì)搜索引擎自動(dòng)評(píng)價(jià)的研究成果進(jìn)行了綜述,并提出了使用用戶點(diǎn)擊行為分析的方法進(jìn)行答案自動(dòng)標(biāo)注的問(wèn)題.這種想法的出發(fā)點(diǎn)在于:由于現(xiàn)有的絕大多數(shù)搜索引擎用戶還是能夠通過(guò)搜索引擎找到滿足其查詢需求的答案的(盡管可能需要花費(fèi)較多的精力),因此用戶的點(diǎn)擊行為中肯定蘊(yùn)含了其對(duì)檢索結(jié)果相關(guān)性的評(píng)價(jià).
從個(gè)體用戶的行為上講,有可能由于個(gè)人知識(shí)水平、網(wǎng)絡(luò)使用習(xí)慣的不同而點(diǎn)擊某些與查詢需求無(wú)關(guān)的頁(yè)面,甚至有可能被垃圾頁(yè)面、SEO(searchengineoptimization)頁(yè)面等所欺騙;但從用戶群體的宏觀行為規(guī)律上講,這些無(wú)關(guān)點(diǎn)擊可以通過(guò)被認(rèn)為是隨機(jī)噪聲而濾除掉.因而當(dāng)用戶群體足夠大、收集到的點(diǎn)擊信息足夠完善時(shí),點(diǎn)擊信息的可靠程度還是能夠得到一定的保證的.
對(duì)于搜索引擎而言,其網(wǎng)絡(luò)服務(wù)供應(yīng)商的身份同時(shí)也為其收集了海量規(guī)模的用戶日志信息.在之前的工作【9l中,我們利用這部分用戶日志信息實(shí)現(xiàn)了用戶查詢信息需求的分類,因此,利用這些信息中蘊(yùn)含的用戶群體點(diǎn)擊行為信息實(shí)現(xiàn)答案自動(dòng)標(biāo)注也是一個(gè)自然的解決問(wèn)題的思路.
3026Journalof&脅軟件學(xué)報(bào)V01.19,No.1l,November2008
然而,用戶群體行為的可靠性盡管可以得到保證,但對(duì)于性能評(píng)價(jià)中的答案標(biāo)注而言,標(biāo)注出正確的結(jié)果并不是唯一需要考慮的問(wèn)題,是否標(biāo)注出了所有正確的結(jié)果同樣值得考慮,這就需要具體考慮用戶查詢信息需求的問(wèn)題.
Broder(2002)指出,用戶的查詢信息需求包括以下3類:
導(dǎo)航類(navigational):目標(biāo)是查找某個(gè)特定的站點(diǎn)或者網(wǎng)頁(yè).如“上海市政府網(wǎng)站”、“清華大學(xué)招生簡(jiǎn)章”等(摘自百度網(wǎng)站“搜索風(fēng)向標(biāo)”欄目,下同).
信息類(informational):目標(biāo)是獲取可能位于一個(gè)或某幾個(gè)網(wǎng)頁(yè)上的信息.如“現(xiàn)代企業(yè)制度的形式”、“農(nóng)村黨員隊(duì)伍狀況”等.
事務(wù)類(transactional):目標(biāo)是查找能夠處理某些以Web為媒介的事務(wù)的網(wǎng)頁(yè).如“連連看下載”、“歌詞查詢”等.
對(duì)查詢信息需求進(jìn)行劃分的出發(fā)點(diǎn)在于,針對(duì)3類檢索可以使用不同的檢索模型、參數(shù),甚至評(píng)價(jià)方法也隨著檢索類別的變化而有所區(qū)別.因此,實(shí)現(xiàn)檢索類別的自動(dòng)劃分對(duì)于提高檢索性能和增加檢索評(píng)價(jià)的可信度都具有非常重要的意義.
對(duì)于導(dǎo)航類查詢而言,其正確答案唯一,因而無(wú)須考慮答案全面性的問(wèn)題;其對(duì)應(yīng)的搜索引擎檢索性能也較高.因此用戶點(diǎn)擊行為的可靠性也比較容易保證.也就是說(shuō),用戶在進(jìn)行導(dǎo)航類查詢時(shí),比較容易發(fā)現(xiàn)并點(diǎn)擊結(jié)果列表中對(duì)應(yīng)的答案,因而我們所進(jìn)行的主要工作只是將用戶點(diǎn)擊行為中反映出的答案挑選出來(lái).對(duì)于信息或者事務(wù)類查詢(統(tǒng)稱信息事務(wù)類查詢)而言,情況則要復(fù)雜得多,其正確答案不唯一,因此必須考慮答案全面性的問(wèn)題:而其對(duì)應(yīng)的搜索引擎檢索性能相對(duì)較低,用戶能否點(diǎn)擊到即使是正確的答案也較難保證.
為了考察用戶點(diǎn)擊行為是否適用于進(jìn)行信息事務(wù)類查詢的答案標(biāo)注,我們考察了提交查詢?cè)~“電影”的4個(gè)常用中文搜索引擎(百度、谷歌、雅虎、搜狗)用戶在2006年12月10日的點(diǎn)擊情況,如圖l所示.
O
O
O
O
0
0
OOI——+Baidu-a-Google+Y曲oo—}摯90“^|\^V\弱粥筋加協(xié)m:兮.、-|..{j|L—jL\L/、\/
123V—r力心.A√一一:X一:b.456789101112131415161718192021222324252627
Fig.IDifferencesinclick-throughbehavioroffourChinesesearchenginesusingkeyword“電影”(movie)
圖l針對(duì)查詢?cè)~“電影”的四個(gè)中文搜索引擎用戶點(diǎn)擊情況
實(shí)驗(yàn)收集了4個(gè)搜索引擎針對(duì)查詢?cè)~返回的前lO位結(jié)果,取并集后共27個(gè)結(jié)果,圖1中的橫軸對(duì)應(yīng)這27個(gè)結(jié)果,而曲線上的點(diǎn)則是結(jié)果對(duì)應(yīng)的不同搜索引擎的用戶點(diǎn)擊頻度信息.如第21號(hào)結(jié)果對(duì)應(yīng)的搜狗搜索引擎曲線(用?.×”表示)上的數(shù)值約為34%,即代表第2l號(hào)結(jié)果在搜狗搜索引擎上被34%的查詢“電影”的用戶所點(diǎn)擊.本實(shí)驗(yàn)數(shù)據(jù)的獲得是通過(guò)搜狗公司采集的用戶搜索反饋信息,共涉及了近200名用戶的搜索引擎訪問(wèn)信息.
從圖1中我們可以發(fā)現(xiàn),不同搜索引擎用戶針對(duì)這個(gè)查詢的點(diǎn)擊情況差異非常大,如百度用戶的點(diǎn)擊多集中在第l號(hào)結(jié)果上,而谷歌用戶點(diǎn)擊第3號(hào)和第10號(hào)的最多;各個(gè)搜索引擎的結(jié)果盡管有一定的交集,如第3、5、8號(hào)結(jié)果均被多個(gè)搜索引擎用戶所關(guān)注,但其關(guān)注程度卻有較大的差異.
盡管“電影”這個(gè)查詢?cè)~僅僅是信息事務(wù)類查詢的一個(gè)簡(jiǎn)單樣例,但它可以反映出這種類型的查詢需求對(duì)應(yīng)的檢索結(jié)果反饋現(xiàn)象:當(dāng)提交同一個(gè)信息事務(wù)類查詢需求時(shí),用戶在不同搜索引擎上得到的結(jié)果是不同的.這種差異既來(lái)源于搜索引擎的頁(yè)面索引差異(即不同搜索引擎索引到的頁(yè)面集合不同),也來(lái)源于搜索引擎的結(jié)果排序策略差異,因而對(duì)于查詢目標(biāo)頁(yè)面不唯一的信息事務(wù)類查詢是難以避免的.
這說(shuō)明,對(duì)于信息事務(wù)類而言,用戶期望的正確答案可能有多個(gè),但某單個(gè)搜索引擎則很難反饋所有的結(jié)
劉奕群等:基于用戶行為分析的搜索引擎自動(dòng)性能評(píng)價(jià)
果。因此使用某個(gè)搜索引擎的用戶行為信息去評(píng)價(jià)其他搜索引擎信息事務(wù)類查詢的性能是不合理的.
對(duì)于研究人員而言,獲取多家搜索引擎的用戶日志有較高的難度,對(duì)于搜索引擎自身來(lái)講,,獲取其他供應(yīng)商的日志更是難上an難,因此在現(xiàn)有的實(shí)驗(yàn)環(huán)境和商業(yè)運(yùn)行模式下,實(shí)現(xiàn)信息事務(wù)類查詢的自動(dòng)評(píng)價(jià)可能是不現(xiàn)實(shí)的選擇.
3導(dǎo)航類查詢的自動(dòng)性能評(píng)價(jià)算法設(shè)計(jì)
在上一節(jié)的論述中,我們明確了在當(dāng)前的實(shí)際應(yīng)
用條件限制下,搜索引擎性能自動(dòng)評(píng)價(jià)的對(duì)象只能限
制于導(dǎo)航類檢索。因此本節(jié)我們來(lái)討論導(dǎo)航類自動(dòng)性
能評(píng)價(jià)系統(tǒng)的算法設(shè)計(jì).依照Cranfield方法框架,查詢
樣例集合、標(biāo)準(zhǔn)答案集合和語(yǔ)料庫(kù)是性能評(píng)價(jià)必備的
三要素,對(duì)于網(wǎng)絡(luò)信息檢索系統(tǒng)而言,Web數(shù)據(jù)集合即
其面對(duì)的語(yǔ)料對(duì)象,因此,實(shí)現(xiàn)查詢樣例集合和標(biāo)準(zhǔn)答
案集合的自動(dòng)生成,就成為我們所主要關(guān)心的問(wèn)題,包
括這兩個(gè)環(huán)節(jié)在內(nèi)的搜索引擎自動(dòng)評(píng)價(jià)方法的整體運(yùn)
行流程如圖2所示.
搜索引擎日志首先經(jīng)過(guò)數(shù)據(jù)預(yù)處理。獲得必需的
用戶點(diǎn)擊行為特征,隨后進(jìn)行查詢樣例集合的自動(dòng)選
取,并依據(jù)第2節(jié)所述的搜索引擎用戶查詢信息需求
分類方法進(jìn)行查詢需求分類,其中的導(dǎo)航類需求被挑
選進(jìn)行自動(dòng)標(biāo)準(zhǔn)答案標(biāo)注,此后進(jìn)行搜索引擎結(jié)果的
抓取和性能評(píng)價(jià)指標(biāo)的計(jì)算.
在上述評(píng)測(cè)方法流程中,搜索引擎結(jié)果的抓取與過(guò)濾是指將查詢樣例集合中的樣例提交給搜索引擎進(jìn)行查詢,并收集其結(jié)果頁(yè)面,過(guò)濾出結(jié)果URL列表.而搜索引擎的性能評(píng)價(jià)指標(biāo)計(jì)算則是指根據(jù)搜索引擎返回的結(jié)果URL列表與自動(dòng)標(biāo)注出的答案集合計(jì)算性能評(píng)價(jià)指標(biāo)的過(guò)程.對(duì)于導(dǎo)航類查詢需求而言,性能評(píng)價(jià)指標(biāo)使用“首現(xiàn)正確結(jié)果排序倒數(shù)(reciprocalrank,簡(jiǎn)稱RR)”進(jìn)行計(jì)算.畝;。,SearchengineuserlogProcedureoftheautomaticsearchengineperformanceevaluationmethod圖2搜索引擎自動(dòng)評(píng)測(cè)方法流程
RR是指檢索系統(tǒng)返回的結(jié)果序列中第1個(gè)滿足用戶需求的文檔出現(xiàn)的序號(hào)的倒數(shù).艘=1表示檢索系統(tǒng)返回的結(jié)果中,第1個(gè)結(jié)果就可以滿足用戶需求.這個(gè)指標(biāo)通常用來(lái)評(píng)價(jià)導(dǎo)航類檢索的性能,因?yàn)檫@類檢索只有1個(gè)標(biāo)準(zhǔn)答案可以滿足用戶需求.
3.1傳統(tǒng)決策樹(shù)算法處理關(guān)鍵資源判定的優(yōu)勢(shì)與困境
構(gòu)建有合適代表性的查詢樣例集合對(duì)于搜索引擎評(píng)價(jià)結(jié)果的可靠性也是至關(guān)重要的.在傳統(tǒng)的性能評(píng)價(jià)研究,如TREC相關(guān)工作中,查詢樣例集一般是由評(píng)測(cè)人員專門挑選出來(lái)的,部分任務(wù)的查詢主題可能來(lái)自于對(duì)搜索引擎日志的篩選,但大部分是專門設(shè)計(jì)的用于評(píng)測(cè)系統(tǒng)性能的查詢.此外,由于手工標(biāo)注工作量的限制,查詢樣例集合的規(guī)模一般較小,每單個(gè)TREC檢索任務(wù)的查詢樣例集合約包括幾十個(gè)到一二百個(gè)查詢不等.
由于我們所進(jìn)行的是自動(dòng)性能評(píng)測(cè)系統(tǒng)的查詢樣例集合設(shè)計(jì),可以較少考慮人工標(biāo)注所導(dǎo)致的查詢數(shù)量限制,因此我們重點(diǎn)考察查詢樣例集合的代表性問(wèn)題。即多大規(guī)模的樣例集合足夠代表搜索引擎用戶的實(shí)際查詢情況.為此,我們對(duì)Sogou搜索引擎2006年2月全月的用戶日志集合進(jìn)行了查詢頻度分析,分析結(jié)果如圖3所示.
在圖3中,我們選擇了查詢頻度晟高的10000個(gè)查詢?cè)~,并觀察其頻度的分布情況.圖中的橫坐標(biāo)為按頻度進(jìn)行排序的序號(hào),縱坐標(biāo)為對(duì)應(yīng)排序的查詢的查詢頻度.從圖中我們可以發(fā)現(xiàn),頻度絕對(duì)數(shù)值隨排序增加而下降得非常迅速,這意味著少數(shù)查詢即可能代表相當(dāng)大的一部分用戶的查詢需求.根據(jù)統(tǒng)計(jì),此查詢?cè)~集合中頻度高于100的查詢僅有35177個(gè),占查詢總數(shù)目不足l%,但此l%的查詢卻覆蓋了69%的用戶查詢需求.這說(shuō)明使用
博泰典藏網(wǎng)btdcw.com包含總結(jié)匯報(bào)、教學(xué)研究、高中教育、出國(guó)留學(xué)、高等教育、IT計(jì)算機(jī)、經(jīng)管營(yíng)銷以及基于用戶行為分析的搜索引擎自動(dòng)性能評(píng)價(jià)_圖文等內(nèi)容。
本文共2頁(yè)12
本文關(guān)鍵詞:基于用戶行為分析的搜索引擎自動(dòng)性能評(píng)價(jià),由筆耕文化傳播整理發(fā)布。
本文編號(hào):141249
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/141249.html