當前位置：主頁 > 科技論文 > 搜索引擎論文 >

基于用戶行為分析的搜索引擎自動性能評價

發(fā)布時間：2016-10-15 20:12

本文關(guān)鍵詞：基于用戶行為分析的搜索引擎自動性能評價，由筆耕文化傳播整理發(fā)布。

ＩＳＳＮ１０００—９８２５，ＣＯＤＥＮＲＵＸＵＥＷ

ＪｏｕｒｎａｌｏｆＳｏｆｔｗａｒｅ，Ｖ０１．１９，Ｎｏ．１１，Ｎｏｖｅｍｂｅｒ２００８．ＰＰ．３０２３—３０３２

ＤＯＩ：１０．３７２４／ＳＰ．Ｊ．１００Ｉ．２００８．０３０２３

ｏ２００８ｂｙＪｏｕｒｎａｌｏｆＳｏｆｔｗａｒｅ．Ａｌｌｒｉｇｈｔｓｒｅｓｅｒｖｅｄ．Ｅ－ｍａｉｌ：ｊｏｓ＠ｉｓｃａｓ．ａｃ．ｃｎｈｔｔｐ：／／ｗｗｗ．ｊｏｓ．ｏｒｇ．ｃｎＴｅｌ／Ｆａｘ：＋８６－１０．６２５６２５６３

基于用戶行為分析的搜索引擎自動性能評價

劉奕群１＋，岑榮偉１，張敏１，茹立云２，馬少平１

１（清華大學計算機科學與技術(shù)系智能技術(shù)與系統(tǒng)國家重點實驗室清華信息科學與技術(shù)國家實驗室（籌），北京１０００８４）

２（搜狐公司研發(fā)中心，北京１０００８４）

ＡｕｔｏｍａｔｉｃＳｅａｒｃｈＥｎｇｉｎｅＰｅｒｆｏｒｍａｎｃｅＥｖａｌｕａｔｉｏｎＢａｓｅｄｏｎＵｓｅｒＢｅｈａｖｉｏｒＡｎａｌｙｓｉｓ

ＬＩＵＹｉ．Ｑ衄１＋，ＣＥＮＲｏｎｇ－Ｗｅｉｌ，ＺＨＡＮＧＭｉｎｌ，ＲＵＬｉ－Ｙｕｎ２，ＭＡＳｈａｏ－Ｐｉｎ９１

１（ＴｓｉｎｇｈｕａＮａｔｉｏｎａｌＬａｂｏｒａｔｏｒｙｆｏｒＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＳｔａｔｅＫｅｙＬａｂｏｒａｔｏｒｙｏｆＩｎｔｅｌｌｉｇｅｎｔＴｅｃｈｎｏｌｏｇｙａｎｄＳｙｓｔｅｍｓ，ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＴｓｉｎｇｈｕｎＵｎｉｖｅｒｓｉｔｙ。Ｂｅｉｊｉｎｇ１０００８４，Ｃｈｉｎａ）

２（ＳｏｈｕＩｎｅ．Ｒｅｓｅａｒｃｈ衄【ｄＤｅｖｅｌｏｐｍｅｎｔＣｅｎｔｅｒ。Ｂｅｉｊｉｎｇ１０００８４，Ｃｈｉｎａ）

＋Ｃｏｒｒｅｓｐｏｎｄｉｎｇａｕｔｈｏｒ：Ｅ－ｍａｉｌ：ｙｉｑｕｎｌｉｕ＠ｔｓｉｎｇｈｅａ．ｅｄｕ．皿．ｈｔｔｐ：ｌｌｗｗｗ．ｔｈｅｉｒ．ｃｎ／ｇｒｏｕｐ／一ＹＱＬｉｅ／

ＬｌｕＹＱ，ＣｅｎＲＷ，ＺｈａｎｇＭ，ＲｕＬＹ，ＭａＳＰ．Ａｕｔｏｍａｔｉｃｓｅａｒｃｈｅｎｇｉｎｅｐｅｒｆｏｒｍａｎｃｅｅｖａｌｕａｔｉｏｎｂａｓｅｄｏｕｕｓｅｒｂｅｈａｖｉｏｒａｎａｌｙｓｈ．ＪｏｕｒｎａｌｏｆＳｏｆｔｗａｒｅ，２００８，１９（１１）：３０２３－３０３２．ｈｔｔｐ：／／ｗｗｗｊｏｓ．ｏｒｇ．ｃｎ／１０００?９８２５／１９／３０２３．ｈｔｍ

ｄａｔａａｎａｌｙｓｉｓ．ａｎａｕｔｏｍａｔｉｃｓｅａｒｃｈｅｎｇｉｎｅｐｅｒｆｏｒｍａｎｃｅｅｖａｌｕａｔｉｏｎｍｅｔｈｏｄｉｓＡｂｓｔｒｌｅｔ：Ｗｉｔｈｃｌｉｃｋ－ｔｈｒｏｕｇｈ

ｐｒｏｐｏｓｅｄ．Ｔｈｉｓｍｅｔｈｏｄｇｅｎｅｒａｔｅｓｎａｖｉｇａｔｉｏｎａｌｔｙｐｅｑｕｅｒｙｔｏｐｉｃｓ

ｑｕｅｒｙｉｎｇａｎｄａｎｓｗｅｒｓａｕｔｏｍａｔｉｃａｌｌｙｂａｓｅｄｏｎｓｅａｒｃｈｕｓｅｒｕｓｅｒ８’ａｎｄｃｌｉｃｋｉｎｇｂｅｈａｖｉｏｒ．Ｅｘｐｅｒｉｍｅｎｔａｌ

ａｒｅｓｕｌｔｓｂａｓｅｄｏｎａｃｏｍｍｅｒｃｉａｌＣｈｉｎｅｓｅｓｅａｒｃｈｅｎｇｉｎｅ’Ｓｌｏｇｓｓｈｏｗｔｈａｔｔｈｅａｕｔｏｍａｔｉｃｍｅｔｈｏｄｇｅｔｓｓｉｍｉｌａｒｅｖａｌｕａｔｉｏｎｒｅｓｕｌｔｗｉｔｈｔｈｅｔｒａｄｉｔｉｏｎａｌａｓｓｅｓｓｏｒ－ｂａｓｅｄｏｎｅｓ．ＴｈｉｓｍｅｔｈｏｄＣａｎ

ａｌｓｏｐｒｏｖｉｄｅｔｉｍｅｌｙｅｖａｌｕａｔｉｏｎｒｅｓｕｌｔｓｗｉｔｈｌｉｔｔｌｅｈｕｍａｎｅｆｆｏｒｔｓ．

ＫｅｙＷＯｒｄｓ：Ｗｅｂｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ；ｐｅｒｆｏｒｍａｎｃｅｅｖａｌｕａｔｉｏｎ；ｕｓｅｒｂｅｈａｖｉｏｒａｎａｌｙｓｉｓ

摘要：基于用戶行為分析的思路，提出了一種自動進行搜索引擎性能評價的方法．此方法能夠基于對用戶的查詢和點擊行為的分析自動生成導航類查詢測試集合，并對查詢對應的標準答案實現(xiàn)自動標注．基于中文商業(yè)搜索引擎日志的實驗結(jié)果表明，此方法能夠與人工標注的評價取得基本一致的評價效果，同時大大減少了評價所需的人力資源，并加快了評價反饋周期．

關(guān)鍵詞：網(wǎng)絡信息檢索；性能評價；用戶行為分析

文獻標識碼：Ａ中圖法分類號：ＴＰ３９３

檢索系統(tǒng)的評價問題一直是信息檢索研究中最核心的問題之一，Ｓａｒａｃｅｖｉｃ［１】指出．‘‘評價問題在信息檢索研發(fā)過程中處于如此重要的地位，以至于任何一種新方法與它們的評價方式都是融為一體的＂．Ｋｅｎｔ首先提出了精確率．召回率的信息檢索評價框架（根據(jù)文獻【ｌ】），隨后，美國政府所屬的研究機構(gòu)開始大力支持關(guān)于檢索評價

?ＳｕｐｐｏｒｔｅｄｂｙｔｈｅＮａｔｉｏｎａｌＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎｏｆＣｈｉｎａｕｎｄｅｒＧｒａｎｔＮｏｓ．６０６２１０６２，６０５０３０６４．６０７３６０４４（國家自然科學基金）；ｔｈｅＮａｔｉｏｎａｌＢａｓｉｃＲｅｓｅａｒｃｈＰｒｏｇｒａｍｏｆＣｈｉｎａｕｎｄｅｒＧｒａｎｔＮｏ．２００４ＣＢ３１８１０８（國家重點基礎研究發(fā)展計劃（９７３））；ｔｈｅＮａｔｉｏｎａｌＨｉｇｈ．ＴｅｃｈＲｅｓｅａｒｃｈａｎｄ

ＲｅｃｅｉｖｅｄＤｅｖｅｌｏｐｍｅｎｔＰｌａｎｏｆＣｈｉｎａｕｎｄｅｒＧｒａｎｔＮｏ．２００６ＡＡ０１２１４１（１ｌ家高技術(shù)研究發(fā)展計劃（８６３））２００７－０４－２８；Ａｃｃｅｐｔｅｄ２００７－０８—２４

ＪｏｕｒｎａｌｏｆＳｏｆｔｗａｒｅ軟件學報Ｖ０１．１９，Ｎｏ．１ｌ，Ｎｏｖｅｍｂｅｒ２００８

方面的研究，而英國Ｃｒａｎｆｉｅｌｄ工程在２０世紀５０年代末到６０年代中期所建立的基于查詢樣例集、標準答案集和語料庫的評測方案，則真正使信息檢索成為了一門實證性質(zhì)的學科，也由此確立了評價在信息檢索研究中的核心地位川，其評價框架一般被稱為Ｃｒａｎｆｉｅｌｄ方法（ａＣｒａｎｆｉｅｌｄ－ｌｉｋｅａｐｐｒｏａｃｈ）．

Ｃｒａｎｆｉｅｌｄ方法指出，信息檢索系統(tǒng)的評價應由如下幾個環(huán)節(jié)組成：首先，確定查詢樣例集合，抽取最能表示用戶信息需求的一部分查詢樣例構(gòu)建一個規(guī)模恰當?shù)募希浩浯�，針對查詢樣例集合．在檢索系統(tǒng)需要檢索的語料庫中尋找對應的答案，即進行標準答案集合的標注；最后，將查詢樣例集合和語料庫輸入檢索系統(tǒng)，系統(tǒng)反饋檢索結(jié)果，再利用檢索評價指標對檢索結(jié)果和標準答案的接近程度進行評價，給出最終的用數(shù)值表示的評價結(jié)果．

Ｃｒａｎｆｉｅｌｄ方法直到今天也被廣泛地應用于包括搜索引擎在內(nèi)的大多數(shù)信息檢索系統(tǒng)評價工作中．由美國國防部高等研究計劃署（Ｄｅｆｅｎｓｅ

（ＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｏｆＳｔａｎｄａｒｄｓＡｄｖａｎｃｅｄＲｅｓｅａｒｃｈａｎｄＰｒｏｊｅｃｔｓＡｇｅｎｃｙ，簡稱ＤＡＲＰＡ）與美國國家標準和技術(shù)局Ｔｅｃｈｎｏｌｏｇｙ，簡稱ＮＩＳＴ）共同舉辦的ＴＲＥＣ（文本信息檢索會

ＴｅｓｔＣｏｌｌｅｃｔｉｏｎｆｏｒＩＲ議，ｈｔｔｐ：／／ｔｒｅｃ．ｎｉｓｔ．ｇｏｖ／）就是一直基于此方法組織信息檢索評測和技術(shù)交流的論壇．除了ＴＲＥＣ以外。也有一些針對不同語言設計的基于Ｃｒａｎｆｉｅｌｄ方法的檢索評價論壇開始嘗試運作，如ＮＴＣＩＲ（ＮＡＣＳＩＳ

Ｓｙｓｔｅｍｓ）計劃與ＩＲＥＸ（ｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌａｎｄｅｘｔｒａｃｔｉｏｎｅｘｅｒｃｉｓｅ）計劃等．

隨著萬維網(wǎng)的不斷發(fā)展與互聯(lián)網(wǎng)信息量的增加，如何評價網(wǎng)絡信息檢索系統(tǒng)的性能逐漸成為近年信息檢索評價中的熱點關(guān)注方向，而在進行這方面的評價時，Ｃｒａｎｆｉｅｌｄ方法遇到了巨大的障礙．困難主要反映在針對查詢樣例集合的標準答案標注上，根據(jù)Ｖｏｏｒｈｅｅｓ［２】的估計，對一個規(guī)模為８００萬文檔的語料庫進行某個查詢樣例的標準答案標注需要耗費９個評測人員一個月的工作時間．盡管Ｖｏｏｒｈｅｅｓ提出了像Ｐｏｏｌｉｎｇ［２】這樣的標注方法來緩解標注壓力，但當前針對海量規(guī)模網(wǎng)絡文檔的答案標注仍然是十分困難的．如ＴＲＥＣ海量規(guī)模檢索任務（ｔｅｒａｂｙｔｅｔｒａｃｋ）一般需要耗費十余名標注人員２—３個月的時間進行約幾十個查詢樣例的標注，而其語料庫數(shù)據(jù)規(guī)模不過１０００萬文檔左右．考慮到當前搜索引擎涉及到的索引頁面都在幾十億頁面以上（Ｙａｈｏｏ！報告為１９２億網(wǎng)頁，中文方面Ｓｏｇｏｕ聲稱的索引量也超過百億），利用手工標注答案的方式進行網(wǎng)絡信息檢索系統(tǒng)的評價會是一個既耗費人力又耗費時間的過程．由于搜索引擎算法改進、運營維護的需要，檢索效果評價反饋時間需要盡量縮短．因此提高搜索引擎性能評價的自動化水平是當前檢索系統(tǒng)評價研究中的熱點．

本文第１節(jié)討論相關(guān)研究工作，闡明搜索引擎自動評價方面的已有工作成果和問題．第２節(jié)簡要介紹查詢信息需求與搜索引擎評價之間的關(guān)系．第３節(jié)對搜索引擎自動評價算法進行推導。并說明利用這種算法進行導航類查詢自動評價的具體操作．第４節(jié)給出標準答案標注實驗和性能評價實驗結(jié)果．最后總結(jié)并列出主要結(jié)論．１相關(guān)研究工作概述

為了擺脫Ｃｒａｎｆｉｅｌｄ方法在網(wǎng)絡信息檢索系統(tǒng)評價中所面臨的困境，不少研究人員提出了一些自動進行搜索引擎性能評估的方案，其工作集中在兩個方面：基于Ｃｒａｎｆｉｅｌｄ框架，只是使用自動化方法進行答案自動標注；采用不同于Ｃｒａｎｆｉｅｌｄ方法的評價框架進行自動化評價．

在前一個方面的研究工作中，研究者嘗試使用檢索系統(tǒng)反饋的結(jié)果信息進行自動標注．Ｓｏｂｏｒｏｆｆ等人【３】在基于ＴＲＥＣ實驗平臺的研究中發(fā)現(xiàn)：評價人員對于結(jié)果池內(nèi)文檔的標注結(jié)果差異基本不影響檢索系統(tǒng)性能排序的結(jié)果，因而隨機挑選結(jié)果池內(nèi)文檔作為標準答案也有可能達到評價檢索系統(tǒng)性能的作用．他們因而提出可以在檢索系統(tǒng)結(jié)果池中隨機挑選一定數(shù)量的結(jié)果作為答案集合進行評價．實驗效果證明，以這種方式實現(xiàn)的檢索系統(tǒng)評價結(jié)果與基于手工標注集合的評價結(jié)果正相關(guān)，但因?qū)z索系統(tǒng)性能排序的影響較大而難以投入使用．Ｎｕｒａｙ等人【４】提出了對Ｓｏｂｏｒｏｆｒ方法的修正方案，即選擇結(jié)果池中原本在搜索引擎結(jié)果序列中排序較靠前的文檔作為標準答案，他們的方法也沒有取得與手工評價方法相類似的評價結(jié)果．

我們認為，這類基于搜索引擎結(jié)果反饋信息（偽相關(guān)反饋信息）進行搜索引擎評價的嘗試很難獲得成功．這是由于偽相關(guān)反饋信息本身就是一種不可靠的信息源，它只能對搜索引擎處理性能較高的查詢進行正確的結(jié)果標注，而事實上，由于針對這部分查詢的評價不會對搜索引擎性能的提高起到指導作用，因此很少需要對其進行性能評價．這就形成了需要進行評價的查詢標注得不好，不需要進行評價的查詢反而標注得較好的情況。因此

劉奕群等：基于用戶行為分析的搜索引擎自動性能評價

這種自動標注的思路很難應用于實際搜索引擎評價中．

也有部分研究人員基于已有的網(wǎng)頁目錄資源進行結(jié)果的自動標注，如Ｃｈｏｗｄｈｕｒｙ［５】和Ｂｅｉｔｚｅｌ［６】提出的利用開放目錄計劃（ＯＤＰ計劃）所整理的網(wǎng)頁目錄和對應的網(wǎng)頁摘要資源進行性能評測的工作．其方法的優(yōu)勢在于，答案標注的正確性比單純使用搜索引擎結(jié)果反饋信息要高，但使用網(wǎng)頁對應的摘要信息作為用戶查詢的模擬還是一個不合理的假設，因而其工作也沒有得到大規(guī)模的普及應用．

在第二方面的研究工作中，比較有代表性的有ＩＢＭＨａｉｆａ研究院研發(fā)的“相關(guān)詞集合評價方法”與Ｊｏａｃｈｉｍｓ提出的基于用戶點擊行為的評價方法等．

Ａｍｉｔａｙ等人【７】提出了“相關(guān)詞集合評價方法（ｔｅｒｍｒｅｌｅｖａｎｃｅｓｅｔｓ。簡稱Ｔｒｅｌｓ方法）”．該方法首先選擇一定量的代表用戶查詢需求的查詢詞；隨后針對每一個查詢詞，手工標注盡量多的與此查詢詞相關(guān)聯(lián)的詞項；在進行評價時．通過待評測文檔中關(guān)聯(lián)詞項的分布情況判定文檔的相關(guān)程度及檢索結(jié)果的可靠性．這種方法將大量手工工作從收集檢索結(jié)果的過程之后轉(zhuǎn)移到收集結(jié)果之前，他們也認為其標注的關(guān)聯(lián)詞項能夠較長時間地發(fā)揮穩(wěn)定的評價作用．Ｔｒｅｌｓ方法在一定程度上解決了評價結(jié)果反饋時間過長的問題，但絲毫沒有減少甚至增加了相關(guān)性標注的難度．同時，詞與詞的相關(guān)程度本身就是一個難以界定的問題．Ａｍｉｔａｙ等人基于ＴＲＥＣ小規(guī)模數(shù)據(jù)的實驗取得了一定的效果，但并沒有將其應用于大規(guī)模的網(wǎng)絡信息檢索系統(tǒng)評價中．

Ｊｏａｃｈｉｍｓ［８Ｊ提出了使用用戶點擊行為信息評價搜索引擎性能的思路．他設計了一個元搜索引擎，用戶輸入查詢詞后，將查詢詞在幾個著名搜索引擎中的查詢結(jié)果隨機混合反饋給用戶，并收集隨后用戶的結(jié)果點擊行為信息．根據(jù)用戶不同的點擊傾向性，就可以判斷搜索引擎返回結(jié)果的優(yōu)劣，Ｊｏａｃｈｉｍｓ同時證明了這種評價方法與傳統(tǒng)Ｃｒａｎｆｉｅｌｄ方法評價結(jié)果具有較高的相關(guān)性．由于記錄用戶選擇檢索結(jié)果的行為是一個不耗費人力的過程，因此可以避免傳統(tǒng)Ｃｒａｎｆｉｅｌｄ方法反饋過慢的問題．但在這之前，必須首先評判用戶點擊行為的可靠性，即用戶的點擊是否意味著其認為被點擊的結(jié)果與查詢相關(guān)．Ｊｏａｃｈｉｍｓ在這方面并沒有給出一個完善的解決方案，其隨機混合答案的方式盡管避免了所謂的“排序偏置”（１ｉｐ減少用戶因為結(jié)果排列在前面就點擊它的可能性），但也與用戶正常使用搜索引擎的體驗產(chǎn)生差異，因此收集到的用戶行為可信程度降低；同時，使用這個元搜索引擎本身無法為用戶帶來更加快捷、方便的搜索體驗，因此其必然無法吸引足夠多的用戶提供點擊信息，進而影響到評價結(jié)果的可信程度．

綜上所述。研究人員基于Ｃｒａｎｆｉｅｌｄ框架進行了自動結(jié)果標注的嘗試，但由于選擇的標注方式不可靠而沒有獲得成功；在Ｃｒａｎｆｉｅｌｄ框架之外進行的各種嘗試，盡管其自動化程度都較高，但其評價方法的可靠性問題還有待商榷．我們認為，Ｃｒａｎｆｉｅｌｄ的檢索系統(tǒng)評價方式是經(jīng)過相當程度的理論和實踐檢驗的，因而在其面臨搜索引擎評價的困境時將其拋棄是一種不明智的選擇．而發(fā)展Ｊｏａｃｈｉｍｓ的用戶點擊行為分析方法，將其擴展到查詢樣例集合的結(jié)果自動標注過程中，是一個可行的解決方案．

２查詢信息需求與自動性能評價

上一節(jié)，我們對搜索引擎自動評價的研究成果進行了綜述，并提出了使用用戶點擊行為分析的方法進行答案自動標注的問題．這種想法的出發(fā)點在于：由于現(xiàn)有的絕大多數(shù)搜索引擎用戶還是能夠通過搜索引擎找到滿足其查詢需求的答案的（盡管可能需要花費較多的精力），因此用戶的點擊行為中肯定蘊含了其對檢索結(jié)果相關(guān)性的評價．

從個體用戶的行為上講，有可能由于個人知識水平、網(wǎng)絡使用習慣的不同而點擊某些與查詢需求無關(guān)的頁面，甚至有可能被垃圾頁面、ＳＥＯ（ｓｅａｒｃｈｅｎｇｉｎｅｏｐｔｉｍｉｚａｔｉｏｎ）頁面等所欺騙；但從用戶群體的宏觀行為規(guī)律上講，這些無關(guān)點擊可以通過被認為是隨機噪聲而濾除掉．因而當用戶群體足夠大、收集到的點擊信息足夠完善時，點擊信息的可靠程度還是能夠得到一定的保證的．

對于搜索引擎而言，其網(wǎng)絡服務供應商的身份同時也為其收集了海量規(guī)模的用戶日志信息．在之前的工作【９ｌ中，我們利用這部分用戶日志信息實現(xiàn)了用戶查詢信息需求的分類，因此，利用這些信息中蘊含的用戶群體點擊行為信息實現(xiàn)答案自動標注也是一個自然的解決問題的思路．

３０２６Ｊｏｕｒｎａｌｏｆ＆脅軟件學報Ｖ０１．１９，Ｎｏ．１ｌ，Ｎｏｖｅｍｂｅｒ２００８

然而，用戶群體行為的可靠性盡管可以得到保證，但對于性能評價中的答案標注而言，標注出正確的結(jié)果并不是唯一需要考慮的問題，是否標注出了所有正確的結(jié)果同樣值得考慮，這就需要具體考慮用戶查詢信息需求的問題．

Ｂｒｏｄｅｒ（２００２）指出，用戶的查詢信息需求包括以下３類：

導航類（ｎａｖｉｇａｔｉｏｎａｌ）：目標是查找某個特定的站點或者網(wǎng)頁．如“上海市政府網(wǎng)站”、“清華大學招生簡章”等（摘自百度網(wǎng)站“搜索風向標”欄目，下同）．

信息類（ｉｎｆｏｒｍａｔｉｏｎａｌ）：目標是獲取可能位于一個或某幾個網(wǎng)頁上的信息．如“現(xiàn)代企業(yè)制度的形式”、“農(nóng)村黨員隊伍狀況”等．

事務類（ｔｒａｎｓａｃｔｉｏｎａｌ）：目標是查找能夠處理某些以Ｗｅｂ為媒介的事務的網(wǎng)頁．如“連連看下載”、“歌詞查詢”等．

對查詢信息需求進行劃分的出發(fā)點在于，針對３類檢索可以使用不同的檢索模型、參數(shù)，甚至評價方法也隨著檢索類別的變化而有所區(qū)別．因此，實現(xiàn)檢索類別的自動劃分對于提高檢索性能和增加檢索評價的可信度都具有非常重要的意義．

對于導航類查詢而言，其正確答案唯一，因而無須考慮答案全面性的問題；其對應的搜索引擎檢索性能也較高．因此用戶點擊行為的可靠性也比較容易保證．也就是說，用戶在進行導航類查詢時，比較容易發(fā)現(xiàn)并點擊結(jié)果列表中對應的答案，因而我們所進行的主要工作只是將用戶點擊行為中反映出的答案挑選出來．對于信息或者事務類查詢（統(tǒng)稱信息事務類查詢）而言，情況則要復雜得多，其正確答案不唯一，因此必須考慮答案全面性的問題：而其對應的搜索引擎檢索性能相對較低，用戶能否點擊到即使是正確的答案也較難保證．

為了考察用戶點擊行為是否適用于進行信息事務類查詢的答案標注，我們考察了提交查詢詞“電影”的４個常用中文搜索引擎（百度、谷歌、雅虎、搜狗）用戶在２００６年１２月１０日的點擊情況，如圖ｌ所示．

Ｏ

０

ＯＯＩ——＋Ｂａｉｄｕ－ａ－Ｇｏｏｇｌｅ＋Ｙ曲ｏｏ—｝摯９０“＾｜＼＾Ｖ＼弱粥筋加協(xié)ｍ：兮．、－｜．．｛ｊ｜Ｌ—ｊＬ＼Ｌ／、＼／

１２３Ｖ—ｒ力心．Ａ√一一：Ｘ一：ｂ．４５６７８９１０１１１２１３１４１５１６１７１８１９２０２１２２２３２４２５２６２７

Ｆｉｇ．ＩＤｉｆｆｅｒｅｎｃｅｓｉｎｃｌｉｃｋ－ｔｈｒｏｕｇｈｂｅｈａｖｉｏｒｏｆｆｏｕｒＣｈｉｎｅｓｅｓｅａｒｃｈｅｎｇｉｎｅｓｕｓｉｎｇｋｅｙｗｏｒｄ“電影”（ｍｏｖｉｅ）

圖ｌ針對查詢詞“電影”的四個中文搜索引擎用戶點擊情況

實驗收集了４個搜索引擎針對查詢詞返回的前ｌＯ位結(jié)果，取并集后共２７個結(jié)果，圖１中的橫軸對應這２７個結(jié)果，而曲線上的點則是結(jié)果對應的不同搜索引擎的用戶點擊頻度信息．如第２１號結(jié)果對應的搜狗搜索引擎曲線（用?．×”表示）上的數(shù)值約為３４％，即代表第２ｌ號結(jié)果在搜狗搜索引擎上被３４％的查詢“電影”的用戶所點擊．本實驗數(shù)據(jù)的獲得是通過搜狗公司采集的用戶搜索反饋信息，共涉及了近２００名用戶的搜索引擎訪問信息．

從圖１中我們可以發(fā)現(xiàn)，不同搜索引擎用戶針對這個查詢的點擊情況差異非常大，如百度用戶的點擊多集中在第ｌ號結(jié)果上，而谷歌用戶點擊第３號和第１０號的最多；各個搜索引擎的結(jié)果盡管有一定的交集，如第３、５、８號結(jié)果均被多個搜索引擎用戶所關(guān)注，但其關(guān)注程度卻有較大的差異．

盡管“電影”這個查詢詞僅僅是信息事務類查詢的一個簡單樣例，但它可以反映出這種類型的查詢需求對應的檢索結(jié)果反饋現(xiàn)象：當提交同一個信息事務類查詢需求時，用戶在不同搜索引擎上得到的結(jié)果是不同的．這種差異既來源于搜索引擎的頁面索引差異（即不同搜索引擎索引到的頁面集合不同），也來源于搜索引擎的結(jié)果排序策略差異，因而對于查詢目標頁面不唯一的信息事務類查詢是難以避免的．

這說明，對于信息事務類而言，用戶期望的正確答案可能有多個，但某單個搜索引擎則很難反饋所有的結(jié)

劉奕群等：基于用戶行為分析的搜索引擎自動性能評價

果。因此使用某個搜索引擎的用戶行為信息去評價其他搜索引擎信息事務類查詢的性能是不合理的．

對于研究人員而言，獲取多家搜索引擎的用戶日志有較高的難度，對于搜索引擎自身來講，，獲取其他供應商的日志更是難上ａｎ難，因此在現(xiàn)有的實驗環(huán)境和商業(yè)運行模式下，實現(xiàn)信息事務類查詢的自動評價可能是不現(xiàn)實的選擇．

３導航類查詢的自動性能評價算法設計

在上一節(jié)的論述中，我們明確了在當前的實際應

用條件限制下，搜索引擎性能自動評價的對象只能限

制于導航類檢索。因此本節(jié)我們來討論導航類自動性

能評價系統(tǒng)的算法設計．依照Ｃｒａｎｆｉｅｌｄ方法框架，查詢

樣例集合、標準答案集合和語料庫是性能評價必備的

三要素，對于網(wǎng)絡信息檢索系統(tǒng)而言，Ｗｅｂ數(shù)據(jù)集合即

其面對的語料對象，因此，實現(xiàn)查詢樣例集合和標準答

案集合的自動生成，就成為我們所主要關(guān)心的問題，包

括這兩個環(huán)節(jié)在內(nèi)的搜索引擎自動評價方法的整體運

行流程如圖２所示．

搜索引擎日志首先經(jīng)過數(shù)據(jù)預處理。獲得必需的

用戶點擊行為特征，隨后進行查詢樣例集合的自動選

取，并依據(jù)第２節(jié)所述的搜索引擎用戶查詢信息需求

分類方法進行查詢需求分類，其中的導航類需求被挑

選進行自動標準答案標注，此后進行搜索引擎結(jié)果的

抓取和性能評價指標的計算．

在上述評測方法流程中，搜索引擎結(jié)果的抓取與過濾是指將查詢樣例集合中的樣例提交給搜索引擎進行查詢，并收集其結(jié)果頁面，過濾出結(jié)果ＵＲＬ列表．而搜索引擎的性能評價指標計算則是指根據(jù)搜索引擎返回的結(jié)果ＵＲＬ列表與自動標注出的答案集合計算性能評價指標的過程．對于導航類查詢需求而言，性能評價指標使用“首現(xiàn)正確結(jié)果排序倒數(shù)（ｒｅｃｉｐｒｏｃａｌｒａｎｋ，簡稱ＲＲ）”進行計算．畝；。，ＳｅａｒｃｈｅｎｇｉｎｅｕｓｅｒｌｏｇＰｒｏｃｅｄｕｒｅｏｆｔｈｅａｕｔｏｍａｔｉｃｓｅａｒｃｈｅｎｇｉｎｅｐｅｒｆｏｒｍａｎｃｅｅｖａｌｕａｔｉｏｎｍｅｔｈｏｄ圖２搜索引擎自動評測方法流程

ＲＲ是指檢索系統(tǒng)返回的結(jié)果序列中第１個滿足用戶需求的文檔出現(xiàn)的序號的倒數(shù)．艘＝１表示檢索系統(tǒng)返回的結(jié)果中，第１個結(jié)果就可以滿足用戶需求．這個指標通常用來評價導航類檢索的性能，因為這類檢索只有１個標準答案可以滿足用戶需求．

３．１傳統(tǒng)決策樹算法處理關(guān)鍵資源判定的優(yōu)勢與困境

構(gòu)建有合適代表性的查詢樣例集合對于搜索引擎評價結(jié)果的可靠性也是至關(guān)重要的．在傳統(tǒng)的性能評價研究，如ＴＲＥＣ相關(guān)工作中，查詢樣例集一般是由評測人員專門挑選出來的，部分任務的查詢主題可能來自于對搜索引擎日志的篩選，但大部分是專門設計的用于評測系統(tǒng)性能的查詢．此外，由于手工標注工作量的限制，查詢樣例集合的規(guī)模一般較小，每單個ＴＲＥＣ檢索任務的查詢樣例集合約包括幾十個到一二百個查詢不等．

由于我們所進行的是自動性能評測系統(tǒng)的查詢樣例集合設計，可以較少考慮人工標注所導致的查詢數(shù)量限制，因此我們重點考察查詢樣例集合的代表性問題。即多大規(guī)模的樣例集合足夠代表搜索引擎用戶的實際查詢情況．為此，我們對Ｓｏｇｏｕ搜索引擎２００６年２月全月的用戶日志集合進行了查詢頻度分析，分析結(jié)果如圖３所示．

在圖３中，我們選擇了查詢頻度晟高的１００００個查詢詞，并觀察其頻度的分布情況．圖中的橫坐標為按頻度進行排序的序號，縱坐標為對應排序的查詢的查詢頻度．從圖中我們可以發(fā)現(xiàn)，頻度絕對數(shù)值隨排序增加而下降得非常迅速，這意味著少數(shù)查詢即可能代表相當大的一部分用戶的查詢需求．根據(jù)統(tǒng)計，此查詢詞集合中頻度高于１００的查詢僅有３５１７７個，占查詢總數(shù)目不足ｌ％，但此ｌ％的查詢卻覆蓋了６９％的用戶查詢需求．這說明使用

博泰典藏網(wǎng)btdcw.com包含總結(jié)匯報、教學研究、高中教育、出國留學、高等教育、IT計算機、經(jīng)管營銷以及基于用戶行為分析的搜索引擎自動性能評價_圖文等內(nèi)容。

本文共2頁12

本文關(guān)鍵詞：基于用戶行為分析的搜索引擎自動性能評價，由筆耕文化傳播整理發(fā)布。

本文編號：141249

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/141249.html

上一篇：基于移動互聯(lián)網(wǎng)日志的搜索引擎用戶行為研究.doc 全文免費在線閱讀
下一篇：基于用戶行為分析的搜索引擎自動性能評價.pdf 全文免費在線閱讀

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于用戶行為分析的搜索引擎自動性能評價