四大中文搜索引擎檢索性能測評
本文關(guān)鍵詞:四大中文搜索引擎檢索性能測評,由筆耕文化傳播整理發(fā)布。
6期 四大中文搜索引擎檢索性能測評程度劃分為三個等級,邊界清晰且易于判別)
(2)每個檢索詞Xi的查準率P(Xi)的計算方法。對每個檢索詞取前30個結(jié)果(調(diào)查顯示一般的搜索引擎都以10為單位輸出檢索結(jié)果,人們對前三屏興趣較大,N取為30是理想的),分為四組,記為Ji={1,2,3},J2={4,5, ,10},J3=
{11,12, ,20},J4={21,22, ,30}對每條記錄j(j=1,2, ,N當返回記錄數(shù) 30時,N取為30,否則N為實際返回記錄數(shù))。
0 45 j J1
令每組權(quán)值f(j)=
0 25 j J20 2 0 1
N
923
健康、生活類,受廣大網(wǎng)民普遍關(guān)注的問題。
檢索詞:轉(zhuǎn)基因食品、安全性
X3:雅典奧運會的相關(guān)情況 體育娛樂休閑類,專指度一般,網(wǎng)上熱門檢索主題。
X4:澳柯瑪集團的公司和產(chǎn)品信息 國內(nèi)著名公司的相關(guān)資料,公司企業(yè)、工商經(jīng)濟類,專指度較低,來自實際競爭情報檢索課題案例。
檢索詞:澳柯瑪
X5:俄羅斯外交的新動向 政治軍事類,帶有新聞性質(zhì),專指度一般。來自筆者在實際生活學習中遇到的檢索課題。
檢索詞:俄羅斯、外交
X6:電腦病毒震蕩波的預(yù)防和查殺 電腦網(wǎng)絡(luò)類,震蕩波是五月新出現(xiàn)的電腦病毒,有很強的時新性,可檢測搜索引擎的更新頻率。該檢索主題對網(wǎng)絡(luò)用戶有很強的實用價值,來自網(wǎng)上熱門檢索主題。
j J3j J4
H(Xi)=j= 1f(j)g(j)(0<N 30)
0 45N 0<N 3
M(Xi)=
0 25N+0 6 3<N 100 2N+1 1 10<N 20
0 1N+3 1 20<N 30
H(Xi)
P(Xi)= 當N=0時,P(Xi)=0
M(Xi)n
(3)計算出P(A)= P(Xi),P(A)的
ni=1
值就是搜索引擎A的相對查準率。 3 3 檢索主題的選擇
從相對查全率和相對查準率的計算過程可以看出檢索詞為X1,X2, Xn的選取直接影響到計算結(jié)果,為了最大限度的保證測評的客觀性。筆者在選擇檢索主題時查閱了大量文獻和網(wǎng)上資料,在以下原則的基礎(chǔ)上選擇了六個檢索主題。 現(xiàn)實性,即有實際檢索價值; 既包含專指度高的主題,亦包含專指度低的主題; 考慮網(wǎng)絡(luò)信息的分類,涉及盡可能多的類別; 考慮不同層次的網(wǎng)絡(luò)用戶的不同檢索需求; 易于判定檢索結(jié)果的相關(guān)性范疇。
從以上原則出發(fā),參考其它學者在對搜索引擎測評時檢索主題的選擇以及搜索引擎和網(wǎng)站的分類目錄,通過篩選大量網(wǎng)上和實際生活學習中的檢索實例,確定了以下六個檢索主題和相應(yīng)的檢索詞。
X1:希臘古典哲學 社會科學類,專業(yè)性較強,專指度高,來自圖書館實際參考咨詢工作。
檢索詞:希臘古典哲學
2 基本檢索技術(shù)
4 測試結(jié)果與分析
4 1 檢索功能
[4]
表3 各搜索引擎檢索功能一覽表(Y:有此項功能,N:無此項功能)
評價標準布爾檢索鄰近檢索截詞檢索字段檢索加權(quán)檢索概念檢索
百計YNNYNNNYNYY中英Y
搜狐YNYYNNNNYYY中英N
新浪YNNYNNNNYNY中英Y
天網(wǎng)YNNYNNNYYYY中英N
自然語言檢索 相關(guān)反饋檢索 目錄式檢索 多內(nèi)碼處理 多語種檢索 多媒體檢索
從表3可以看出四個中文搜索引擎檢索功能都比較單薄,都具備的檢索功能只有布爾檢索和字段檢索兩個簡單的基本檢索技術(shù),雖然都具備英文檢索功能,但通過實際檢索可以發(fā)現(xiàn)除大網(wǎng)絡(luò)外,其它搜索引擎收錄的英文網(wǎng)頁都十分有限。鄰近檢索、字段檢索、截詞檢索、加權(quán)檢索、概念檢索功能基本上都是空白,還有待填補。
值得一提的是百度的相關(guān)反饋檢索對檢索者有,
Word文檔免費下載:四大中文搜索引擎檢索性能測評_岳珍 (下載1-7頁,共7頁)
本文關(guān)鍵詞:四大中文搜索引擎檢索性能測評,,由筆耕文化傳播整理發(fā)布。
本文編號:68521
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/68521.html