元搜索引擎排序方法建模與算法
本文關鍵詞:元搜索引擎排序方法建模與算法研究,由筆耕文化傳播整理發(fā)布。
第39卷 第11A期2012年11月計算機科學
Comutercience。樱郑铮欤常梗危铮保保
Nov2012
元搜索引擎排序方法建模與算法研究
劉勝久 李天瑞 賈 真 尹紅風
()西南交通大學信息科學與技術學院 成都610031
摘 要 元搜索引擎的核心技術是排序算法。在研究元搜索引擎排序算法的基礎上,通過合理簡化等一系列措施建立數(shù)學模型,抽象出元搜索引擎排序算法的基本框架。隨后結合各成員搜索引擎的市場份額及各成員搜索引擎的搜索結果,給出了一種新的元搜素引擎排序算法。該算法簡單且易于實現(xiàn)。關鍵詞 搜索引擎,元搜索引擎,排序
中圖法分類號。裕校常梗保场 ∥墨I標識碼 A
ResearchonModelinandAlorithmsforRankinAroachesofMetaSearchEnine 。纾纾纾穑穑纭
LIUShenITianruiIAZhenIN Honfeniu。。獭。。省 。伲纾纾纾
(,,)SchoolofInformationScienceandTechnoloSouthwestJiaotonUniversitChendu610031,China gygyg
,Abstractheketechnoloofmetasearchenineisrankinalorithm.Basedontheresearchofrankinalorithms T 。纾纾纾纾纾纭 。鳎澹澹螅簦幔猓欤椋螅瑁幔颍澹幔螅铮睿幔猓欤澹恚幔簦瑁澹恚幔簦椋悖幔欤恚铮洌澹欤簦铮洌澹螅悖颍椋猓澹猓幔螅椋悖恚澹簦瑁铮洌螅铮妫颍幔睿耄椋睿幔欤铮颍椋簦瑁恚螅妫铮颍恚澹簦幔螅澹幔颍悖瑁澹睿椋睿濉 。纾纾纭。簦瑁颍铮酰瑁幔螅澹颍椋澹螅铮妫螅簦澹螅椋睿悖欤酰洌椋睿螅椋恚欤椋妫椋悖幔簦椋铮睿拢悖铮恚猓椋睿椋睿鳎椋簦瑁恚幔颍耄澹簦螅瑁幔颍澹螅幔睿洌螅澹幔颍悖瑁颍澹螅酰欤簦螅铮妫澹幔悖瑁螅澹幔颍悖瑁澹睢 。纾穑纾穑纭 。椋睿澹鳎澹簦瑁澹睿颍铮铮螅澹幔睿澹鳎颍幔睿耄椋睿幔欤铮颍椋簦瑁怼。鳎瑁椋悖瑁椋螅螅椋恚欤澹幔睿洌澹幔螅簦铮椋恚欤澹恚澹睿簦 。纾穑穑纾纾穑稹
,,KewordsearchenineMetasearchenineRank。印 。纾纾
]在元搜索引擎研究方面,文獻[具體討論了中文元搜索3引擎成員搜索引擎的選擇策略,并指出為提高元搜索引擎的工作效率和檢準率,所選擇的普通搜索引擎應該質(zhì)量較高且比較穩(wěn)定,對綜合性搜索引擎應考慮用戶認可度,對專業(yè)搜索引擎應考慮其領域特色,且將成員搜索引擎分組供用戶選擇,一方面使搜索更有針對性,另一方面也照顧了用戶的使用偏]好。文獻[對元搜索引擎資源選擇融合方法進行研究,提出4了基于相關性與獨特性融合的資源選擇方法,給出了基于λ參數(shù)的線性融合算法,并具體說明了λ參數(shù)的估值方法,所提方法較經(jīng)典的資源選擇方法在檢索性能上有一定程度的提]高。文獻[歸納出元搜索引擎系統(tǒng)合成算法的5個約束條5件:一般性約束條件、對等合成的約束條件、包含合成的約束條件、不相交合成的約束條件及交搭合成的約束條件。文獻[]提出了在考慮查詢關鍵字同獨立搜索引擎返回結果的相6
關性和搜索引擎數(shù)據(jù)庫的影響因子的情況下,加入用戶的反饋因素,使得搜索結果更貼近用戶的需要,并使排序的結果更]加優(yōu)化。文獻[利用貝葉斯規(guī)則,結合各組成系統(tǒng)平均執(zhí)行7推導出一種新的相關度計算公式,并提出了一種性能的信息,
新的基于概率模型的排序優(yōu)化方法,從而較好地解決了結果融合中相關度規(guī)范化和均衡化的問題。文獻[討論了元搜8]索引擎涉及到的關鍵技術,提出了采用基于概念分組的聚類算法來解決作為元搜索引擎核心問題的搜索結果合成的問題。
本文擬通過對傳統(tǒng)及新近元搜索引擎排序算法的分析研究,抽象出元搜索引擎排序算法的數(shù)學模型,以更好地從理論
1 引言
搜索引擎的出現(xiàn)是時代的產(chǎn)物,是為了解決互聯(lián)網(wǎng)信息泛濫而出現(xiàn)的。所有搜索引擎的目的都是將互聯(lián)網(wǎng)上最符合用戶需求的信息按相關性大小返回給用戶。由于不同搜索引搜索結果也存在擎的搜索算法及采取的搜索策略不盡相同,
較大的差距。當前,沒有一個搜索引擎能完全滿足所有用戶不
]1
同類別的需求。搜索引擎的評測結果[也充分證明了這一點。
元搜索引擎可以視為搜索引擎的搜索引擎,其是伴隨著搜索引擎的涌現(xiàn)而發(fā)展起來的。元搜索引擎一般由3部分組成,,即搜索請求提交機制、搜索接口代理機制及搜索結果顯示機制。元搜索引擎的出現(xiàn)在一定程度上解決了需要連續(xù)使用不同獨立搜索引擎重復相同檢索的問題。它通過同時對多個搜索引擎進行檢索來獲得分級編排的排序結果。
元搜索引擎的核心是搜索前預處理和對搜索結果的集
2]
。搜索前預處理的主要目的是保證將查詢請求映射到對成[
搜應搜索引擎的查詢請求時查詢信息不缺損。相比較而言,索結果的集成更為復雜。由于各個成員搜索引擎近乎獨立,因此元搜索引擎幾乎無法獲知它們的技術細節(jié)。如何將從多個成員搜索引擎檢索到的結果有機地融合在一起并按照一定以進一步提高元搜索引擎的查的優(yōu)先關系排列顯示給用戶,
準率一直是元搜索引擎研究的重點。現(xiàn)階段對元搜索引擎的研究主要集中在成員搜索引擎的選擇及優(yōu)先度系數(shù)的設置、成員搜索引擎中搜索結果相關性的確定及相關性融合算法的研究等4個方面。
),)本文受國家自然科學基金委主任基金(中國科學院自動化研究所復雜系統(tǒng)管理與控制重點實驗室開放課題(資助。6115200120110102,:,劉勝久(男,博士生,主要研究方向為數(shù)據(jù)挖掘與知識發(fā)現(xiàn)等,李天瑞(男,教授,博士生導1988-)E-mailliusheniu2008@163.com;1969-)gj主要研究方向為數(shù)據(jù)挖掘與知識發(fā)現(xiàn)、粗糙集與粒計算等。師,
·197·
本文關鍵詞:元搜索引擎排序方法建模與算法研究,由筆耕文化傳播整理發(fā)布。
本文編號:94585
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/94585.html