元搜索引擎中排序融合算法的優(yōu)化研究
【圖文】:
各種算法以及成員搜索引擎前N篇文檔中平均查準率比較IRBOABaiduGoogleSosoYahooBingBCWBCCM50.81280.77650.78010.77040.74590.71010.71080.75090.7371100.78790.73010.77890.76190.76980.71890.68510.72160.7083150.77110.70190.71380.70040.69780.68870.66650.70920.6802200.73310.67980.70130.69190.66540.64390.65000.67190.6851250.71580.66040.68110.66930.65100.62910.64050.66570.6834300.67870.63210.64390.60190.59860.55020.60820.62760.6398圖1顯示了IRBOA算法與BordaCount排序法、WeightedBordaCount排序法以及CombMNZ排序法在前N篇文檔中的平均查準率比較,其中N=5,10,15,20,25,30。圖1幾種排序算法的平均查準率比較實驗結(jié)果表明:Yahoo中文、Bing在處理中文查詢時平均查準率相對較低,而Google中文、Baidu和Soso相對前者有較高的查準率,相比IRBOA算法雖然在個別點處略高,,但整體水平仍低于IRBOA算法。在結(jié)合初始排序位置信息的基礎(chǔ)上,考慮了包含當前文檔的成員搜索引擎?zhèn)數(shù)的影響,引入BM25F算法模型計算查詢串與標題、短摘要的相似度,并加入對文檔URL的分析,使得IRBOA算法在平均查準率上相比BordaCount排序法、WeightedBordaCount排序法以及CombMNZ排序法都有了較大幅度提高。由表2可知平均提高幅度分別為10%-13%、5%-9%、6%-12%。2.2算法性能分析信息檢索系統(tǒng)的另一個重要評估要素是其檢索的實時性。本實驗在五臺PC機(Intel酷睿i7四核CPU2.66GHz,4GB內(nèi)存)上運行。為了提高下載速度,將系統(tǒng)下載模塊分別布到5臺機器上,選擇其中一臺供用戶查詢以及后臺融合。針對選取的10個主題各進行10次查詢實驗。設(shè)置成員系統(tǒng)返回的結(jié)果頁數(shù)分別?
226計算機應(yīng)用與軟件2012年從圖5中可以看出,當對所有的數(shù)據(jù)塊都進行證明時,算法運行時間與文件大小呈線性正相關(guān)。驗證1000MB的文件,在I/O上耗費了1.48秒,總的算法運行時間為5.62秒,表明磁盤I/O對算法的性能存在一定的影響。在99%可靠性前提下,大約需要抽樣900個數(shù)據(jù)塊,產(chǎn)生證明的時間僅為0.023秒;95%可靠性前提下,大約需要抽樣600塊,產(chǎn)生證明時間僅需0.016秒。對比證明所有數(shù)據(jù)塊的策略發(fā)現(xiàn),概率型抽樣檢測策略帶來了極大的性能提升。同時,還可以發(fā)現(xiàn),采用概率型抽樣檢測策略時,算法運行時間不隨文件大小的改變而改變。圖5不同可信度下產(chǎn)生證明所需時間3.2服務(wù)器端計算本節(jié)通過實驗對比了本文算法和其他算法在最壞情況下產(chǎn)生證明的性能。所謂最壞情況,即對于CS-PDP和S-PDP均驗證所有數(shù)據(jù)塊。圖6顯示了CS-PDP和S-PDP產(chǎn)生證明所需時間都與文件大小線性相關(guān)。在文件較小時,例如100MB,二者運行時間并沒有顯著差距;當文件逐漸增大時,CS-PDP的運行時間增長緩慢,而S-PDP的運行時間顯著增長。文件為1000MB時,S-PDP的運行時間約為CS-PDP運行時間的11倍。實驗結(jié)果表明,CS-PDP模型較S-PDP有很大的性能提升。圖6CS-PDP和S-PDP運行性能的比較4結(jié)語本文分析了當前云存儲的新特性和傳統(tǒng)數(shù)據(jù)持有性證明PDP的局限性,在S-PDP模型的基礎(chǔ)上通過加入可信存儲服務(wù)提供商代理CSPP,構(gòu)建了適用于對云存儲中分布式外包存儲的數(shù)據(jù)進行完整性驗證的數(shù)據(jù)持有性證明模型CS-PDP。通過對該模型的安全性和性能進行理論和實驗分析,表明本文提出的云存儲中的數(shù)據(jù)持有性證明模型不僅可以抵制惡意欺騙和隱私泄露,而且只耗費很小的存儲、計算和通信開銷,該模型高效可行。參考文獻[1]DeswarteY,QuisquaterJJ,SaidaneA.Remoteint
【作者單位】: 太原理工大學(xué)計算機科學(xué)與技術(shù)學(xué)院;
【基金】:山西省回國留學(xué)人員科研資助項目(2011-028)
【分類號】:TP391.3
【參考文獻】
相關(guān)期刊論文 前1條
1 李紅梅;丁振國;周水生;周利華;;元搜索引擎結(jié)果合成算法[J];北京郵電大學(xué)學(xué)報;2008年05期
【共引文獻】
相關(guān)期刊論文 前2條
1 吳遠紅;張建科;;面向海洋信息的個性化元搜索引擎[J];電腦知識與技術(shù);2010年19期
2 敖飛;陳梅;;一種基于樣本加權(quán)的位置文本排序算法[J];貴州大學(xué)學(xué)報(自然科學(xué)版);2010年05期
相關(guān)博士學(xué)位論文 前1條
1 劉東飛;智能雙語搜索方法及搜索引擎的研究[D];武漢理工大學(xué);2009年
相關(guān)碩士學(xué)位論文 前7條
1 程賓;基于用戶興趣模型的元搜索引擎的研究[D];山東科技大學(xué);2010年
2 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
3 仇亞東;面向農(nóng)業(yè)領(lǐng)域的垂直搜索技術(shù)的研究[D];南京農(nóng)業(yè)大學(xué);2010年
4 樊德強;WEB個性化信息采集與管理關(guān)鍵技術(shù)研究[D];鄭州輕工業(yè)學(xué)院;2011年
5 蘇碧;基于元搜索的雙語智能翻譯搜索引擎的研究[D];武漢理工大學(xué);2009年
6 胡維慧;基于用戶模型的個性化元搜索引擎的研究與設(shè)計[D];山東科技大學(xué);2009年
7 徐洋;基于用戶行為學(xué)習(xí)的農(nóng)業(yè)信息元搜索引擎研究[D];中國農(nóng)業(yè)科學(xué)院;2010年
【二級參考文獻】
相關(guān)期刊論文 前1條
1 張衛(wèi)豐,徐寶文,周曉宇,許蕾,李東;元搜索引擎結(jié)果生成技術(shù)研究[J];小型微型計算機系統(tǒng);2003年01期
【相似文獻】
相關(guān)期刊論文 前10條
1 陳湘玲;;基于MVC模型的Web元搜索引擎[J];情報科學(xué);2005年12期
2 薛云;;元搜索引擎?zhèn)性化調(diào)度策略的研究與設(shè)計[J];煤炭技術(shù);2011年04期
3 回雁雁;;多語種元搜索引擎的研究分析[J];圖書館理論與實踐;2007年01期
4 旃群;;元搜索引擎的資料挖掘[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年17期
5 吳楠;;元搜索引擎的研究[J];中國艦船研究;2007年05期
6 胡利平,胡亮,高文;一個實用型智能化元搜索引擎的設(shè)計與實現(xiàn)[J];微計算機信息;2005年23期
7 陳菊紅;;帶有聚類功能的個性化元搜索引擎的設(shè)計[J];電腦知識與技術(shù);2008年34期
8 原福永;陳金森;林海霞;;基于XML的智能元搜索引擎研究[J];現(xiàn)代圖書情報技術(shù);2006年07期
9 王芬;;元搜索引擎研究[J];廣東農(nóng)工商職業(yè)技術(shù)學(xué)院學(xué)報;2008年02期
10 洪濤;;關(guān)于元搜索引擎的研究與分析[J];圖書館工作與研究;2010年04期
相關(guān)會議論文 前10條
1 孫金立;李路路;王棟;;生物信息檢索教學(xué)網(wǎng)的建設(shè)[A];向數(shù)字化轉(zhuǎn)型的圖書館工作[C];2004年
2 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計算學(xué)術(shù)會議論文集[C];2005年
3 孫金立;李路路;董明強;;建立生物信息檢索教學(xué)網(wǎng)的研究[A];中華醫(yī)學(xué)會第十次全國醫(yī)學(xué)信息學(xué)術(shù)會議論文匯編[C];2004年
4 ;編者的話[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
5 米曉紅;;一種基于LSI的用戶興趣模型構(gòu)建方法[A];計算機技術(shù)與應(yīng)用進展——全國第17屆計算機科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會議論文集(上冊)[C];2006年
6 王敬成;;HNC農(nóng)村智能信息檢索系統(tǒng)[A];2006年首屆ICT大會信息、知識、智能及其轉(zhuǎn)換理論第一次高峰論壇會議論文集[C];2006年
7 李應(yīng)興;付婷;李勇;;基于LUCENE的藏文信息檢索的研究與應(yīng)用[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
8 于志剛;楊金生;;農(nóng)業(yè)機械網(wǎng)絡(luò)書簽[A];第十三次全國農(nóng)機維修學(xué)術(shù)會議論文集[C];2007年
9 ;前言[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(下)[C];2008年
10 田田;馬軍;李躍軍;;應(yīng)用多本體進行信息檢索的研究[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2005年
相關(guān)重要報紙文章 前10條
1 希安;微軟試水信息檢索[N];經(jīng)濟日報;2004年
2 葉靜;開辟信息檢索的新天地[N];人民郵電;2001年
3 本報記者 潘永花;組件化平臺提升信息檢索效率[N];網(wǎng)絡(luò)世界;2003年
4 劉靜一;個人檔案信息檢索[N];建筑報;2000年
5 劉光強;搜索個人、企業(yè)、垂直三大搜索新進展[N];中國計算機報;2007年
6 柏榮;國家973項目在因特網(wǎng)大規(guī)模信息檢索領(lǐng)域取得突破[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報;2003年
7 王旭;中文智能搜索引擎[N];計算機世界;2001年
8 彭巖 艾迪明;網(wǎng)絡(luò)信息“拉取”技術(shù)[N];計算機世界;2001年
9 劉立新;信息社會技術(shù)前瞻[N];學(xué)習(xí)時報;2006年
10 常燕杰;商用搜索 須打智慧牌[N];中國計算機報;2006年
相關(guān)博士學(xué)位論文 前10條
1 李紅梅;智能元搜索引擎關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2009年
2 劉煒;智能元搜索引擎中個性化模式庫的研究[D];太原理工大學(xué);2007年
3 吳定峰;基于本體的語義搜索模型研究[D];中國農(nóng)業(yè)科學(xué)院;2012年
4 董道國;高維數(shù)據(jù)索引結(jié)構(gòu)研究[D];復(fù)旦大學(xué);2005年
5 林建方;詞搭配抽取及在信息檢索中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2010年
6 翟海軍;面向Web信息檢索的知識挖掘[D];中國科學(xué)技術(shù)大學(xué);2010年
7 郭永明;XML文檔交互式信息檢索技術(shù)研究[D];東華大學(xué);2010年
8 林古立;互聯(lián)網(wǎng)信息檢索中的多樣化排序研究及應(yīng)用[D];華南理工大學(xué);2011年
9 馬馬杜 ?ɡ;基于多智能體的流體動力行業(yè)虛擬聯(lián)盟信息檢索的研究[D];浙江大學(xué);2002年
10 劉云峰;基于潛在語義分析的中文概念檢索研究[D];華中科技大學(xué);2005年
相關(guān)碩士學(xué)位論文 前10條
1 楊才峰;基于自動分類的元搜索引擎的研究與應(yīng)用[D];華北電力大學(xué)(河北);2005年
2 杭月芹;基于文檔查詢信息的檢索系統(tǒng)研究與實現(xiàn)[D];揚州大學(xué);2005年
3 陳琳;基于搜索引擎的問答系統(tǒng)若干關(guān)鍵技術(shù)研究與實現(xiàn)[D];天津大學(xué);2008年
4 陳默;基于神經(jīng)網(wǎng)絡(luò)的元搜索引擎[D];浙江大學(xué);2006年
5 種梅;元搜索引擎中的關(guān)鍵技術(shù)研究[D];山東師范大學(xué);2008年
6 張帆;新聞信息采集系統(tǒng)的設(shè)計與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2008年
7 胡升澤;個性化元搜索引擎若干關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2008年
8 李信利;基于信息類別的元搜索引擎研究[D];山東大學(xué);2006年
9 喬智勇;Web數(shù)據(jù)挖掘系統(tǒng)的設(shè)計及關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2002年
10 王新;一種垂直元搜索引擎的研究[D];西北大學(xué);2010年
本文編號:2552457
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2552457.html