元搜索引擎中排序融合算法的優(yōu)化研究
【圖文】:
各種算法以及成員搜索引擎前N篇文檔中平均查準(zhǔn)率比較IRBOABaiduGoogleSosoYahooBingBCWBCCM50.81280.77650.78010.77040.74590.71010.71080.75090.7371100.78790.73010.77890.76190.76980.71890.68510.72160.7083150.77110.70190.71380.70040.69780.68870.66650.70920.6802200.73310.67980.70130.69190.66540.64390.65000.67190.6851250.71580.66040.68110.66930.65100.62910.64050.66570.6834300.67870.63210.64390.60190.59860.55020.60820.62760.6398圖1顯示了IRBOA算法與BordaCount排序法、WeightedBordaCount排序法以及CombMNZ排序法在前N篇文檔中的平均查準(zhǔn)率比較,其中N=5,10,15,20,25,30。圖1幾種排序算法的平均查準(zhǔn)率比較實(shí)驗(yàn)結(jié)果表明:Yahoo中文、Bing在處理中文查詢(xún)時(shí)平均查準(zhǔn)率相對(duì)較低,而Google中文、Baidu和Soso相對(duì)前者有較高的查準(zhǔn)率,相比IRBOA算法雖然在個(gè)別點(diǎn)處略高,,但整體水平仍低于IRBOA算法。在結(jié)合初始排序位置信息的基礎(chǔ)上,考慮了包含當(dāng)前文檔的成員搜索引擎?zhèn)數(shù)的影響,引入BM25F算法模型計(jì)算查詢(xún)串與標(biāo)題、短摘要的相似度,并加入對(duì)文檔URL的分析,使得IRBOA算法在平均查準(zhǔn)率上相比BordaCount排序法、WeightedBordaCount排序法以及CombMNZ排序法都有了較大幅度提高。由表2可知平均提高幅度分別為10%-13%、5%-9%、6%-12%。2.2算法性能分析信息檢索系統(tǒng)的另一個(gè)重要評(píng)估要素是其檢索的實(shí)時(shí)性。本實(shí)驗(yàn)在五臺(tái)PC機(jī)(Intel酷睿i7四核CPU2.66GHz,4GB內(nèi)存)上運(yùn)行。為了提高下載速度,將系統(tǒng)下載模塊分別布到5臺(tái)機(jī)器上,選擇其中一臺(tái)供用戶(hù)查詢(xún)以及后臺(tái)融合。針對(duì)選取的10個(gè)主題各進(jìn)行10次查詢(xún)實(shí)驗(yàn)。設(shè)置成員系統(tǒng)返回的結(jié)果頁(yè)數(shù)分別?
226計(jì)算機(jī)應(yīng)用與軟件2012年從圖5中可以看出,當(dāng)對(duì)所有的數(shù)據(jù)塊都進(jìn)行證明時(shí),算法運(yùn)行時(shí)間與文件大小呈線性正相關(guān)。驗(yàn)證1000MB的文件,在I/O上耗費(fèi)了1.48秒,總的算法運(yùn)行時(shí)間為5.62秒,表明磁盤(pán)I/O對(duì)算法的性能存在一定的影響。在99%可靠性前提下,大約需要抽樣900個(gè)數(shù)據(jù)塊,產(chǎn)生證明的時(shí)間僅為0.023秒;95%可靠性前提下,大約需要抽樣600塊,產(chǎn)生證明時(shí)間僅需0.016秒。對(duì)比證明所有數(shù)據(jù)塊的策略發(fā)現(xiàn),概率型抽樣檢測(cè)策略帶來(lái)了極大的性能提升。同時(shí),還可以發(fā)現(xiàn),采用概率型抽樣檢測(cè)策略時(shí),算法運(yùn)行時(shí)間不隨文件大小的改變而改變。圖5不同可信度下產(chǎn)生證明所需時(shí)間3.2服務(wù)器端計(jì)算本節(jié)通過(guò)實(shí)驗(yàn)對(duì)比了本文算法和其他算法在最壞情況下產(chǎn)生證明的性能。所謂最壞情況,即對(duì)于CS-PDP和S-PDP均驗(yàn)證所有數(shù)據(jù)塊。圖6顯示了CS-PDP和S-PDP產(chǎn)生證明所需時(shí)間都與文件大小線性相關(guān)。在文件較小時(shí),例如100MB,二者運(yùn)行時(shí)間并沒(méi)有顯著差距;當(dāng)文件逐漸增大時(shí),CS-PDP的運(yùn)行時(shí)間增長(zhǎng)緩慢,而S-PDP的運(yùn)行時(shí)間顯著增長(zhǎng)。文件為1000MB時(shí),S-PDP的運(yùn)行時(shí)間約為CS-PDP運(yùn)行時(shí)間的11倍。實(shí)驗(yàn)結(jié)果表明,CS-PDP模型較S-PDP有很大的性能提升。圖6CS-PDP和S-PDP運(yùn)行性能的比較4結(jié)語(yǔ)本文分析了當(dāng)前云存儲(chǔ)的新特性和傳統(tǒng)數(shù)據(jù)持有性證明PDP的局限性,在S-PDP模型的基礎(chǔ)上通過(guò)加入可信存儲(chǔ)服務(wù)提供商代理CSPP,構(gòu)建了適用于對(duì)云存儲(chǔ)中分布式外包存儲(chǔ)的數(shù)據(jù)進(jìn)行完整性驗(yàn)證的數(shù)據(jù)持有性證明模型CS-PDP。通過(guò)對(duì)該模型的安全性和性能進(jìn)行理論和實(shí)驗(yàn)分析,表明本文提出的云存儲(chǔ)中的數(shù)據(jù)持有性證明模型不僅可以抵制惡意欺騙和隱私泄露,而且只耗費(fèi)很小的存儲(chǔ)、計(jì)算和通信開(kāi)銷(xiāo),該模型高效可行。參考文獻(xiàn)[1]DeswarteY,QuisquaterJJ,SaidaneA.Remoteint
【作者單位】: 太原理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【基金】:山西省回國(guó)留學(xué)人員科研資助項(xiàng)目(2011-028)
【分類(lèi)號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 李紅梅;丁振國(guó);周水生;周利華;;元搜索引擎結(jié)果合成算法[J];北京郵電大學(xué)學(xué)報(bào);2008年05期
【共引文獻(xiàn)】
相關(guān)期刊論文 前2條
1 吳遠(yuǎn)紅;張建科;;面向海洋信息的個(gè)性化元搜索引擎[J];電腦知識(shí)與技術(shù);2010年19期
2 敖飛;陳梅;;一種基于樣本加權(quán)的位置文本排序算法[J];貴州大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年05期
相關(guān)博士學(xué)位論文 前1條
1 劉東飛;智能雙語(yǔ)搜索方法及搜索引擎的研究[D];武漢理工大學(xué);2009年
相關(guān)碩士學(xué)位論文 前7條
1 程賓;基于用戶(hù)興趣模型的元搜索引擎的研究[D];山東科技大學(xué);2010年
2 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
3 仇亞?wèn)|;面向農(nóng)業(yè)領(lǐng)域的垂直搜索技術(shù)的研究[D];南京農(nóng)業(yè)大學(xué);2010年
4 樊德強(qiáng);WEB個(gè)性化信息采集與管理關(guān)鍵技術(shù)研究[D];鄭州輕工業(yè)學(xué)院;2011年
5 蘇碧;基于元搜索的雙語(yǔ)智能翻譯搜索引擎的研究[D];武漢理工大學(xué);2009年
6 胡維慧;基于用戶(hù)模型的個(gè)性化元搜索引擎的研究與設(shè)計(jì)[D];山東科技大學(xué);2009年
7 徐洋;基于用戶(hù)行為學(xué)習(xí)的農(nóng)業(yè)信息元搜索引擎研究[D];中國(guó)農(nóng)業(yè)科學(xué)院;2010年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 張衛(wèi)豐,徐寶文,周曉宇,許蕾,李東;元搜索引擎結(jié)果生成技術(shù)研究[J];小型微型計(jì)算機(jī)系統(tǒng);2003年01期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳湘玲;;基于MVC模型的Web元搜索引擎[J];情報(bào)科學(xué);2005年12期
2 薛云;;元搜索引擎?zhèn)性化調(diào)度策略的研究與設(shè)計(jì)[J];煤炭技術(shù);2011年04期
3 回雁雁;;多語(yǔ)種元搜索引擎的研究分析[J];圖書(shū)館理論與實(shí)踐;2007年01期
4 旃群;;元搜索引擎的資料挖掘[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年17期
5 吳楠;;元搜索引擎的研究[J];中國(guó)艦船研究;2007年05期
6 胡利平,胡亮,高文;一個(gè)實(shí)用型智能化元搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];微計(jì)算機(jī)信息;2005年23期
7 陳菊紅;;帶有聚類(lèi)功能的個(gè)性化元搜索引擎的設(shè)計(jì)[J];電腦知識(shí)與技術(shù);2008年34期
8 原福永;陳金森;林海霞;;基于XML的智能元搜索引擎研究[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2006年07期
9 王芬;;元搜索引擎研究[J];廣東農(nóng)工商職業(yè)技術(shù)學(xué)院學(xué)報(bào);2008年02期
10 洪濤;;關(guān)于元搜索引擎的研究與分析[J];圖書(shū)館工作與研究;2010年04期
相關(guān)會(huì)議論文 前10條
1 孫金立;李路路;王棟;;生物信息檢索教學(xué)網(wǎng)的建設(shè)[A];向數(shù)字化轉(zhuǎn)型的圖書(shū)館工作[C];2004年
2 姚樹(shù)宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國(guó)開(kāi)放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年
3 孫金立;李路路;董明強(qiáng);;建立生物信息檢索教學(xué)網(wǎng)的研究[A];中華醫(yī)學(xué)會(huì)第十次全國(guó)醫(yī)學(xué)信息學(xué)術(shù)會(huì)議論文匯編[C];2004年
4 ;編者的話[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
5 米曉紅;;一種基于LSI的用戶(hù)興趣模型構(gòu)建方法[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國(guó)第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2006年
6 王敬成;;HNC農(nóng)村智能信息檢索系統(tǒng)[A];2006年首屆ICT大會(huì)信息、知識(shí)、智能及其轉(zhuǎn)換理論第一次高峰論壇會(huì)議論文集[C];2006年
7 李應(yīng)興;付婷;李勇;;基于LUCENE的藏文信息檢索的研究與應(yīng)用[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
8 于志剛;楊金生;;農(nóng)業(yè)機(jī)械網(wǎng)絡(luò)書(shū)簽[A];第十三次全國(guó)農(nóng)機(jī)維修學(xué)術(shù)會(huì)議論文集[C];2007年
9 ;前言[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(下)[C];2008年
10 田田;馬軍;李躍軍;;應(yīng)用多本體進(jìn)行信息檢索的研究[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年
相關(guān)重要報(bào)紙文章 前10條
1 希安;微軟試水信息檢索[N];經(jīng)濟(jì)日?qǐng)?bào);2004年
2 葉靜;開(kāi)辟信息檢索的新天地[N];人民郵電;2001年
3 本報(bào)記者 潘永花;組件化平臺(tái)提升信息檢索效率[N];網(wǎng)絡(luò)世界;2003年
4 劉靜一;個(gè)人檔案信息檢索[N];建筑報(bào);2000年
5 劉光強(qiáng);搜索個(gè)人、企業(yè)、垂直三大搜索新進(jìn)展[N];中國(guó)計(jì)算機(jī)報(bào);2007年
6 柏榮;國(guó)家973項(xiàng)目在因特網(wǎng)大規(guī)模信息檢索領(lǐng)域取得突破[N];中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2003年
7 王旭;中文智能搜索引擎[N];計(jì)算機(jī)世界;2001年
8 彭巖 艾迪明;網(wǎng)絡(luò)信息“拉取”技術(shù)[N];計(jì)算機(jī)世界;2001年
9 劉立新;信息社會(huì)技術(shù)前瞻[N];學(xué)習(xí)時(shí)報(bào);2006年
10 常燕杰;商用搜索 須打智慧牌[N];中國(guó)計(jì)算機(jī)報(bào);2006年
相關(guān)博士學(xué)位論文 前10條
1 李紅梅;智能元搜索引擎關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2009年
2 劉煒;智能元搜索引擎中個(gè)性化模式庫(kù)的研究[D];太原理工大學(xué);2007年
3 吳定峰;基于本體的語(yǔ)義搜索模型研究[D];中國(guó)農(nóng)業(yè)科學(xué)院;2012年
4 董道國(guó);高維數(shù)據(jù)索引結(jié)構(gòu)研究[D];復(fù)旦大學(xué);2005年
5 林建方;詞搭配抽取及在信息檢索中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2010年
6 翟海軍;面向Web信息檢索的知識(shí)挖掘[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年
7 郭永明;XML文檔交互式信息檢索技術(shù)研究[D];東華大學(xué);2010年
8 林古立;互聯(lián)網(wǎng)信息檢索中的多樣化排序研究及應(yīng)用[D];華南理工大學(xué);2011年
9 馬馬杜 桑卡雷;基于多智能體的流體動(dòng)力行業(yè)虛擬聯(lián)盟信息檢索的研究[D];浙江大學(xué);2002年
10 劉云峰;基于潛在語(yǔ)義分析的中文概念檢索研究[D];華中科技大學(xué);2005年
相關(guān)碩士學(xué)位論文 前10條
1 楊才峰;基于自動(dòng)分類(lèi)的元搜索引擎的研究與應(yīng)用[D];華北電力大學(xué)(河北);2005年
2 杭月芹;基于文檔查詢(xún)信息的檢索系統(tǒng)研究與實(shí)現(xiàn)[D];揚(yáng)州大學(xué);2005年
3 陳琳;基于搜索引擎的問(wèn)答系統(tǒng)若干關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];天津大學(xué);2008年
4 陳默;基于神經(jīng)網(wǎng)絡(luò)的元搜索引擎[D];浙江大學(xué);2006年
5 種梅;元搜索引擎中的關(guān)鍵技術(shù)研究[D];山東師范大學(xué);2008年
6 張帆;新聞信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2008年
7 胡升澤;個(gè)性化元搜索引擎若干關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2008年
8 李信利;基于信息類(lèi)別的元搜索引擎研究[D];山東大學(xué);2006年
9 喬智勇;Web數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)及關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2002年
10 王新;一種垂直元搜索引擎的研究[D];西北大學(xué);2010年
本文編號(hào):2552457
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2552457.html