搜索引擎的相關(guān)性排序算法研究92
本文關(guān)鍵詞:搜索引擎的相關(guān)性排序算法研究,由筆耕文化傳播整理發(fā)布。
原始搜索結(jié)果進(jìn)行重新排序,使新的序列更能滿(mǎn)足用戶(hù);在以上圖像重排序算法中,圖像相似性的度量至關(guān)重要;5.2研究工作展望;目前大部分相關(guān)性算法研究都集中在通用搜索引擎,然;搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語(yǔ);另外隨著多媒體的發(fā)展,視頻搜索是一個(gè)很有前景的研;參考文獻(xiàn);[1]蘇新寧編著,信息檢索理論與技術(shù),科學(xué)技術(shù)文;[2]章毓晉著,圖像處理和分析
原始搜索結(jié)果進(jìn)行重新排序,使新的序列更能滿(mǎn)足用戶(hù)搜索需求。目前圖像重排序主要有基于虛相關(guān)反饋,基于信息瓶頸理論和基于圖理論的三類(lèi)方法。
在以上圖像重排序算法中,圖像相似性的度量至關(guān)重要。通常,我們通過(guò)計(jì)算圖像視覺(jué)特征的相似性來(lái)估計(jì)圖像的相似性。圖像視覺(jué)特征包含全局特征(如顏色,紋理,形狀)和局部特征(如尺度不變特征)。然而現(xiàn)有的相似性度量沒(méi)有考慮針對(duì)不同的查詢(xún)?cè)~,圖像的相似性應(yīng)該不同。本文提出一種與查詢(xún)?cè)~相關(guān)的相似性度量方法,把基于全局特征的相似性,基于局部特征的相似性,以及視覺(jué)單詞同時(shí)出現(xiàn)率融合到一個(gè)迭代算法中,挖掘出與查詢(xún)?cè)~相關(guān)的圖像信息計(jì)算相似性。實(shí)驗(yàn)結(jié)果表明我們提出的相似性度量方法優(yōu)于基于全局特征,局部特征,或它們線(xiàn)性組合的相似性。
5.2 研究工作展望
目前大部分相關(guān)性算法研究都集中在通用搜索引擎,然而不同領(lǐng)域、不同背景的用戶(hù)往往有不同的檢索目的和需求,根據(jù)通用搜索引擎的相關(guān)性算法返回的結(jié)果包含大量用戶(hù)不關(guān)心的網(wǎng)頁(yè),通常不能滿(mǎn)足特定需求的用戶(hù)。比如,同樣是輸入關(guān)鍵詞輸入“bm25”,從事文本信息檢索研究的用戶(hù)希望了解排序函數(shù)Okapi BM25的具體算法,從事環(huán)境研究的用戶(hù)主要是想知道有關(guān)BM25氣體檢測(cè)儀的相關(guān)情況,而醫(yī)療工作者卻更希望了解BM25連續(xù)性腎臟治療機(jī)的相關(guān)情況。相同的查詢(xún)請(qǐng)求,不同的用戶(hù)意圖,搜索引擎很難準(zhǔn)確判斷用戶(hù)需求。因此,對(duì)不同的領(lǐng)域開(kāi)發(fā)不同的搜索引擎,認(rèn)為針對(duì)特定領(lǐng)域,研究不同的相關(guān)性算法,能有效提高檢索準(zhǔn)確度,提高用戶(hù)滿(mǎn)意度。
搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語(yǔ)義信息進(jìn)行的查詢(xún)。當(dāng)前特別突出的問(wèn)題是,假如用戶(hù)使用的關(guān)鍵詞不恰當(dāng),即使存在需要的信息,也會(huì)導(dǎo)致用戶(hù)得不到相應(yīng)的信息。由于語(yǔ)言本身的模糊性,語(yǔ)義信息特別豐富,如何判斷用戶(hù)意圖是搜索引擎中一個(gè)極有挑戰(zhàn)性的問(wèn)題。
另外隨著多媒體的發(fā)展,視頻搜索是一個(gè)很有前景的研究領(lǐng)域。如何填補(bǔ)文本信息和視頻信息的語(yǔ)義鴻溝,找到適合視頻檢索的相關(guān)性排序算法,快速有效地檢索出用戶(hù)所需要的信息,是一個(gè)亟待解決的問(wèn)題。
參考文獻(xiàn)
[1] 蘇新寧 編著,信息檢索理論與技術(shù),科學(xué)技術(shù)文獻(xiàn)出版社,2004.
[2] 章毓晉 著,圖像處理和分析,清華大學(xué)出版社,1999.
[3] 章毓晉 著,基于內(nèi)容的視覺(jué)信息檢索,科學(xué)出版社,2003.
[4]2. J. Lafferty, C. Zhai. Document Language Models, Query Models and Risk Minimization
for Information Retrieval. In ACM SIGIR, 2001.
[5]3. J.M. Ponte, W.B. Croft. A Language Modeling Approach to Information Retrieval. In
ACM SIGIR, 1998.
[6]1. S.E. Robertson, S. Walker, and S. Jones. Okapi at TREC-3. In Proceedings of the Third
Text Retrieval, 1994.
[7]4. P. Li, J.C. Burges, Q. Wu. McRank: Learning to Rank Using Multiple Classification and
Gradient Boosting. In NIPS, 2007.
[8]5. R.Herbrich, T.Graepel, K.Obermayer. Large Margin Rank Boundaries for Ordinal
Regression. MIT Press, Cambridge, 2000.
[9]6. M.F.Tsai, T.Y. Liu. FRank: A Ranking Method with Fidelity Loss. In ACM SIGIR, 2007.
[10]7. Y. Freund, R. Iyer, R.E. Schapire, and Y.Singer. An Efficient Boosting Algorithm for
Combining Preferences. In Journal of Machine Learning Research,1998.
[11]8. C. Burges, T. Shake, E. Renshaw, A. Lazier, and M. Deeds. Learning to Rank Using
Gradient Descent. In ICML, 2005.
[12]9.T. Joachims. Optimizing Search Engines using Clickthrough Data. In SIGKDD, 2002.
[13]10. Z. Cao, T. Qin, T.Y. Liu, M.F Tsai, and H. Li. Learning to Rank: From Pairwise
Approach to Listwise Approach. In Machine Learning, 2007.
[14]11. S. Tong, D. Koller. Support vector machine active learning with applications to text
classification. In JMLR, 2002.
[15]12. S.C. Townsend, Y. Zhou, and B.W. Croft. Predicting query performance. In ACM
SIGIR, 2002.
[16]13. Y. Freund, S.H. Seung, E. Shamir, and N. Tishby. Selective sampling using the query by
committee algorithm. In Machine Learning, 1997.
[17]14. M.G. Kendall. A new measure of rank correlation. In Biometrika, 1938.
[18]15. K. Jarvelin, J. Kekalainen. IR evaluation methods for retrieving highly relevant
documents. In ACM SIGIR, 2000.
[19] W.Y. Ma, H.J. Zhang. Benchmarking of image features for content-based retrieval. In
Conference Record of the Thirty-Second Asilomar Conference on Signals, Systems &Computers, 1998.
[20] T. Chang, C.C. Kuo. Texture analysis and classi?cation with tree-structured wavelet
transform. In IEEE Transactions on Image Processing, 1993.
[21] J. Huang, S.R. Kumar, M. Mitra, and W.J. Zhu. Image indexing using color correlograms.
In CVPR, 1997.
[22] D.K. Park, Y.S. Jeon, and C.S. Won. Efficient use of local edge histogram descriptor. In
ACM Multimedia, 2000.
[23] D.G. Lowe. Object recognition from local scale-invariant features. In ICCV, 1999.
[24] N.B. Haim, B. Babenko, and S. Belongie. Improving web-based image search via content
based clustering. In SLAM, 2006.
[25] R. Yan, E. Hauptmann, and R. Jin. Multimedia search with pseudo-relevance feedback. In
CIVR, 2003.
[26] W.H. Hsu, L.S. Kennedy, and S.F. Chang. Video search reranking via information
bottleneck principle. In ACM Multimedia, 2006.
[27] W.H. Hsu, L.S. Kennedy, and S.F. Chang. Video search reranking through random walk
over document-level context graph. In ACM Multimedia, 2007.
[28] H. Zitouni, S. Sevil, D. Ozkan, and P. Duygulu. Re-ranking of web image search results
using a graph algorithm. In ICPR, 2008.
[29] X. Tian, L. Yang, J. Wang, Y. Yang, X. Wu, and X.-S. Hua. Bayesian video search
reranking. In ACM Multimedia, 2008.
[30] Y. Jing, S. Baluja. Visualrank: Applying pagerank to large-scale image search. In IEEE
Transactions on Pattern Analysis and Machine Intelligence, 2008.
[31] R.L. Cilibrasi, P.M.B. Vitanyi. The google similarity distance. In IEEE Transactions on
Knowledge and Data Engineering, 2007.
[32] J. Yang, Y.G. Jiang, A.G. Hauptmann, and C.W. Ngo. Evaluating bag-of-visual-words
representations in scene classi?cation. In MIR, 2007.
[33] K.S. Jones. A statistical interpretation of term specificity and its application in retrieval. In
document retrieval systems, 1988.
[34] X.J. Wang, W.Y. Ma, G.R. Xue, and X. Li. Multi-model similarity propagation and its
application for web image retrieval. In ACM Multimedia, 2004.
[35] A.N. Langville, C.D. Meyer. Google's PageRank and Beyond: the science of search engine
rankings. In Mathematical Intelligencer, 2008.
[36] C. Ding, X. He, P. Husbands, and H. Zha. PageRank HITS and a unified framework for link
analysis. In ACM SIGIR, 2002.
致 謝
在研究學(xué)習(xí)期間,我有幸得到了三位老師的教導(dǎo),他們是:我的導(dǎo)
師,中國(guó)科大周逸峰研究員,中科院昆明動(dòng)物所馬原野研究員以及美國(guó)猶他大學(xué)的王永昌老師。三位老師深厚的學(xué)術(shù)功底,嚴(yán)謹(jǐn)?shù)墓ぷ鲬B(tài)度和敏銳的科學(xué)洞察力使我受益良多。衷心感謝他們多年來(lái)給予我的悉心教導(dǎo)和熱情幫助。
感謝李祥瑞老師在實(shí)驗(yàn)方面的指導(dǎo)以及猶他大學(xué)Audie Leventhal教
授、動(dòng)物所陳南輝教師的幫助。科大的葉翔、楊贇同學(xué)和昆明動(dòng)物所的王秀松、付玉和張潔同學(xué)參與了部分試驗(yàn)工作,在此深表謝意。
……
最后,謹(jǐn)以此文獻(xiàn)給我的父親和母親。
2005年6月
在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果
在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果
已發(fā)表論文:
[1]王黎,帥建梅.文本搜索排序中構(gòu)造訓(xùn)練集的一種方法. 計(jì)算機(jī)系統(tǒng)應(yīng)用.
[2] 王黎,帥建梅. 圖像重排序中與查詢(xún)相關(guān)的圖像相似性度量. 計(jì)算機(jī)系統(tǒng)應(yīng)用.
55
下載地址:搜索引擎的相關(guān)性排序算法研究92.Doc
【】最新搜索
搜索引擎的相關(guān)性排序算法研究
98展望未來(lái)2 習(xí)題Unit 4
72每朵花都有自己的春天鳳凰 閱讀答案
溜子司機(jī)操作規(guī)程29
廣西最大的投資來(lái)源地是()、
QXDM基本功能及使用方法41
50心內(nèi)科英文病歷模板
98禁令規(guī)范心得
第14課 漢代的文化與科技導(dǎo)學(xué)案01
文山67
本文關(guān)鍵詞:搜索引擎的相關(guān)性排序算法研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):178633
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/178633.html