基于偽反饋的有效XML查詢擴(kuò)展
發(fā)布時(shí)間:2019-11-19 21:51
【摘要】:偽反饋(pseudo relevance feedback,PRF)一直以來都被認(rèn)為是一種有效的查詢擴(kuò)展技術(shù)。然而傳統(tǒng)的偽反饋容易帶來主題漂移,從而影響檢索性能。如何確定高質(zhì)量的相關(guān)文檔集,以及如何從相關(guān)文檔集中挑選有用的擴(kuò)展詞項(xiàng),是解決偽反饋中查詢主題漂移的兩個(gè)重要方面。對此,針對XML(extensible markup language)文檔,提出了一個(gè)解決框架:一方面,研究了XML偽反饋文檔查找方法,在充分考慮XML內(nèi)容和結(jié)構(gòu)特征的前提下,提出了基于檢索結(jié)果聚類和兩階段排序模型相結(jié)合的高質(zhì)量XML偽相關(guān)文檔查找技術(shù);另一方面,針對CO(content only)查詢,對詞項(xiàng)擴(kuò)展進(jìn)行了研究,提出了帶結(jié)構(gòu)語義的詞項(xiàng)權(quán)值計(jì)算方法。一系列的相關(guān)實(shí)驗(yàn)數(shù)據(jù)表明,所提的XML偽反饋查詢擴(kuò)展方法能有效地減少查詢主題漂移現(xiàn)象,獲得更好的檢索質(zhì)量。
【圖文】:
?反而降低。而觀察本文的擴(kuò)展方法,在返回結(jié)果的前10篇和前20篇文檔里,分別只有11和6個(gè)查詢主題的準(zhǔn)確率低于擴(kuò)展前,這充分說明了本文的擴(kuò)展方案減少了查詢漂移現(xiàn)象,在Prec@10和Prec@20上性能分別提高了4%和15%,整體的檢索質(zhì)量得到了提高。分析原因,擴(kuò)展源的質(zhì)量至關(guān)重要。傳統(tǒng)偽反饋是選擇初始檢索結(jié)果的前N篇文檔作為擴(kuò)展源,此擴(kuò)展源并非每次都包含有較多的相關(guān)文檔,當(dāng)用戶查詢需求比較模糊的時(shí)候,得到的檢索結(jié)果可能會(huì)包含有較多的噪音,顯然在此環(huán)境下進(jìn)行查詢詞Fig.1PerformancecomparisononPrec@X圖1Prec@X性能比較圖Fig.2PerformancecomparisononMAP@X圖2MAP@X性能比較圖Fig.3PerformancecomparisononPrec@10圖3性能比較圖(Prec@10)Fig.4PerformancecomparisononPrec@20圖4性能比較圖(Prec@20)1679
頹?0篇文檔里,分別只有11和6個(gè)查詢主題的準(zhǔn)確率低于擴(kuò)展前,這充分說明了本文的擴(kuò)展方案減少了查詢漂移現(xiàn)象,在Prec@10和Prec@20上性能分別提高了4%和15%,整體的檢索質(zhì)量得到了提高。分析原因,擴(kuò)展源的質(zhì)量至關(guān)重要。傳統(tǒng)偽反饋是選擇初始檢索結(jié)果的前N篇文檔作為擴(kuò)展源,此擴(kuò)展源并非每次都包含有較多的相關(guān)文檔,當(dāng)用戶查詢需求比較模糊的時(shí)候,,得到的檢索結(jié)果可能會(huì)包含有較多的噪音,顯然在此環(huán)境下進(jìn)行查詢詞Fig.1PerformancecomparisononPrec@X圖1Prec@X性能比較圖Fig.2PerformancecomparisononMAP@X圖2MAP@X性能比較圖Fig.3PerformancecomparisononPrec@10圖3性能比較圖(Prec@10)Fig.4PerformancecomparisononPrec@20圖4性能比較圖(Prec@20)1679
本文編號(hào):2563251
【圖文】:
?反而降低。而觀察本文的擴(kuò)展方法,在返回結(jié)果的前10篇和前20篇文檔里,分別只有11和6個(gè)查詢主題的準(zhǔn)確率低于擴(kuò)展前,這充分說明了本文的擴(kuò)展方案減少了查詢漂移現(xiàn)象,在Prec@10和Prec@20上性能分別提高了4%和15%,整體的檢索質(zhì)量得到了提高。分析原因,擴(kuò)展源的質(zhì)量至關(guān)重要。傳統(tǒng)偽反饋是選擇初始檢索結(jié)果的前N篇文檔作為擴(kuò)展源,此擴(kuò)展源并非每次都包含有較多的相關(guān)文檔,當(dāng)用戶查詢需求比較模糊的時(shí)候,得到的檢索結(jié)果可能會(huì)包含有較多的噪音,顯然在此環(huán)境下進(jìn)行查詢詞Fig.1PerformancecomparisononPrec@X圖1Prec@X性能比較圖Fig.2PerformancecomparisononMAP@X圖2MAP@X性能比較圖Fig.3PerformancecomparisononPrec@10圖3性能比較圖(Prec@10)Fig.4PerformancecomparisononPrec@20圖4性能比較圖(Prec@20)1679
頹?0篇文檔里,分別只有11和6個(gè)查詢主題的準(zhǔn)確率低于擴(kuò)展前,這充分說明了本文的擴(kuò)展方案減少了查詢漂移現(xiàn)象,在Prec@10和Prec@20上性能分別提高了4%和15%,整體的檢索質(zhì)量得到了提高。分析原因,擴(kuò)展源的質(zhì)量至關(guān)重要。傳統(tǒng)偽反饋是選擇初始檢索結(jié)果的前N篇文檔作為擴(kuò)展源,此擴(kuò)展源并非每次都包含有較多的相關(guān)文檔,當(dāng)用戶查詢需求比較模糊的時(shí)候,,得到的檢索結(jié)果可能會(huì)包含有較多的噪音,顯然在此環(huán)境下進(jìn)行查詢詞Fig.1PerformancecomparisononPrec@X圖1Prec@X性能比較圖Fig.2PerformancecomparisononMAP@X圖2MAP@X性能比較圖Fig.3PerformancecomparisononPrec@10圖3性能比較圖(Prec@10)Fig.4PerformancecomparisononPrec@20圖4性能比較圖(Prec@20)1679
本文編號(hào):2563251
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2563251.html
最近更新
教材專著