融合詞性與位置信息改進的Lucene排序算法
發(fā)布時間:2021-12-18 03:11
文檔檢索的相關性是依據用戶的搜索需求對搜索結果的一種符合用戶期望的排名。為了提高用戶對檢索系統(tǒng)的滿意度,考慮到查詢與文檔大多由名詞和動詞組成,而且在不同上下文中詞性可以起到語義消岐的作用;另外,考慮到文檔的不同字段具有不同的重要程度,因此詞位置加權將有效改進檢索系統(tǒng)的性能。由于默認的Lucene排序算法未考慮文檔不同字段、查詢詞詞性和詞性分布對檢索相關性排名的影響,因此在Lucene排序算法的基礎上,提出一種融合詞性與位置信息的改進算法。通過對比實驗分析,該改進算法能夠有效提升檢索系統(tǒng)的性能,相比默認的Lucene排名算法,準確率、召回率與F值都有不同程度的提升。
【文章來源】:電腦知識與技術. 2019,15(17)
【文章頁數】:4 頁
【部分圖文】:
Lucene算法改進前后準確率對比本欄目責任編輯:謝媛媛
本欄目責任編輯:謝媛媛軟件設計開發(fā)第15卷第17期(2019年6月)ComputerKnowledgeandTechnology電腦知識與技術圖2Lucene算法改進前后召回率對比圖3Lucene算法改進前后F值對比實驗結果分析:如圖1-3所示,Lucene算法在改進后,相比改進前準確率、召回率與F值都有不同程度的提高。改進后算法的性能在基于關鍵字和組合人名與關鍵字查詢上面表現(xiàn)很好,準確率、召回率、F值的提升空間都很大。但是對于基于人名的查詢上三種評價指標的上升幅度較小,這里考慮是分詞的影響。4總結與展望本文通過對Lucene默認評分算法進行分析,針對默認評分算法存在的不足進行改進。改進策略主要分為兩個方面,將詞性信息作為負載添加到Lucene默認算法的公式中;另外分析查詢字段的詞性分布,基于此為不同字段添加權重改進默認Lucene排序算法;考慮查詢詞出現(xiàn)在文檔的不同位置重要性的差別,改進Lucene默認評分算法。實驗結果表明,與Lucene默認排序算法相比改進后的排序算法的準確率、召回率和F值均有不同程度的提升。當然還存在一些缺點,例如負載信息的添加可能導致搜索引擎中存儲數據增加;另外每次查詢時需要先進行詞性分析,可能導致搜索實時性下降。下一步的工作就是優(yōu)化上述問題,以及研究不同的詞性分析方法,進一步提升檢索的相關性,以及研究如何減少檢索系統(tǒng)對分詞的依賴性。參考文獻:[1]CooperWS.GettingbeyondBoole.[J].InformationProcessing&Management,1988,24(3):243-248.[2]WuHC,LukRWP,WongKF,etal.InterpretingTF-IDFtermweightsasmakingrelevancedecisions[J].ACMTransactionsonInformationSystems,2008,26(3).[3]RobertsonS,ZaragozaH.Theprobab
【參考文獻】:
期刊論文
[1]融合位置相關和概率排序的Lucene排序算法改進[J]. 胡博,蔣宗禮. 計算機科學. 2016(09)
[2]詞性對中英文文本聚類的影響研究[J]. 韓普,王東波,劉艷云,蘇新寧. 中文信息學報. 2013(02)
[3]詞性標注對信息檢索系統(tǒng)性能的影響[J]. 蘇祺,昝紅英,胡景賀,項錕. 中文信息學報. 2005(02)
碩士論文
[1]基于Lucene的垂直搜索引擎研究與實現(xiàn)[D]. 胡博.北京工業(yè)大學 2016
[2]基于Lucene的搜索引擎優(yōu)化[D]. 聞崢.北京交通大學 2011
[3]詞性在漢語科技文獻檢索中的作用與影響[D]. 程彬彬.南京農業(yè)大學 2008
本文編號:3541509
【文章來源】:電腦知識與技術. 2019,15(17)
【文章頁數】:4 頁
【部分圖文】:
Lucene算法改進前后準確率對比本欄目責任編輯:謝媛媛
本欄目責任編輯:謝媛媛軟件設計開發(fā)第15卷第17期(2019年6月)ComputerKnowledgeandTechnology電腦知識與技術圖2Lucene算法改進前后召回率對比圖3Lucene算法改進前后F值對比實驗結果分析:如圖1-3所示,Lucene算法在改進后,相比改進前準確率、召回率與F值都有不同程度的提高。改進后算法的性能在基于關鍵字和組合人名與關鍵字查詢上面表現(xiàn)很好,準確率、召回率、F值的提升空間都很大。但是對于基于人名的查詢上三種評價指標的上升幅度較小,這里考慮是分詞的影響。4總結與展望本文通過對Lucene默認評分算法進行分析,針對默認評分算法存在的不足進行改進。改進策略主要分為兩個方面,將詞性信息作為負載添加到Lucene默認算法的公式中;另外分析查詢字段的詞性分布,基于此為不同字段添加權重改進默認Lucene排序算法;考慮查詢詞出現(xiàn)在文檔的不同位置重要性的差別,改進Lucene默認評分算法。實驗結果表明,與Lucene默認排序算法相比改進后的排序算法的準確率、召回率和F值均有不同程度的提升。當然還存在一些缺點,例如負載信息的添加可能導致搜索引擎中存儲數據增加;另外每次查詢時需要先進行詞性分析,可能導致搜索實時性下降。下一步的工作就是優(yōu)化上述問題,以及研究不同的詞性分析方法,進一步提升檢索的相關性,以及研究如何減少檢索系統(tǒng)對分詞的依賴性。參考文獻:[1]CooperWS.GettingbeyondBoole.[J].InformationProcessing&Management,1988,24(3):243-248.[2]WuHC,LukRWP,WongKF,etal.InterpretingTF-IDFtermweightsasmakingrelevancedecisions[J].ACMTransactionsonInformationSystems,2008,26(3).[3]RobertsonS,ZaragozaH.Theprobab
【參考文獻】:
期刊論文
[1]融合位置相關和概率排序的Lucene排序算法改進[J]. 胡博,蔣宗禮. 計算機科學. 2016(09)
[2]詞性對中英文文本聚類的影響研究[J]. 韓普,王東波,劉艷云,蘇新寧. 中文信息學報. 2013(02)
[3]詞性標注對信息檢索系統(tǒng)性能的影響[J]. 蘇祺,昝紅英,胡景賀,項錕. 中文信息學報. 2005(02)
碩士論文
[1]基于Lucene的垂直搜索引擎研究與實現(xiàn)[D]. 胡博.北京工業(yè)大學 2016
[2]基于Lucene的搜索引擎優(yōu)化[D]. 聞崢.北京交通大學 2011
[3]詞性在漢語科技文獻檢索中的作用與影響[D]. 程彬彬.南京農業(yè)大學 2008
本文編號:3541509
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3541509.html
教材專著