基于XGBoost的搜索結(jié)果智能排序系統(tǒng)

發(fā)布時(shí)間：2021-11-10 00:09

　　針對(duì)傳統(tǒng)基于模型的搜索引擎排序及特征獲取慢、非數(shù)值特征處理復(fù)雜等問題,提出一種基于XGBoost的搜索結(jié)果智能排序模型�；赬GBoost算法構(gòu)建排序模型,使用獨(dú)熱編碼和Apriori算法對(duì)非數(shù)值特征進(jìn)行處理和篩選,利用Redis對(duì)用戶和商家特征數(shù)據(jù)進(jìn)行緩存,通過并行預(yù)測(cè)的方式加快模型預(yù)測(cè)商家得分速度,最后利用XGBoost自帶的模型評(píng)價(jià)函數(shù)對(duì)最終訓(xùn)練出來的模型進(jìn)行評(píng)估,結(jié)果顯示模型預(yù)測(cè)準(zhǔn)確率為0.76,說明模型給符合用戶偏好的商家打出了較高的分?jǐn)?shù)。其中在訓(xùn)練集上的AUC為0.72,在測(cè)試集上的AUC為0.69,兩者相差不大,表明模型沒有出現(xiàn)明顯的過擬合現(xiàn)象,而且準(zhǔn)確率較高,可用于構(gòu)建商家排序模型。

【文章來源】：軟件導(dǎo)刊. 2019,18(12)

【文章頁數(shù)】：5 頁

【部分圖文】：

模型打分流程并行化方案

效果圖,模型,效果,快餐店

為了證明模型對(duì)搜索結(jié)果的提升效果，本文構(gòu)造實(shí)驗(yàn)對(duì)比系統(tǒng)在使用排序模型和不使用排序模型（使用Elasticsearch默認(rèn)的排序分?jǐn)?shù)）情況下的搜索結(jié)果。如圖2所示，本文用一位在“Hotels&Travel”和“Transportation”標(biāo)簽下有過訪問數(shù)據(jù)的用戶的身份進(jìn)行搜索操作，模擬該用戶在多倫多市搜索“subway”。在不使用模型排序的情況下（圖2左界面），Elasticsearch召回10個(gè)結(jié)果，排名前八的都是“Subway”快餐店，而后面的是兩個(gè)“Subway Station”。在使用模型排序的情況下（圖2右界面），由于該用戶訪問過的商家中沒有“Fast Food”和“Restaurants”標(biāo)簽，雖然“Subway”快餐店對(duì)于“subway”這個(gè)查詢?cè)~來說是精準(zhǔn)匹配，但用戶經(jīng)常與具有“Hotels&Travel”和“Transportation”標(biāo)簽的商家進(jìn)行交互，所以在模型預(yù)測(cè)時(shí)給“Subway Station”的評(píng)分會(huì)較高，最終排序模型還是將兩個(gè)“Subway Station”排在了前面。

【參考文獻(xiàn)】：
期刊論文
[1]基于貝葉斯最優(yōu)化的Xgboost算法的改進(jìn)及應(yīng)用[J]. 李葉紫,王振友,周怡璐,韓曉卓.  廣東工業(yè)大學(xué)學(xué)報(bào). 2018(01)
[2]搜索引擎點(diǎn)擊模型綜述[J]. 王超,劉奕群,馬少平.  智能系統(tǒng)學(xué)報(bào). 2016(06)
[3]Redis數(shù)據(jù)庫特性分析[J]. 馬豫星.  物聯(lián)網(wǎng)技術(shù). 2015(03)
[4]基于線程池的多任務(wù)并行處理模型[J]. 高翔,張金登.  指揮信息系統(tǒng)與技術(shù). 2012(04)
[5]基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘Apriori算法的研究與應(yīng)用[J]. 郭濤,張代遠(yuǎn).  計(jì)算機(jī)技術(shù)與發(fā)展. 2011(06)
[6]關(guān)聯(lián)規(guī)則挖掘的Apriori算法綜述[J]. 趙洪英,蔡樂才,李先杰.  四川理工學(xué)院學(xué)報(bào)(自然科學(xué)版). 2011(01)
[7]基于AUC的分類器評(píng)價(jià)和設(shè)計(jì)綜述[J]. 汪云云,陳松燦.  模式識(shí)別與人工智能. 2011(01)
[8]基于Apriori算法的流量識(shí)別特征自動(dòng)提取方法[J]. 劉興彬,楊建華,謝高崗,胡玥.  通信學(xué)報(bào). 2008(12)
[9]幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J]. 單松巍,馮是聰,李曉明.  計(jì)算機(jī)工程與應(yīng)用. 2003(22)
[10]數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理[J]. 劉明吉,王秀峰,黃亞樓.  計(jì)算機(jī)科學(xué). 2000(04)

碩士論文
[1]Redis集群可靠性的研究與優(yōu)化[D]. 李燚.中國(guó)科學(xué)技術(shù)大學(xué) 2017

本文編號(hào)：3486174

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3486174.html

上一篇：消費(fèi)者關(guān)系就醫(yī)意愿影響因素研究
下一篇：歐盟報(bào)刊出版商鄰接權(quán)問題研究——兼評(píng)我國(guó)的立法借鑒

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于XGBoost的搜索結(jié)果智能排序系統(tǒng)