基于XGBoost的搜索結(jié)果智能排序系統(tǒng)
發(fā)布時(shí)間:2021-11-10 00:09
針對(duì)傳統(tǒng)基于模型的搜索引擎排序及特征獲取慢、非數(shù)值特征處理復(fù)雜等問題,提出一種基于XGBoost的搜索結(jié)果智能排序模型;赬GBoost算法構(gòu)建排序模型,使用獨(dú)熱編碼和Apriori算法對(duì)非數(shù)值特征進(jìn)行處理和篩選,利用Redis對(duì)用戶和商家特征數(shù)據(jù)進(jìn)行緩存,通過并行預(yù)測(cè)的方式加快模型預(yù)測(cè)商家得分速度,最后利用XGBoost自帶的模型評(píng)價(jià)函數(shù)對(duì)最終訓(xùn)練出來的模型進(jìn)行評(píng)估,結(jié)果顯示模型預(yù)測(cè)準(zhǔn)確率為0.76,說明模型給符合用戶偏好的商家打出了較高的分?jǐn)?shù)。其中在訓(xùn)練集上的AUC為0.72,在測(cè)試集上的AUC為0.69,兩者相差不大,表明模型沒有出現(xiàn)明顯的過擬合現(xiàn)象,而且準(zhǔn)確率較高,可用于構(gòu)建商家排序模型。
【文章來源】:軟件導(dǎo)刊. 2019,18(12)
【文章頁數(shù)】:5 頁
【部分圖文】:
模型打分流程并行化方案
為了證明模型對(duì)搜索結(jié)果的提升效果,本文構(gòu)造實(shí)驗(yàn)對(duì)比系統(tǒng)在使用排序模型和不使用排序模型(使用Elasticsearch默認(rèn)的排序分?jǐn)?shù))情況下的搜索結(jié)果。如圖2所示,本文用一位在“Hotels&Travel”和“Transportation”標(biāo)簽下有過訪問數(shù)據(jù)的用戶的身份進(jìn)行搜索操作,模擬該用戶在多倫多市搜索“subway”。在不使用模型排序的情況下(圖2左界面),Elasticsearch召回10個(gè)結(jié)果,排名前八的都是“Subway”快餐店,而后面的是兩個(gè)“Subway Station”。在使用模型排序的情況下(圖2右界面),由于該用戶訪問過的商家中沒有“Fast Food”和“Restaurants”標(biāo)簽,雖然“Subway”快餐店對(duì)于“subway”這個(gè)查詢?cè)~來說是精準(zhǔn)匹配,但用戶經(jīng)常與具有“Hotels&Travel”和“Transportation”標(biāo)簽的商家進(jìn)行交互,所以在模型預(yù)測(cè)時(shí)給“Subway Station”的評(píng)分會(huì)較高,最終排序模型還是將兩個(gè)“Subway Station”排在了前面。
【參考文獻(xiàn)】:
期刊論文
[1]基于貝葉斯最優(yōu)化的Xgboost算法的改進(jìn)及應(yīng)用[J]. 李葉紫,王振友,周怡璐,韓曉卓. 廣東工業(yè)大學(xué)學(xué)報(bào). 2018(01)
[2]搜索引擎點(diǎn)擊模型綜述[J]. 王超,劉奕群,馬少平. 智能系統(tǒng)學(xué)報(bào). 2016(06)
[3]Redis數(shù)據(jù)庫特性分析[J]. 馬豫星. 物聯(lián)網(wǎng)技術(shù). 2015(03)
[4]基于線程池的多任務(wù)并行處理模型[J]. 高翔,張金登. 指揮信息系統(tǒng)與技術(shù). 2012(04)
[5]基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘Apriori算法的研究與應(yīng)用[J]. 郭濤,張代遠(yuǎn). 計(jì)算機(jī)技術(shù)與發(fā)展. 2011(06)
[6]關(guān)聯(lián)規(guī)則挖掘的Apriori算法綜述[J]. 趙洪英,蔡樂才,李先杰. 四川理工學(xué)院學(xué)報(bào)(自然科學(xué)版). 2011(01)
[7]基于AUC的分類器評(píng)價(jià)和設(shè)計(jì)綜述[J]. 汪云云,陳松燦. 模式識(shí)別與人工智能. 2011(01)
[8]基于Apriori算法的流量識(shí)別特征自動(dòng)提取方法[J]. 劉興彬,楊建華,謝高崗,胡玥. 通信學(xué)報(bào). 2008(12)
[9]幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J]. 單松巍,馮是聰,李曉明. 計(jì)算機(jī)工程與應(yīng)用. 2003(22)
[10]數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理[J]. 劉明吉,王秀峰,黃亞樓. 計(jì)算機(jī)科學(xué). 2000(04)
碩士論文
[1]Redis集群可靠性的研究與優(yōu)化[D]. 李燚.中國(guó)科學(xué)技術(shù)大學(xué) 2017
本文編號(hào):3486174
【文章來源】:軟件導(dǎo)刊. 2019,18(12)
【文章頁數(shù)】:5 頁
【部分圖文】:
模型打分流程并行化方案
為了證明模型對(duì)搜索結(jié)果的提升效果,本文構(gòu)造實(shí)驗(yàn)對(duì)比系統(tǒng)在使用排序模型和不使用排序模型(使用Elasticsearch默認(rèn)的排序分?jǐn)?shù))情況下的搜索結(jié)果。如圖2所示,本文用一位在“Hotels&Travel”和“Transportation”標(biāo)簽下有過訪問數(shù)據(jù)的用戶的身份進(jìn)行搜索操作,模擬該用戶在多倫多市搜索“subway”。在不使用模型排序的情況下(圖2左界面),Elasticsearch召回10個(gè)結(jié)果,排名前八的都是“Subway”快餐店,而后面的是兩個(gè)“Subway Station”。在使用模型排序的情況下(圖2右界面),由于該用戶訪問過的商家中沒有“Fast Food”和“Restaurants”標(biāo)簽,雖然“Subway”快餐店對(duì)于“subway”這個(gè)查詢?cè)~來說是精準(zhǔn)匹配,但用戶經(jīng)常與具有“Hotels&Travel”和“Transportation”標(biāo)簽的商家進(jìn)行交互,所以在模型預(yù)測(cè)時(shí)給“Subway Station”的評(píng)分會(huì)較高,最終排序模型還是將兩個(gè)“Subway Station”排在了前面。
【參考文獻(xiàn)】:
期刊論文
[1]基于貝葉斯最優(yōu)化的Xgboost算法的改進(jìn)及應(yīng)用[J]. 李葉紫,王振友,周怡璐,韓曉卓. 廣東工業(yè)大學(xué)學(xué)報(bào). 2018(01)
[2]搜索引擎點(diǎn)擊模型綜述[J]. 王超,劉奕群,馬少平. 智能系統(tǒng)學(xué)報(bào). 2016(06)
[3]Redis數(shù)據(jù)庫特性分析[J]. 馬豫星. 物聯(lián)網(wǎng)技術(shù). 2015(03)
[4]基于線程池的多任務(wù)并行處理模型[J]. 高翔,張金登. 指揮信息系統(tǒng)與技術(shù). 2012(04)
[5]基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘Apriori算法的研究與應(yīng)用[J]. 郭濤,張代遠(yuǎn). 計(jì)算機(jī)技術(shù)與發(fā)展. 2011(06)
[6]關(guān)聯(lián)規(guī)則挖掘的Apriori算法綜述[J]. 趙洪英,蔡樂才,李先杰. 四川理工學(xué)院學(xué)報(bào)(自然科學(xué)版). 2011(01)
[7]基于AUC的分類器評(píng)價(jià)和設(shè)計(jì)綜述[J]. 汪云云,陳松燦. 模式識(shí)別與人工智能. 2011(01)
[8]基于Apriori算法的流量識(shí)別特征自動(dòng)提取方法[J]. 劉興彬,楊建華,謝高崗,胡玥. 通信學(xué)報(bào). 2008(12)
[9]幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J]. 單松巍,馮是聰,李曉明. 計(jì)算機(jī)工程與應(yīng)用. 2003(22)
[10]數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理[J]. 劉明吉,王秀峰,黃亞樓. 計(jì)算機(jī)科學(xué). 2000(04)
碩士論文
[1]Redis集群可靠性的研究與優(yōu)化[D]. 李燚.中國(guó)科學(xué)技術(shù)大學(xué) 2017
本文編號(hào):3486174
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3486174.html
最近更新
教材專著