天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于機(jī)器學(xué)習(xí)的搜索排序算法的研究

發(fā)布時(shí)間:2021-02-17 05:23
  近年來(lái),隨著計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,人類社會(huì)進(jìn)入一個(gè)信息爆炸的年代,人們每天都要面對(duì)海量的信息,用戶的需求也從獲取信息變?yōu)楦咝У墨@取有效信息,在這種時(shí)代背景下,信息檢索技術(shù)的不斷優(yōu)化也顯得尤為重要。機(jī)器學(xué)習(xí)作為新興技術(shù)已經(jīng)廣泛應(yīng)用于生活的各個(gè)方面,將機(jī)器學(xué)習(xí)和信息檢索技術(shù)結(jié)合是一種必然的趨勢(shì),二者結(jié)合產(chǎn)生的方法稱為學(xué)習(xí)排序方法。傳統(tǒng)的檢索技術(shù)無(wú)法挖掘復(fù)雜信息情況下特征的關(guān)聯(lián)性,而學(xué)習(xí)排序方法利用機(jī)器學(xué)習(xí)自主學(xué)習(xí)的特性,能夠很好的表征復(fù)雜特征間的關(guān)聯(lián)性。根據(jù)對(duì)文檔的不同處理,學(xué)習(xí)排序算法主要可以分為三類:單文檔方法、文檔對(duì)方法、文檔列表方法。本文旨在研究和改進(jìn)后兩類算法的代表算法,Rank Net算法和Lambda MART算法。損失函數(shù)一直是學(xué)習(xí)排序算法的關(guān)鍵,可以用來(lái)衡量模型預(yù)測(cè)值和真實(shí)值之間的不一致程度,其優(yōu)劣直接影響算法的性能。論文的研究工作主要包括以下三個(gè)方面:(1)論文從整體研究了信息檢索領(lǐng)域中搜索排序算法的發(fā)展歷程和研究現(xiàn)狀,對(duì)排序?qū)W習(xí)系統(tǒng)框架做了概要描述,其中對(duì)排序?qū)W習(xí)算法的分類和評(píng)價(jià)指標(biāo)做了詳細(xì)研究,為后面算法的研究改進(jìn)做鋪墊。(2)本文提出一種改進(jìn)損失函數(shù)的Ra... 

【文章來(lái)源】:南京郵電大學(xué)江蘇省

【文章頁(yè)數(shù)】:60 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于機(jī)器學(xué)習(xí)的搜索排序算法的研究


排序?qū)W習(xí)系統(tǒng)框架

曲線,損失函數(shù)


南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第二章排序?qū)W習(xí)相關(guān)基礎(chǔ)理論11圖2.2損失函數(shù)分類1.交叉熵?fù)p失函數(shù)交叉熵?fù)p失函數(shù)一般應(yīng)用于分類問(wèn)題上,表示預(yù)測(cè)樣本屬于哪一類的概率,表達(dá)式如下:))(1(log)1()(log))(,(22_xfyxfyxfyLentropycross(2.1)其中,y是真實(shí)分布的概率,xf)(是模型的預(yù)測(cè)概率,減少交叉熵就是提高模型預(yù)測(cè)的準(zhǔn)確率。2.平方損失函數(shù)平方損失函數(shù)也是一種常用的損失函數(shù),由于曲線光滑,所以可以使用梯度下降法來(lái)優(yōu)化。當(dāng)預(yù)測(cè)值與真實(shí)值相差越大時(shí),該損失函數(shù)的懲罰力度也越大,因此對(duì)于異常點(diǎn)比較敏感。表達(dá)式為:2yxfxfyL))(())(,(square(2.2)3.絕對(duì)值損失函數(shù)絕對(duì)值損失函數(shù)對(duì)預(yù)測(cè)值和真實(shí)值的差值取絕對(duì)值,差值不會(huì)被放大,所以絕對(duì)值損失函數(shù)對(duì)異常點(diǎn)具有更好的魯棒性。但是,絕對(duì)損失函數(shù)不光滑,在)(yxf處無(wú)法求導(dǎo)。表達(dá)式為:yxfxfyLabsolute)())(,((2.3)4.Huber損失函數(shù)Huber損失函數(shù)在)(yxf較小時(shí)為平方損失,在)(yxf較大的時(shí)采用線性損失,處處可導(dǎo),且對(duì)異常點(diǎn)魯棒。表達(dá)式為:

原理圖,原理圖,文檔,算法


南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第二章排序?qū)W習(xí)相關(guān)基礎(chǔ)理論13得到關(guān)于文檔集的一個(gè)偏序關(guān)系,從而實(shí)現(xiàn)文檔的排序。圖2.3是這類算法的原理圖。圖2.3對(duì)級(jí)排序原理圖此類常用的學(xué)習(xí)排序算法有RankBoost、RankingSVM、IRSVM、RankNet等,RankBoost算法以AdaBoost算法為基礎(chǔ),構(gòu)造排序模型時(shí)以提升方法來(lái)組合若干弱排序模型。RankingSVM算法是在構(gòu)造訓(xùn)練集樣本數(shù)據(jù)時(shí),將有序數(shù)據(jù)對(duì)的排序問(wèn)題轉(zhuǎn)化為二分類問(wèn)題,并利用應(yīng)用支持向量機(jī)方法去解決。RankingSVM存在兩個(gè)缺陷:一是檢索結(jié)果列表對(duì)排名前幾位的文檔的正確性過(guò)于依賴;二是相關(guān)文檔的數(shù)量變化隨檢索詞的改變而呈現(xiàn)差別。IRSVM算法基于RankingSVM算法,采用梯度下降法和二次規(guī)劃方法來(lái)優(yōu)化RankingSVM中的HingeLoss以解決上述兩個(gè)問(wèn)題。RankNet算法利用梯度下降的原理,構(gòu)造基于神經(jīng)網(wǎng)絡(luò)的模型,本文將在第三章詳細(xì)介紹RankNet算法。總的來(lái)說(shuō),Pairwise方法是對(duì)Pointwise方法的改進(jìn),取消相關(guān)度的獨(dú)立假設(shè),而是對(duì)所有文檔對(duì)進(jìn)行分類,進(jìn)而得到檢索文檔集的偏序關(guān)系。Pairwise類方法也存在一些缺陷:一是忽略了搜索列表中文檔的位置信息,僅考慮兩個(gè)文檔的先后順序;二是文檔對(duì)數(shù)的數(shù)量依賴于查詢?cè)~,導(dǎo)致檢索結(jié)果偏向于擁有文檔對(duì)數(shù)較多的查詢。2.2.3Listwise學(xué)習(xí)排序算法Listwise類[39]學(xué)習(xí)排序方法不同于上述的Pointwise方法以及Pairwise方法,直接對(duì)文檔的排序結(jié)果進(jìn)行優(yōu)化,不再將排序問(wèn)題化為分類或者回歸問(wèn)題。因此,該類方法的訓(xùn)練樣例都是一個(gè)查詢?cè)~所對(duì)應(yīng)的全部搜索結(jié)果的列表。目前Listwise類方法主要有兩種優(yōu)化排序結(jié)果的方法:一是定義損失函數(shù)[40],損失函數(shù)的構(gòu)造方法有很多種,如ListNet算法定義的損失函數(shù)為正確排序與預(yù)測(cè)排序的概率分布所存在的KL距離,即以交叉熵

【參考文獻(xiàn)】:
期刊論文
[1]基于學(xué)習(xí)排序的多分類標(biāo)簽排序方法研究[J]. 賀成誠(chéng),汪海濤,姜瑛,陳星.  計(jì)算機(jī)應(yīng)用與軟件. 2019(02)
[2]一種基于向量空間模型的信息檢索算法研究[J]. 毛軼績(jī).  通訊世界. 2018(09)
[3]排序?qū)W習(xí)研究進(jìn)展與展望[J]. 李金忠,劉關(guān)俊,閆春鋼,蔣昌俊.  自動(dòng)化學(xué)報(bào). 2018(08)
[4]基于主題與概率模型的非合作深網(wǎng)數(shù)據(jù)源選擇[J]. 鄧松,萬(wàn)常選.  軟件學(xué)報(bào). 2017 (12)
[5]基于ListMLE排序?qū)W習(xí)方法的機(jī)器譯文自動(dòng)評(píng)價(jià)研究[J]. 李茂西,江愛(ài)文,王明文.  中文信息學(xué)報(bào). 2013(04)
[6]梯度理論綜述[J]. 李國(guó)平,趙永超.  人文地理. 2008(01)
[7]布爾邏輯檢索模型的分析探討[J]. 劉紅泉,張亮峰.  現(xiàn)代情報(bào). 2004(09)
[8]激活函數(shù)對(duì)BP網(wǎng)絡(luò)性能的影響及其仿真研究[J]. 王雪光,郭艷兵,齊占慶.  自動(dòng)化技術(shù)與應(yīng)用. 2002(04)

碩士論文
[1]基于半監(jiān)督學(xué)習(xí)的網(wǎng)頁(yè)搜索排序研究[D]. 李明琦.哈爾濱工業(yè)大學(xué) 2019
[2]支持復(fù)雜神經(jīng)網(wǎng)絡(luò)模型并行訓(xùn)練的資源分配算法優(yōu)化[D]. 劉君楠.中國(guó)科學(xué)技術(shù)大學(xué) 2019
[3]基于短文本(句子級(jí))的情感分類研究[D]. 張林.吉林大學(xué) 2019
[4]基于深度學(xué)習(xí)的脫落細(xì)胞分類識(shí)別應(yīng)用[D]. 李振宇.山東師范大學(xué) 2019
[5]智能音箱中自然語(yǔ)言語(yǔ)義理解算法的研究[D]. 孫夢(mèng)楠.湖南大學(xué) 2018
[6]基于RankBoost排序算法的表情程度估計(jì)與識(shí)別的研究[D]. 任悅.北京郵電大學(xué) 2018
[7]RankNet學(xué)習(xí)排序算法的一種改進(jìn)[D]. 祁洋.吉林大學(xué) 2017
[8]基于機(jī)器學(xué)習(xí)的個(gè)性化信息檢索的研究[D]. 金眾威.吉林大學(xué) 2017
[9]基于spark的lambdaMart算法研究[D]. 梁江林.北京郵電大學(xué) 2017
[10]基于排序?qū)W習(xí)的多供應(yīng)商組合選擇研究[D]. 句曉東.燕山大學(xué) 2015



本文編號(hào):3037493

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3037493.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶11d61***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com