基于特征選擇的排序?qū)W習(xí)算法研究
發(fā)布時(shí)間:2020-05-10 09:00
【摘要】:互聯(lián)網(wǎng)上每天都會(huì)產(chǎn)生海量數(shù)據(jù),累積起來的數(shù)據(jù)量達(dá)到上萬億個(gè)網(wǎng)頁之多,用戶需要通過檢索工具獲取相關(guān)信息,而檢索工具需要使用特定的計(jì)算機(jī)根據(jù)一定的策略先從互聯(lián)網(wǎng)上搜集信息,再完成對(duì)信息的組織和處理,最后才能提供相關(guān)的查詢服務(wù)。排序?qū)W習(xí)作為一個(gè)新興研究領(lǐng)域,已被證實(shí)能夠有效借助機(jī)器學(xué)習(xí)技巧處理用戶查詢數(shù)據(jù)的排序問題。然而大型的搜索系統(tǒng)必須快速的對(duì)用戶查詢做出響應(yīng),并且對(duì)候選文檔的特征的計(jì)算必須符合嚴(yán)格的后端延遲約束。就目前來看,以谷歌為代表的搜索引擎公司在做網(wǎng)頁排名時(shí),考慮的特征高達(dá)數(shù)百種,如果將所有特征用于構(gòu)建排序?qū)W習(xí)模型,其排序效率必然會(huì)大大降低,特征數(shù)量必須給出一定的限制,方能滿足越來越多的檢索次數(shù)和檢索內(nèi)容。利用特征選擇來找到滿足延遲需求的特性子集,使所訓(xùn)練的模型具有高效性顯得尤為必要;诖,本文主要包括如下內(nèi)容:首先,給出了本文的研究背景、國(guó)內(nèi)外研究現(xiàn)狀和研究思路。研究了排序?qū)W習(xí)的來龍去脈,概括性的對(duì)排序?qū)W習(xí)算法做了分類和描述,分析了用于信息檢索和排序?qū)W習(xí)的模型框架,并且在此基礎(chǔ)上介紹了本文所使用的排序?qū)W習(xí)所涉及的基本算法;再就是研究了特征選擇的基本流程、常用框架、基本分類以及評(píng)價(jià)準(zhǔn)則等。其次,特征選擇作為一種有效的數(shù)據(jù)降維手段,包含諸多優(yōu)勢(shì),能夠在訓(xùn)練集上識(shí)別最有效的相關(guān)特征子集,而這個(gè)特征子集可以被用來學(xué)習(xí)原有任務(wù)的模型。本文從此角度出發(fā),探索了特征選擇在排序?qū)W習(xí)上的應(yīng)用,并利用層次聚類的特性,將二者結(jié)合,首先從初始點(diǎn)選擇的角度,改進(jìn)了兩種基于過濾式的快速特征選擇算法,然后提出了一種新的快速特征選擇框架。在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)證明了所提算法的有效性,即要么能夠在較小特征子集上獲得較高的排序準(zhǔn)確率,要么在中等特征子集上獲得最好的排序準(zhǔn)確率。然后,同樣針對(duì)排序?qū)W習(xí)中存在無用特征的問題,提出一種封裝式特征選擇算法,在算法中考慮了特征選擇的兩種標(biāo)準(zhǔn),使得所選特征子集,不僅降低了目標(biāo)函數(shù)損失,而且減少了特征兩兩之間的總體相似度。該算法在排序任務(wù)中,利用皮爾森相關(guān)系數(shù)來度量特征之間的相似性,將該相似性加入到損失函數(shù)的懲罰項(xiàng)中,采用前向-后向貪婪算法選取重要特征。在三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上實(shí)驗(yàn)表明,該算法能夠通過優(yōu)化損失函數(shù),減少了兩個(gè)特征之間的相似性,從而選擇出最重要的特征,在較小特征子集上獲得高于過濾式的排序準(zhǔn)確率,其次與同類算法相比,獲得較好結(jié)果。最后,對(duì)全文做了總結(jié),概括了本文的主要內(nèi)容,給出了幾點(diǎn)關(guān)于特征選擇在排序?qū)W習(xí)上的思路,并且提出了下一步的研究方向和研究?jī)?nèi)容,描述了未來的研究趨勢(shì)。
【圖文】:
蘭州交通大學(xué)工程碩士學(xué)位論文義所有文檔集合為 D ,用戶的一個(gè)查詢?yōu)閝,那么用戶在使用夠先從中選擇出與本次查詢相關(guān)的所有文檔,然后依據(jù)制定的行打分,越相關(guān)則得分越大,然后在以得分大小進(jìn)行排序,最現(xiàn)給用戶。那么排名任務(wù)可使用一個(gè)排名模型 f ( q,d)來排序這于相關(guān)性的檢索系統(tǒng):
搜索引擎需要處理的數(shù)據(jù)量呈幾何倍數(shù)增長(zhǎng),人為的憑經(jīng)驗(yàn)其局限性顯得越來越大,如何進(jìn)行合理的參數(shù)調(diào)優(yōu)工作顯得越來越重要。往更偏重某一方面的因素也是已有經(jīng)典的模型的一些通性,而其他可以用要因素考慮較少,,比如說在概率模型和語言模型中都沒有考慮影響排序的頁 PageRank 值等互聯(lián)網(wǎng)內(nèi)在聯(lián)系的結(jié)構(gòu)。在此情況之下,越來越有必要序?qū)W習(xí)研究。序?qū)W習(xí)就是基于機(jī)器學(xué)習(xí)中用于解決分類與回歸問題的思想,利用機(jī)器學(xué)排序的問題[39]。從訓(xùn)練數(shù)據(jù)中自動(dòng)的學(xué)習(xí)得到一個(gè)排序函數(shù)是排序?qū)W習(xí)的函數(shù)的衡量標(biāo)準(zhǔn)包含了文本的多種信息,比如與文檔標(biāo)題的相關(guān)性、關(guān)鍵是否是同義詞替換等,這些信息對(duì)文本檢索起了極大的作用。其基本過程、數(shù)據(jù)清洗、學(xué)習(xí)模型、構(gòu)建模型、完成排序。機(jī)器學(xué)習(xí)的優(yōu)勢(shì)是:整合并自動(dòng)進(jìn)行參數(shù)調(diào)整,自動(dòng)學(xué)習(xí)最優(yōu)參數(shù),降低了只考慮單一或少量排序同時(shí),能夠通過眾多有效手段規(guī)避過擬合問題[23]。其結(jié)構(gòu)模型如圖 2.2 所
【學(xué)位授予單位】:蘭州交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP181
本文編號(hào):2657065
【圖文】:
蘭州交通大學(xué)工程碩士學(xué)位論文義所有文檔集合為 D ,用戶的一個(gè)查詢?yōu)閝,那么用戶在使用夠先從中選擇出與本次查詢相關(guān)的所有文檔,然后依據(jù)制定的行打分,越相關(guān)則得分越大,然后在以得分大小進(jìn)行排序,最現(xiàn)給用戶。那么排名任務(wù)可使用一個(gè)排名模型 f ( q,d)來排序這于相關(guān)性的檢索系統(tǒng):
搜索引擎需要處理的數(shù)據(jù)量呈幾何倍數(shù)增長(zhǎng),人為的憑經(jīng)驗(yàn)其局限性顯得越來越大,如何進(jìn)行合理的參數(shù)調(diào)優(yōu)工作顯得越來越重要。往更偏重某一方面的因素也是已有經(jīng)典的模型的一些通性,而其他可以用要因素考慮較少,,比如說在概率模型和語言模型中都沒有考慮影響排序的頁 PageRank 值等互聯(lián)網(wǎng)內(nèi)在聯(lián)系的結(jié)構(gòu)。在此情況之下,越來越有必要序?qū)W習(xí)研究。序?qū)W習(xí)就是基于機(jī)器學(xué)習(xí)中用于解決分類與回歸問題的思想,利用機(jī)器學(xué)排序的問題[39]。從訓(xùn)練數(shù)據(jù)中自動(dòng)的學(xué)習(xí)得到一個(gè)排序函數(shù)是排序?qū)W習(xí)的函數(shù)的衡量標(biāo)準(zhǔn)包含了文本的多種信息,比如與文檔標(biāo)題的相關(guān)性、關(guān)鍵是否是同義詞替換等,這些信息對(duì)文本檢索起了極大的作用。其基本過程、數(shù)據(jù)清洗、學(xué)習(xí)模型、構(gòu)建模型、完成排序。機(jī)器學(xué)習(xí)的優(yōu)勢(shì)是:整合并自動(dòng)進(jìn)行參數(shù)調(diào)整,自動(dòng)學(xué)習(xí)最優(yōu)參數(shù),降低了只考慮單一或少量排序同時(shí),能夠通過眾多有效手段規(guī)避過擬合問題[23]。其結(jié)構(gòu)模型如圖 2.2 所
【學(xué)位授予單位】:蘭州交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP181
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 毛勇;周曉波;夏錚;尹征;孫優(yōu)賢;;特征選擇算法研究綜述[J];模式識(shí)別與人工智能;2007年02期
相關(guān)博士學(xué)位論文 前1條
1 林原;信息檢索中排序?qū)W習(xí)方法的研究[D];大連理工大學(xué);2012年
本文編號(hào):2657065
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2657065.html
最近更新
教材專著