基于特征選擇的排序?qū)W習(xí)算法研究

發(fā)布時(shí)間：2020-05-10 09:00

【摘要】：互聯(lián)網(wǎng)上每天都會(huì)產(chǎn)生海量數(shù)據(jù),累積起來的數(shù)據(jù)量達(dá)到上萬億個(gè)網(wǎng)頁(yè)之多,用戶需要通過檢索工具獲取相關(guān)信息,而檢索工具需要使用特定的計(jì)算機(jī)根據(jù)一定的策略先從互聯(lián)網(wǎng)上搜集信息,再完成對(duì)信息的組織和處理,最后才能提供相關(guān)的查詢服務(wù)。排序?qū)W習(xí)作為一個(gè)新興研究領(lǐng)域,已被證實(shí)能夠有效借助機(jī)器學(xué)習(xí)技巧處理用戶查詢數(shù)據(jù)的排序問題。然而大型的搜索系統(tǒng)必須快速的對(duì)用戶查詢做出響應(yīng),并且對(duì)候選文檔的特征的計(jì)算必須符合嚴(yán)格的后端延遲約束。就目前來看,以谷歌為代表的搜索引擎公司在做網(wǎng)頁(yè)排名時(shí),考慮的特征高達(dá)數(shù)百種,如果將所有特征用于構(gòu)建排序?qū)W習(xí)模型,其排序效率必然會(huì)大大降低,特征數(shù)量必須給出一定的限制,方能滿足越來越多的檢索次數(shù)和檢索內(nèi)容。利用特征選擇來找到滿足延遲需求的特性子集,使所訓(xùn)練的模型具有高效性顯得尤為必要�；诖�,本文主要包括如下內(nèi)容:首先,給出了本文的研究背景、國(guó)內(nèi)外研究現(xiàn)狀和研究思路。研究了排序?qū)W習(xí)的來龍去脈,概括性的對(duì)排序?qū)W習(xí)算法做了分類和描述,分析了用于信息檢索和排序?qū)W習(xí)的模型框架,并且在此基礎(chǔ)上介紹了本文所使用的排序?qū)W習(xí)所涉及的基本算法;再就是研究了特征選擇的基本流程、常用框架、基本分類以及評(píng)價(jià)準(zhǔn)則等。其次,特征選擇作為一種有效的數(shù)據(jù)降維手段,包含諸多優(yōu)勢(shì),能夠在訓(xùn)練集上識(shí)別最有效的相關(guān)特征子集,而這個(gè)特征子集可以被用來學(xué)習(xí)原有任務(wù)的模型。本文從此角度出發(fā),探索了特征選擇在排序?qū)W習(xí)上的應(yīng)用,并利用層次聚類的特性,將二者結(jié)合,首先從初始點(diǎn)選擇的角度,改進(jìn)了兩種基于過濾式的快速特征選擇算法,然后提出了一種新的快速特征選擇框架。在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)證明了所提算法的有效性,即要么能夠在較小特征子集上獲得較高的排序準(zhǔn)確率,要么在中等特征子集上獲得最好的排序準(zhǔn)確率。然后,同樣針對(duì)排序?qū)W習(xí)中存在無用特征的問題,提出一種封裝式特征選擇算法,在算法中考慮了特征選擇的兩種標(biāo)準(zhǔn),使得所選特征子集,不僅降低了目標(biāo)函數(shù)損失,而且減少了特征兩兩之間的總體相似度。該算法在排序任務(wù)中,利用皮爾森相關(guān)系數(shù)來度量特征之間的相似性,將該相似性加入到損失函數(shù)的懲罰項(xiàng)中,采用前向-后向貪婪算法選取重要特征。在三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上實(shí)驗(yàn)表明,該算法能夠通過優(yōu)化損失函數(shù),減少了兩個(gè)特征之間的相似性,從而選擇出最重要的特征,在較小特征子集上獲得高于過濾式的排序準(zhǔn)確率,其次與同類算法相比,獲得較好結(jié)果。最后,對(duì)全文做了總結(jié),概括了本文的主要內(nèi)容,給出了幾點(diǎn)關(guān)于特征選擇在排序?qū)W習(xí)上的思路,并且提出了下一步的研究方向和研究?jī)?nèi)容,描述了未來的研究趨勢(shì)。
【圖文】：

文本檢索,模型表示,相關(guān)性,工程碩士學(xué)位

蘭州交通大學(xué)工程碩士學(xué)位論文義所有文檔集合為 D ，用戶的一個(gè)查詢?yōu)閝，那么用戶在使用夠先從中選擇出與本次查詢相關(guān)的所有文檔，然后依據(jù)制定的行打分，越相關(guān)則得分越大，然后在以得分大小進(jìn)行排序，最現(xiàn)給用戶。那么排名任務(wù)可使用一個(gè)排名模型 f ( q,d)來排序這于相關(guān)性的檢索系統(tǒng)：

學(xué)習(xí)模型

搜索引擎需要處理的數(shù)據(jù)量呈幾何倍數(shù)增長(zhǎng)，人為的憑經(jīng)驗(yàn)其局限性顯得越來越大，如何進(jìn)行合理的參數(shù)調(diào)優(yōu)工作顯得越來越重要。往更偏重某一方面的因素也是已有經(jīng)典的模型的一些通性，而其他可以用要因素考慮較少，，比如說在概率模型和語(yǔ)言模型中都沒有考慮影響排序的頁(yè) PageRank 值等互聯(lián)網(wǎng)內(nèi)在聯(lián)系的結(jié)構(gòu)。在此情況之下，越來越有必要序?qū)W習(xí)研究。序?qū)W習(xí)就是基于機(jī)器學(xué)習(xí)中用于解決分類與回歸問題的思想，利用機(jī)器學(xué)排序的問題[39]。從訓(xùn)練數(shù)據(jù)中自動(dòng)的學(xué)習(xí)得到一個(gè)排序函數(shù)是排序?qū)W習(xí)的函數(shù)的衡量標(biāo)準(zhǔn)包含了文本的多種信息，比如與文檔標(biāo)題的相關(guān)性、關(guān)鍵是否是同義詞替換等，這些信息對(duì)文本檢索起了極大的作用。其基本過程、數(shù)據(jù)清洗、學(xué)習(xí)模型、構(gòu)建模型、完成排序。機(jī)器學(xué)習(xí)的優(yōu)勢(shì)是：整合并自動(dòng)進(jìn)行參數(shù)調(diào)整，自動(dòng)學(xué)習(xí)最優(yōu)參數(shù)，降低了只考慮單一或少量排序同時(shí)，能夠通過眾多有效手段規(guī)避過擬合問題[23]。其結(jié)構(gòu)模型如圖 2.2 所
【學(xué)位授予單位】：蘭州交通大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2018
【分類號(hào)】：TP181

【參考文獻(xiàn)】

相關(guān)期刊論文前1條

1 毛勇;周曉波;夏錚;尹征;孫優(yōu)賢;;特征選擇算法研究綜述[J];模式識(shí)別與人工智能;2007年02期

相關(guān)博士學(xué)位論文前1條

1 林原;信息檢索中排序?qū)W習(xí)方法的研究[D];大連理工大學(xué);2012年

本文編號(hào)：2657065

資料下載

論文發(fā)表

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2657065.html

上一篇：全基因組單核苷酸多態(tài)性交互作用識(shí)別方法研究
下一篇：基于Hi3516A的HDMI顯微自動(dòng)對(duì)焦相機(jī)的設(shè)計(jì)與實(shí)現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于特征選擇的排序?qū)W習(xí)算法研究