天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于特征選擇的排序?qū)W習(xí)算法研究

發(fā)布時(shí)間:2020-05-10 09:00
【摘要】:互聯(lián)網(wǎng)上每天都會(huì)產(chǎn)生海量數(shù)據(jù),累積起來的數(shù)據(jù)量達(dá)到上萬億個(gè)網(wǎng)頁之多,用戶需要通過檢索工具獲取相關(guān)信息,而檢索工具需要使用特定的計(jì)算機(jī)根據(jù)一定的策略先從互聯(lián)網(wǎng)上搜集信息,再完成對(duì)信息的組織和處理,最后才能提供相關(guān)的查詢服務(wù)。排序?qū)W習(xí)作為一個(gè)新興研究領(lǐng)域,已被證實(shí)能夠有效借助機(jī)器學(xué)習(xí)技巧處理用戶查詢數(shù)據(jù)的排序問題。然而大型的搜索系統(tǒng)必須快速的對(duì)用戶查詢做出響應(yīng),并且對(duì)候選文檔的特征的計(jì)算必須符合嚴(yán)格的后端延遲約束。就目前來看,以谷歌為代表的搜索引擎公司在做網(wǎng)頁排名時(shí),考慮的特征高達(dá)數(shù)百種,如果將所有特征用于構(gòu)建排序?qū)W習(xí)模型,其排序效率必然會(huì)大大降低,特征數(shù)量必須給出一定的限制,方能滿足越來越多的檢索次數(shù)和檢索內(nèi)容。利用特征選擇來找到滿足延遲需求的特性子集,使所訓(xùn)練的模型具有高效性顯得尤為必要;诖,本文主要包括如下內(nèi)容:首先,給出了本文的研究背景、國(guó)內(nèi)外研究現(xiàn)狀和研究思路。研究了排序?qū)W習(xí)的來龍去脈,概括性的對(duì)排序?qū)W習(xí)算法做了分類和描述,分析了用于信息檢索和排序?qū)W習(xí)的模型框架,并且在此基礎(chǔ)上介紹了本文所使用的排序?qū)W習(xí)所涉及的基本算法;再就是研究了特征選擇的基本流程、常用框架、基本分類以及評(píng)價(jià)準(zhǔn)則等。其次,特征選擇作為一種有效的數(shù)據(jù)降維手段,包含諸多優(yōu)勢(shì),能夠在訓(xùn)練集上識(shí)別最有效的相關(guān)特征子集,而這個(gè)特征子集可以被用來學(xué)習(xí)原有任務(wù)的模型。本文從此角度出發(fā),探索了特征選擇在排序?qū)W習(xí)上的應(yīng)用,并利用層次聚類的特性,將二者結(jié)合,首先從初始點(diǎn)選擇的角度,改進(jìn)了兩種基于過濾式的快速特征選擇算法,然后提出了一種新的快速特征選擇框架。在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)證明了所提算法的有效性,即要么能夠在較小特征子集上獲得較高的排序準(zhǔn)確率,要么在中等特征子集上獲得最好的排序準(zhǔn)確率。然后,同樣針對(duì)排序?qū)W習(xí)中存在無用特征的問題,提出一種封裝式特征選擇算法,在算法中考慮了特征選擇的兩種標(biāo)準(zhǔn),使得所選特征子集,不僅降低了目標(biāo)函數(shù)損失,而且減少了特征兩兩之間的總體相似度。該算法在排序任務(wù)中,利用皮爾森相關(guān)系數(shù)來度量特征之間的相似性,將該相似性加入到損失函數(shù)的懲罰項(xiàng)中,采用前向-后向貪婪算法選取重要特征。在三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上實(shí)驗(yàn)表明,該算法能夠通過優(yōu)化損失函數(shù),減少了兩個(gè)特征之間的相似性,從而選擇出最重要的特征,在較小特征子集上獲得高于過濾式的排序準(zhǔn)確率,其次與同類算法相比,獲得較好結(jié)果。最后,對(duì)全文做了總結(jié),概括了本文的主要內(nèi)容,給出了幾點(diǎn)關(guān)于特征選擇在排序?qū)W習(xí)上的思路,并且提出了下一步的研究方向和研究?jī)?nèi)容,描述了未來的研究趨勢(shì)。
【圖文】:

文本檢索,模型表示,相關(guān)性,工程碩士學(xué)位


蘭州交通大學(xué)工程碩士學(xué)位論文義所有文檔集合為 D ,用戶的一個(gè)查詢?yōu)閝,那么用戶在使用夠先從中選擇出與本次查詢相關(guān)的所有文檔,然后依據(jù)制定的行打分,越相關(guān)則得分越大,然后在以得分大小進(jìn)行排序,最現(xiàn)給用戶。那么排名任務(wù)可使用一個(gè)排名模型 f ( q,d)來排序這于相關(guān)性的檢索系統(tǒng):

學(xué)習(xí)模型


搜索引擎需要處理的數(shù)據(jù)量呈幾何倍數(shù)增長(zhǎng),人為的憑經(jīng)驗(yàn)其局限性顯得越來越大,如何進(jìn)行合理的參數(shù)調(diào)優(yōu)工作顯得越來越重要。往更偏重某一方面的因素也是已有經(jīng)典的模型的一些通性,而其他可以用要因素考慮較少,,比如說在概率模型和語言模型中都沒有考慮影響排序的頁 PageRank 值等互聯(lián)網(wǎng)內(nèi)在聯(lián)系的結(jié)構(gòu)。在此情況之下,越來越有必要序?qū)W習(xí)研究。序?qū)W習(xí)就是基于機(jī)器學(xué)習(xí)中用于解決分類與回歸問題的思想,利用機(jī)器學(xué)排序的問題[39]。從訓(xùn)練數(shù)據(jù)中自動(dòng)的學(xué)習(xí)得到一個(gè)排序函數(shù)是排序?qū)W習(xí)的函數(shù)的衡量標(biāo)準(zhǔn)包含了文本的多種信息,比如與文檔標(biāo)題的相關(guān)性、關(guān)鍵是否是同義詞替換等,這些信息對(duì)文本檢索起了極大的作用。其基本過程、數(shù)據(jù)清洗、學(xué)習(xí)模型、構(gòu)建模型、完成排序。機(jī)器學(xué)習(xí)的優(yōu)勢(shì)是:整合并自動(dòng)進(jìn)行參數(shù)調(diào)整,自動(dòng)學(xué)習(xí)最優(yōu)參數(shù),降低了只考慮單一或少量排序同時(shí),能夠通過眾多有效手段規(guī)避過擬合問題[23]。其結(jié)構(gòu)模型如圖 2.2 所
【學(xué)位授予單位】:蘭州交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP181

【參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 毛勇;周曉波;夏錚;尹征;孫優(yōu)賢;;特征選擇算法研究綜述[J];模式識(shí)別與人工智能;2007年02期

相關(guān)博士學(xué)位論文 前1條

1 林原;信息檢索中排序?qū)W習(xí)方法的研究[D];大連理工大學(xué);2012年



本文編號(hào):2657065

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2657065.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c2e44***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
亚洲欧美日韩在线看片| 日本一本在线免费福利| 日本在线高清精品人妻| 国产精品久久女同磨豆腐| 日韩18一区二区三区| 亚洲综合精品天堂夜夜| 好吊妞在线免费观看视频| 亚洲第一香蕉视频在线| 日韩国产亚洲欧美另类| 日本深夜福利在线播放| 日本午夜免费观看视频| 大香蕉伊人一区二区三区| 99久热只有精品视频最新| 欧美不卡高清一区二区三区| 91福利视频日本免费看看| 粉嫩内射av一区二区| 亚洲精品日韩欧美精品| 加勒比人妻精品一区二区| 亚洲欧美日韩在线看片 | 国产成人午夜在线视频| 99久久国产精品亚洲| 免费性欧美重口味黄色| 成年人黄片大全在线观看| 精品人妻一区二区四区| 久久亚洲成熟女人毛片| 男人操女人下面国产剧情| 国产一区二区三区口爆在线| 精品一区二区三区乱码中文| 夫妻激情视频一区二区三区 | 国产视频福利一区二区| 殴美女美女大码性淫生活在线播放| 99少妇偷拍视频在线| 亚洲国产性生活高潮免费视频| 日韩一区二区三区高清在| 国产日本欧美特黄在线观看| 亚洲一级二级三级精品| 国产又色又粗又黄又爽| 亚洲一区精品二人人爽久久| 黄色激情视频中文字幕| 亚洲中文在线男人的天堂| 日韩免费午夜福利视频|