天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于文檔間相似性的Top-k排序?qū)W習(xí)方法

發(fā)布時(shí)間:2017-06-04 00:16

  本文關(guān)鍵詞:基于文檔間相似性的Top-k排序?qū)W習(xí)方法,由筆耕文化傳播整理發(fā)布。


【摘要】:現(xiàn)在隨著人們對互聯(lián)網(wǎng)上的信息需求越來越大,能夠準(zhǔn)確快捷的獲取到信息已經(jīng)成為了搜索引擎研究方面的熱點(diǎn)問題。在這其中,排序成為了搜索引擎技術(shù)中至關(guān)重要的一環(huán)。為了使得用戶滿意度提高,勢必就要提高返回結(jié)果的精度,把最為相關(guān)的若干頁面返回給用戶。如何實(shí)現(xiàn)這一目的便成為了對搜索引擎研究的熱點(diǎn),最近若干年最為流行的熱點(diǎn)方法便是將搜索引擎中的排序過程使用機(jī)器學(xué)習(xí)的方法來研究解決,這是由于影響排序結(jié)果的特征因素十分繁雜,將這些因素都考慮進(jìn)去勢必會(huì)得到一個(gè)更加合理的排序結(jié)果。這種方法也就是Learning to Rank方法。 在實(shí)際應(yīng)用中如信息檢索,推薦系統(tǒng)或者計(jì)算廣告等,對于大部分用戶來說,主要關(guān)心的是排序比較靠前的若干個(gè)結(jié)果,而對于排名靠后的結(jié)果,其準(zhǔn)確度是可以適當(dāng)忽略的。也就是說,靠前的若干結(jié)果對于用戶的用戶體驗(yàn)和滿意度來說,這些結(jié)果是至關(guān)重要的。由此,一種叫做Top-k排序的排序方法被提出來解決上述要求。 本課題在前人提出的模型的基礎(chǔ)上加以改進(jìn),首先是在層次Top-k排序模型中加入了文檔之間的相似性信息,這樣一來,,模型在對Top-k數(shù)據(jù)建模的過程中考慮了文檔之間的相似性,并不是把文檔看做是互相獨(dú)立不相關(guān)的,而是有聯(lián)系的。我們將文檔之間的相似性作為每個(gè)文檔打分的加權(quán)加到對其他文檔的打分中。這樣一來便能充分利用這些附加的信息為我們的Top-k排序算法服務(wù),使得最終的排序結(jié)果得以改進(jìn)。 當(dāng)加入文檔之間的相似性得到新的模型后,本課題又提出了不使用重新設(shè)計(jì)損失函數(shù)并令其最小化而直接使用對排序概率進(jìn)行最大化的方法來對模型參數(shù)進(jìn)行優(yōu)化,這樣做的結(jié)果是使得訓(xùn)練模型的運(yùn)算量大大降低,從組合級(jí)別降至多項(xiàng)式級(jí)別。這樣一來使得本課題提出的方法具有了現(xiàn)實(shí)的意義與應(yīng)用的價(jià)值。 而后又結(jié)合實(shí)驗(yàn)結(jié)果對Top-k模型進(jìn)行了改進(jìn),由于原Top-k層次模型在第一層過程中有不少本應(yīng)排在前k個(gè)位置上的文檔被錯(cuò)誤的放到位置k以后。這樣導(dǎo)致的問題是:由于第一層結(jié)束后模型提供給第二層的信息存在缺陷,所以不管第二層過程算法再復(fù)雜,使用的附加信息更多,對整體Top-k的排序效果也不會(huì)提高,基于這點(diǎn)。本課題將第一層過程中進(jìn)行計(jì)算時(shí)的k適當(dāng)增大,但仍然相對于整個(gè)相關(guān)性文檔集合N來說仍然很小。這樣做便使得第一層過程之后,真正處在前k個(gè)位置的文檔比例增加,第二層再用比較復(fù)雜的算法進(jìn)行排序時(shí),準(zhǔn)確度大幅提高。
【關(guān)鍵詞】:機(jī)器學(xué)習(xí) 排序?qū)W習(xí) Top-k 向量空間模型 文檔相似性 NDCG
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP181;TP391.3
【目錄】:
  • 摘要4-6
  • Abstract6-10
  • 第1章 緒論10-16
  • 1.1 課題背景10-12
  • 1.2 研究目的和意義12-13
  • 1.3 國內(nèi)外相關(guān)技術(shù)研究現(xiàn)狀13-14
  • 1.4 本文主要研究內(nèi)容與結(jié)構(gòu)組織14-16
  • 第2章 相關(guān)技術(shù)概述16-26
  • 2.1 引言16
  • 2.2 傳統(tǒng)排序模型16-19
  • 2.2.1 基于內(nèi)容相關(guān)性排序模型17-18
  • 2.2.2 基于重要性的排序模型18-19
  • 2.3 排序?qū)W習(xí)技術(shù)19-22
  • 2.3.1 Pointwise 方法20
  • 2.3.2 Pairwise 方法20-21
  • 2.3.3 Listwise 方法21-22
  • 2.3.4 排序?qū)W習(xí)主要的評(píng)測標(biāo)準(zhǔn)22
  • 2.4 Top-k 排序問題22-25
  • 2.4.1 Top-k 排序問題的主要策略23
  • 2.4.2 Top-k 排序問題的評(píng)價(jià)方法23-25
  • 2.5 本章小結(jié)25-26
  • 第3章 基于文檔相似性的 Top-k 排序模型構(gòu)建26-39
  • 3.1 引言26
  • 3.2 向量空間模型 VSM26-27
  • 3.3 梯度下降方法27-28
  • 3.4 相似性圖28-30
  • 3.5 排序函數(shù)的相似性調(diào)整30-31
  • 3.6 Top-k 排序?qū)W習(xí)算法31-34
  • 3.6.1 基本的 Top-k 排序?qū)W習(xí)算法損失函數(shù)31-32
  • 3.6.2 層次的 Top-k 排序?qū)W習(xí)方法32-34
  • 3.7 構(gòu)建基于文本相似性的 Top-k 排序?qū)W習(xí)模型34-38
  • 3.7.1 交叉熵?fù)p失函數(shù)35-36
  • 3.7.2 基于文本相似性的 Top-k 排序?qū)W習(xí)算法模型36-37
  • 3.7.3 算法模型的優(yōu)化方法37-38
  • 3.8 本章小結(jié)38-39
  • 第4章 實(shí)驗(yàn)結(jié)果與對比分析39-52
  • 4.1 引言39
  • 4.2 實(shí)驗(yàn)數(shù)據(jù)39-44
  • 4.2.1 MQ2007-list MQ2008-list41-42
  • 4.2.2 MQ2007-simi MQ2008-simi42
  • 4.2.3 文檔相似性數(shù)據(jù)集的制作42-43
  • 4.2.4 試驗(yàn)設(shè)置43-44
  • 4.3 評(píng)價(jià)方法44
  • 4.4 實(shí)驗(yàn)流程圖44-45
  • 4.5 實(shí)驗(yàn)結(jié)果45-51
  • 4.5.1 實(shí)驗(yàn)結(jié)果對比分析45-49
  • 4.5.2 不同集合 T 的大小對排序結(jié)果的影響49-51
  • 4.6 本章小結(jié)51-52
  • 結(jié)論52-53
  • 參考文獻(xiàn)53-57
  • 攻讀碩士學(xué)位期間發(fā)表的論文及其它成果57-59
  • 致謝59

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 陳文;基于決策樹的入侵檢測的實(shí)現(xiàn)[J];安徽技術(shù)師范學(xué)院學(xué)報(bào);2005年05期

2 彭莉芬;陳俊生;胡學(xué)鋼;;基于粗糙集決策樹算法的研究[J];安慶師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2012年01期

3 趙玉鵬;;論機(jī)器學(xué)習(xí)[J];安陽工學(xué)院學(xué)報(bào);2011年04期

4 孫雪;李昆侖;胡夕坤;趙瑞;;基于半監(jiān)督K-means的K值全局尋優(yōu)算法[J];北京交通大學(xué)學(xué)報(bào);2009年06期

5 趙勇;劉凱;;數(shù)字挖掘方法在遙感分類中的應(yīng)用研究[J];北京測繪;2009年03期

6 沈奕,滑峰,劉椿年;基于GDT的對FOIL系統(tǒng)的改進(jìn)[J];北京工業(yè)大學(xué)學(xué)報(bào);2005年02期

7 朱青;劉宇輝;;一種面向領(lǐng)域的組件質(zhì)量度量算法[J];北京工業(yè)大學(xué)學(xué)報(bào);2007年01期

8 陳陽舟;黃旭;代桂平;;基于新的狀態(tài)劃分的多機(jī)器人圍捕策略[J];北京工業(yè)大學(xué)學(xué)報(bào);2010年08期

9 張瑞華;周延泉;王樅;李蕾;;移動(dòng)終端離線瀏覽系統(tǒng)的新聞推薦服務(wù)研究[J];北京郵電大學(xué)學(xué)報(bào);2006年06期

10 楊種學(xué);;基于回歸技術(shù)商品銷售趨勢預(yù)測模型的實(shí)現(xiàn)[J];保山師專學(xué)報(bào);2009年05期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前8條

1 張敏;陸向艷;周敏;潘林琳;農(nóng)冬冬;王彬彬;陳曉江;;數(shù)據(jù)挖掘在智能題庫系統(tǒng)中的應(yīng)用[A];廣西計(jì)算機(jī)學(xué)會(huì)2004年學(xué)術(shù)年會(huì)論文集[C];2004年

2 馬玉蓮;王宇冬;王鑫;;基于解釋的分類算法[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2007年

3 杜琳;石慧;劉曉平;;一種基于Q學(xué)習(xí)的任務(wù)調(diào)度算法的改進(jìn)研究[A];全國第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集(上冊)[C];2009年

4 吳佳金;楊志豪;林原;林鴻飛;;基于改進(jìn)Pairwise損失函數(shù)的排序?qū)W習(xí)方法[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

5 劉汝佳;孫增圻;;RoboCup救援仿真組中火勢蔓延的DBN模型[A];2007年足球機(jī)器人大會(huì)論文集[C];2007年

6 馮旭祥;王萬玉;張寶全;;遙感衛(wèi)星接收系統(tǒng)的故障診斷技術(shù)綜述[A];中國空間科學(xué)學(xué)會(huì)空間探測專業(yè)委員會(huì)第二十六屆全國空間探測學(xué)術(shù)研討會(huì)會(huì)議論文集[C];2013年

7 許明;吳建平;杜怡曼;謝峰;肖云鵬;;基于三部圖的路網(wǎng)節(jié)點(diǎn)關(guān)鍵度排序方法[A];2013年全國通信軟件學(xué)術(shù)會(huì)議論文集[C];2013年

8 紀(jì)雪梅;王芳;;在線社交網(wǎng)絡(luò)用戶情感傳播研究[A];2013中國信息經(jīng)濟(jì)學(xué)會(huì)學(xué)術(shù)年會(huì)暨博士生論壇論文集[C];2013年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 全惠敏;電能質(zhì)量相關(guān)信號(hào)的S變換檢測算法及應(yīng)用研究[D];湖南大學(xué);2010年

2 何因;排序?qū)W習(xí)中基于直接優(yōu)化信息檢索評(píng)價(jià)準(zhǔn)則算法的理論分析[D];中國科學(xué)技術(shù)大學(xué);2010年

3 高山;蛋白質(zhì)點(diǎn)突變效果預(yù)測與突變數(shù)據(jù)庫研究[D];南開大學(xué);2010年

4 曹葵康;支持向量機(jī)加速方法及應(yīng)用研究[D];浙江大學(xué);2010年

5 林龍信;仿生水下機(jī)器人的增強(qiáng)學(xué)習(xí)控制方法研究[D];國防科學(xué)技術(shù)大學(xué);2010年

6 杜偉;機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用研究[D];吉林大學(xué);2011年

7 聶黎;基于基因表達(dá)式編程的車間動(dòng)態(tài)調(diào)度方法研究[D];華中科技大學(xué);2011年

8 蔡鵬;排序?qū)W習(xí)中的領(lǐng)域自適應(yīng)研究[D];華東師范大學(xué);2011年

9 楊抒;基于WEB的林產(chǎn)品信息資源整合方法研究[D];北京林業(yè)大學(xué);2011年

10 黃靜華;支持向量機(jī)算法研究及在氣象數(shù)據(jù)挖掘中的應(yīng)用[D];中國礦業(yè)大學(xué)(北京);2011年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 李金華;基于SVM的多類文本分類研究[D];山東科技大學(xué);2010年

2 韓曉峰;高斯混合模型及在探測網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)中的應(yīng)用[D];山東科技大學(xué);2010年

3 楊勇;基于SOA的浙江永康某小家電企業(yè)應(yīng)用系統(tǒng)集成平臺(tái)開發(fā)與應(yīng)用[D];浙江理工大學(xué);2010年

4 王利明;一種基于PMIPv6的智能輔助高效切換方案[D];鄭州大學(xué);2010年

5 左維松;規(guī)則和統(tǒng)計(jì)相結(jié)合的篇章情感傾向性分析研究[D];鄭州大學(xué);2010年

6 吳迪;高校畢業(yè)生就業(yè)推薦系統(tǒng)的設(shè)計(jì)與開發(fā)[D];大連理工大學(xué);2010年

7 安波;基于蛋白質(zhì)關(guān)系網(wǎng)絡(luò)的蛋白質(zhì)絡(luò)合物抽取研究[D];大連理工大學(xué);2010年

8 蔣延生;基于圖的適應(yīng)性相似度估算的半監(jiān)督學(xué)習(xí)[D];大連理工大學(xué);2010年

9 周翔;決策支持技術(shù)在企業(yè)銷售系統(tǒng)中的應(yīng)用研究[D];中國海洋大學(xué);2010年

10 劉偉麗;基于粒子群算法和支持向量機(jī)的中文文本分類研究[D];河南工業(yè)大學(xué);2010年


  本文關(guān)鍵詞:基于文檔間相似性的Top-k排序?qū)W習(xí)方法,由筆耕文化傳播整理發(fā)布。



本文編號(hào):419579

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/419579.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶17a36***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
国产三级黄片在线免费看| 日本熟妇熟女久久综合| 免费观看潮喷到高潮大叫| 亚洲一区二区福利在线| 国产内射一级一片内射高清视频 | 久久三级国外久久久三级| 亚洲一级在线免费观看| 国产欧洲亚洲日产一区二区| 男女午夜福利院在线观看| 久久热麻豆国产精品视频| 亚洲妇女作爱一区二区三区| 91久久精品国产一区蜜臀| 欧美亚洲另类久久久精品| 日韩一区二区免费在线观看| 午夜午夜精品一区二区| 国产av一区二区三区麻豆| 少妇人妻精品一区二区三区| 日本高清视频在线播放| 亚洲av日韩一区二区三区四区| 欧美日韩黑人免费观看| 久久香蕉综合网精品视频| 性欧美唯美尤物另类视频| 欧美日韩欧美国产另类| 九九热最新视频免费观看| 亚洲国产色婷婷久久精品| 九九热视频网在线观看| 欧美日韩有码一二三区| 又黄又爽禁片视频在线观看| 爱草草在线观看免费视频| 午夜福利大片亚洲一区| 亚洲国产精品av在线观看| 不卡一区二区在线视频| 人妻乱近亲奸中文字幕| 国产欧美日产中文一区| 一二区中文字幕在线观看| 99久久精品国产麻豆| 国产av大片一区二区三区| 日本一区不卡在线观看| 精品人妻一区二区三区在线看| 欧美色欧美亚洲日在线| 久久这里只精品免费福利|