天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于主題相似度的排序?qū)W習(xí)算法研究

發(fā)布時間:2017-05-15 10:23

  本文關(guān)鍵詞:基于主題相似度的排序?qū)W習(xí)算法研究,由筆耕文化傳播整理發(fā)布。


【摘要】:搜索引擎的出現(xiàn)使人們獲取信息的效率大大提高,怎樣從海量的搜索結(jié)果中將用戶最關(guān)心、最需要的信息排在返回列表的最前面,即搜索結(jié)果的排序問題是信息檢索領(lǐng)域研究的關(guān)鍵問題之一,尤其是對搜索結(jié)果中位置靠前的頁面進行排序優(yōu)化,具有相當重要的研究意義和實踐價值。排序?qū)W習(xí),就是利用機器學(xué)習(xí)方法來解決搜索排序問題,其在信息檢索、推薦系統(tǒng)、自動問答等方面有著廣泛應(yīng)用。現(xiàn)有排序?qū)W習(xí)方法僅考慮了查詢與頁面之間的相關(guān)度與重要度,沒有考慮頁面彼此之間的相似度信息。本文在現(xiàn)有的Listwise類排序?qū)W習(xí)方法的研究基礎(chǔ)上,提出利用文檔之間的主題相似度進行加權(quán)投票的方法,進一步提高了模型的排序準確性。本文的主要研究工作如下:1)本文提出了一種利用文檔之間相似度來調(diào)整排序結(jié)果列表的方法,使文檔的評分方式由僅依靠重要度和相關(guān)度評分,擴展為可以通過各文檔的相似度進行加權(quán)投票。該方法充分利用了待排文檔之間的內(nèi)在關(guān)聯(lián)與文本特征,以更全面的角度綜合地考慮了搜索排序中文檔的重要度、相關(guān)度與相似度問題,從而得到更合理的排序結(jié)果。2)本文提出的主題相似度模型,從特征詞與主題分別兩個角度來計算文本間的相似度,綜合了兩種模型各自的優(yōu)勢,不僅考慮了文檔詞級別的相似還考慮了文檔之間的主題分布差異,提高了判別效果。3)實現(xiàn)了基于主題相似度的ListSimi算法。實驗證明,在OHSUMED和TD2003數(shù)據(jù)集上ListSimi算法能夠顯著的提升現(xiàn)有排序?qū)W習(xí)算法的準確度,尤其是對排序位置靠前的文檔,準確度提升非常明顯。對于一個商業(yè)搜索引擎,搜索結(jié)果列表中靠前的文檔檢索準確度直接影響著用戶的搜索體驗與滿意程度,這說明本文具有相當重要的研究意義與實踐價值。
【關(guān)鍵詞】:信息檢索 排序?qū)W習(xí) 主題模型 文本相似度
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3;TP181
【目錄】:
  • 摘要6-7
  • ABSTRACT7-10
  • 第一章 緒論10-15
  • 1.1 研究背景10
  • 1.2 國內(nèi)外相關(guān)研究發(fā)展現(xiàn)狀10-13
  • 1.2.1 信息檢索模型發(fā)展概況11-12
  • 1.2.2 排序?qū)W習(xí)研究現(xiàn)狀12-13
  • 1.3 本文主要工作與組織13-15
  • 第二章 搜索排序相關(guān)方法15-30
  • 2.1 引言15
  • 2.2 基于鏈接的排序方法15-21
  • 2.2.1 PageRank算法15-18
  • 2.2.2 HITS算法18-21
  • 2.3 排序?qū)W習(xí)方法概述21-29
  • 2.3.1 Pointwise相關(guān)方法24-25
  • 2.3.2 Pairwise相關(guān)方法25-27
  • 2.3.3 Listwise相關(guān)方法27-29
  • 2.4 本章小結(jié)29-30
  • 第三章 基于VSM和LDA的相似度算法30-38
  • 3.1 引言30
  • 3.2 基于VSM的相似度計算30-31
  • 3.3 基于LDA的相似度計算31-35
  • 3.3.1 LDA模型描述31-34
  • 3.3.2 基于LDA模型的文檔相似度算法34-35
  • 3.4 基于主題相似度的相似度計算35-37
  • 3.4.1 評估標準36
  • 3.4.2 實驗設(shè)置36
  • 3.4.3 對比分析36-37
  • 3.5 本章小結(jié)37-38
  • 第四章 基于主題相似的排序?qū)W習(xí)算法38-55
  • 4.1 引言38
  • 4.2 LISTSIMI排序?qū)W習(xí)算法描述38-42
  • 4.2.1 Top-k概率模型38-40
  • 4.2.2 損失函數(shù)構(gòu)造40-41
  • 4.2.3 梯度下隆算法41-42
  • 4.3 算法實現(xiàn)42-43
  • 4.4 實驗數(shù)據(jù)集43-44
  • 4.4.1 LETOR 3.0數(shù)據(jù)集43-44
  • 4.5 排序?qū)W習(xí)評價標準44-46
  • 4.5.1 平均準確率MAP45
  • 4.5.2 歸一化折扣累積增益NDCG45-46
  • 4.6 實驗方法46-47
  • 4.7 實驗結(jié)果與對比分析47-54
  • 4.7.1 實驗結(jié)果47-53
  • 4.7.2 對比分析53-54
  • 4.8 本章小結(jié)54-55
  • 第五章 結(jié)論與展望55-57
  • 5.1 結(jié)論55-56
  • 5.2 展望56-57
  • 參考文獻57-60
  • 致謝60-61
  • 附錄61-62

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前1條

1 王振振;何明;杜永萍;;基于LDA主題模型的文本相似度計算[J];計算機科學(xué);2013年12期


  本文關(guān)鍵詞:基于主題相似度的排序?qū)W習(xí)算法研究,,由筆耕文化傳播整理發(fā)布。



本文編號:367519

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/367519.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶98646***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com