天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于主題模型的查詢擴展技術(shù)研究

發(fā)布時間:2017-09-27 16:20

  本文關(guān)鍵詞:基于主題模型的查詢擴展技術(shù)研究


  更多相關(guān)文章: 查詢擴展 主題模型 主題詞對 互信息


【摘要】:隨著互聯(lián)網(wǎng)時代的高速發(fā)展,大量的信息不斷的呈現(xiàn)在互聯(lián)網(wǎng)上,信息檢索已經(jīng)成為人們獲取信息的必要的手段。搜索引擎的出現(xiàn)極大地滿足人們的需求,讓人們能夠輕松地面對互聯(lián)網(wǎng)上的海量信息。在用戶進(jìn)行檢索的時候,影響用戶搜索體驗的一個重要原因是往往用戶在進(jìn)行搜索的時候的查詢詞較短,大部分用戶在進(jìn)行搜索的時候常常只用很短的幾個關(guān)鍵詞,造成查詢表達(dá)與意圖不一致,會大大影響用戶的搜索體驗。一些學(xué)者開始專注于查詢擴展技術(shù)在信息檢索中的應(yīng)用,該方法利用對用戶的初始查詢詞進(jìn)行擴展得到新的檢索詞,從而達(dá)到改進(jìn)檢索性能的目的。作為信息檢索的一種有效的查詢優(yōu)化方法,查詢擴展技術(shù)的研究具有重要的意義。在查詢擴展的時候,如果得到的擴展詞與查詢是不相關(guān)的,可能降低檢索結(jié)果。尤其是一個文檔可能有多個主題,為了解決這些問題,基于主題模型的查詢擴展算法應(yīng)運而生;谥黝}模型的查詢擴展方法由于能夠很好地考慮到了查詢與文檔之間的主題語義相關(guān)性,逐漸被一些學(xué)者關(guān)注。本課題對現(xiàn)有基于主題的算法進(jìn)行了深入的了解和分析,結(jié)合了一些研究提出了基于主題互信息和基于主題詞對的兩種語義查詢擴展方法。這兩種方法都是通過使用LDA主題模型作為提高檢索性能的方法:(1)基于主題互信息的方法不僅利用了查詢詞與候選詞的互信息的同時也考慮到了主題的相關(guān)度,該方法解決了基于主題模型的查詢擴展方法中主題代表詞的選擇問題,使用了互信息作為查詢詞與主題詞的相關(guān)度保證了主題代表詞與查詢之間的相關(guān)度。(2)基于主題詞對的查詢擴展方法中,創(chuàng)新性的使用了主題向量作為詞對之間的語義相關(guān)度,該方法使用詞對之間的相似度用作候選詞與查詢之間的相關(guān)度。我們在使用了詞對之間的相關(guān)度得同時,也引入了詞與詞之間的Dice相似系數(shù)。綜合了原查詢詞和候選擴展詞之間的這兩方面的相似度的因素。我們把擴展詞放入原查詢詞得到新查詢詞,進(jìn)行再次檢索,最終得到檢索結(jié)果。經(jīng)過實驗證明本文提出的兩種擴展算法方法相對于RM3、LCA和主題模型查詢擴展算法MAP和P@10結(jié)果都有明顯提升。
【關(guān)鍵詞】:查詢擴展 主題模型 主題詞對 互信息
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第1章 緒論9-16
  • 1.1 課題研究的目的及意義9-11
  • 1.2 國內(nèi)外相關(guān)技術(shù)研究現(xiàn)狀11-14
  • 1.2.1 查詢擴展研究現(xiàn)狀11-14
  • 1.2.2 基于主題模型的查詢擴展的研究現(xiàn)狀14
  • 1.3 本文主要研究內(nèi)容14-15
  • 1.4 章節(jié)內(nèi)容組織15-16
  • 第2章 查詢擴展技術(shù)概述16-26
  • 2.1 引言16
  • 2.2 信息檢索綜述16-19
  • 2.2.1 信息檢索模型16-18
  • 2.2.2 檢索結(jié)果評價18-19
  • 2.3 查詢擴展技術(shù)方法19-25
  • 2.3.1 基于全局分析的查詢擴展19-21
  • 2.3.2 基于局部分析的查詢擴展21-23
  • 2.3.3 基于局部上下文的查詢擴展23-24
  • 2.3.4 基于語義詞典的查詢擴展24-25
  • 2.4 本章小結(jié)25-26
  • 第3章 基于LDA的查詢擴展模型的構(gòu)建26-40
  • 3.1 引言26
  • 3.2 基于主題模型查詢擴展框架26-27
  • 3.3 基于LDA查詢擴展構(gòu)建27-32
  • 3.3.1 LDA主題模型的構(gòu)建27-29
  • 3.3.2 相關(guān)主題的選擇29-30
  • 3.3.3 候選擴展詞的選擇30-31
  • 3.3.4 Rocchio 框架下的查詢擴展31-32
  • 3.4 基于主題互信息的擴展詞選擇方法32-35
  • 3.4.1 基于互信息的主題代表詞32-33
  • 3.4.2 候選擴展詞的選擇33-35
  • 3.4.3 查詢詞的構(gòu)建35
  • 3.5 基于主題詞對的擴展詞選擇方法35-39
  • 3.5.1 主題詞對的擴展詞選擇36-37
  • 3.5.2 Dice相似性的權(quán)重調(diào)節(jié)37-38
  • 3.5.3 查詢詞的構(gòu)建38-39
  • 3.6 本章小結(jié)39-40
  • 第4章 實驗結(jié)果及對比分析40-54
  • 4.1 引言40
  • 4.2 實驗數(shù)據(jù)及預(yù)處理40-44
  • 4.2.1 OHSUMED數(shù)據(jù)集40-41
  • 4.2.2 文檔預(yù)處理41-43
  • 4.2.3 查詢詞篩選43-44
  • 4.3 評價方法44
  • 4.4 實驗框架圖44-45
  • 4.5 實驗結(jié)果及分析45-53
  • 4.5.1 參數(shù)的選擇46-49
  • 4.5.2 實驗結(jié)果對比分析49-53
  • 4.6 本章小結(jié)53-54
  • 結(jié)論54-55
  • 參考文獻(xiàn)55-59
  • 攻讀碩士學(xué)位期間發(fā)表的論文及其它成果59-61
  • 致謝61

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前2條

1 郝水龍;吳共慶;胡學(xué)鋼;;基于層次向量空間模型的用戶興趣表示及更新[J];南京大學(xué)學(xué)報(自然科學(xué)版);2012年02期

2 宋偉萍;楊建林;;個性化信息檢索中的相關(guān)反饋技術(shù)研究[J];圖書情報工作;2008年04期

,

本文編號:930660

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/930660.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶520c2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com