天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于馬爾科夫隨機(jī)游走模型的query-doc關(guān)聯(lián)挖掘

發(fā)布時(shí)間:2017-09-28 01:11

  本文關(guān)鍵詞:基于馬爾科夫隨機(jī)游走模型的query-doc關(guān)聯(lián)挖掘


  更多相關(guān)文章: 關(guān)聯(lián)關(guān)系 搜索行為 馬爾科夫隨機(jī)游走 查詢推薦 檢索結(jié)果聚類


【摘要】:萬(wàn)維網(wǎng)的發(fā)展帶來(lái)了信息爆炸式的增長(zhǎng),人們的日常生活已離不開(kāi)搜索引擎這一偉大的時(shí)代產(chǎn)物。目前為止,Google、百度等通用搜索引擎經(jīng)過(guò)十多年的發(fā)展,在功能上已經(jīng)相當(dāng)完善,搜索準(zhǔn)確度等方面的性能也在不斷提升。盡管這些商用搜索引擎已經(jīng)取得了很大成功,但搜索結(jié)果的相關(guān)性仍有待提升,目前大多數(shù)用戶依舊需要多次調(diào)整搜索詞才能找到自己真正需要的信息,搜索結(jié)果缺乏個(gè)性化。如何才能擴(kuò)大相關(guān)搜索結(jié)果的召回并提升搜索結(jié)果與查詢間的相關(guān)性,為用戶提供更加合理的搜索結(jié)果動(dòng)態(tài)排名成了當(dāng)前亟待解決的問(wèn)題之一。 本文的動(dòng)機(jī)是考慮和應(yīng)用用戶點(diǎn)擊信息,,提出一種基于用戶點(diǎn)擊日志的關(guān)聯(lián)關(guān)系挖掘算法,該方法通過(guò)挖掘點(diǎn)擊日志中的點(diǎn)擊數(shù)據(jù),Session數(shù)據(jù),挖掘出點(diǎn)擊日志中某個(gè)query用戶沒(méi)有點(diǎn)擊到的相關(guān)doc數(shù)據(jù),從而預(yù)測(cè)出query和doc間隱含的關(guān)聯(lián)關(guān)系,同時(shí)也可以利用該算法挖掘出query和query潛在的關(guān)聯(lián)關(guān)系。Query和doc之間的關(guān)聯(lián)關(guān)系是搜索引擎期望獲取的重要信息。query和doc間準(zhǔn)確的關(guān)聯(lián)分析不僅可以幫助搜索結(jié)果排序,而且也在query和doc之間架設(shè)了橋梁,以實(shí)現(xiàn)相關(guān)query和doc之間的信息傳遞,有利于更深入的query理解和doc理解,并在此基礎(chǔ)上開(kāi)展相關(guān)應(yīng)用。在檢索排序方面,本文給出的算法能夠計(jì)算得到query-doc之間的隱含關(guān)聯(lián)關(guān)系,這一關(guān)系可以直接作為排序?qū)W習(xí)的一個(gè)參考因素,實(shí)現(xiàn)更人性化的動(dòng)態(tài)排序。 通過(guò)大量的實(shí)驗(yàn)對(duì)比,該系統(tǒng)在各方面均取得了優(yōu)異的表現(xiàn),實(shí)驗(yàn)部分,我們對(duì)文中提到的算法進(jìn)行了相關(guān)結(jié)果對(duì)比,結(jié)果顯示,對(duì)檢索結(jié)果相關(guān)性的性能提升可以達(dá)到71.23%,這充分表明,本文所提出的理論和算法能夠很好地解決query和doc之間的隱含關(guān)系挖掘問(wèn)題,為提高搜索結(jié)果的召回率、實(shí)現(xiàn)查詢推薦和檢索結(jié)果聚類奠定了良好的前提基礎(chǔ)。
【關(guān)鍵詞】:關(guān)聯(lián)關(guān)系 搜索行為 馬爾科夫隨機(jī)游走 查詢推薦 檢索結(jié)果聚類
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【目錄】:
  • 提要4-5
  • 摘要5-8
  • Abstract8-13
  • 第1章 緒論13-20
  • 1.1 研究的背景及意義13-14
  • 1.2 國(guó)內(nèi)外發(fā)展現(xiàn)狀14-16
  • 1.2.1 搜索引擎的發(fā)展歷程14-15
  • 1.2.2 大規(guī)模機(jī)器學(xué)習(xí)技術(shù)在搜索引擎中的應(yīng)用15-16
  • 1.2.3 查詢推薦研究現(xiàn)狀16
  • 1.3 研究目的16-17
  • 1.4 相關(guān)性研究17-18
  • 1.5 本文主要內(nèi)容及章節(jié)安排18-20
  • 第2章 相關(guān)技術(shù)簡(jiǎn)介20-33
  • 2.1 海量數(shù)據(jù)處理工具  HADOOP20-22
  • 2.2 增強(qiáng)學(xué)習(xí)與控制22-29
  • 2.2.1 馬爾科夫決策過(guò)程22-26
  • 2.2.2 值迭代與政策迭代26-27
  • 2.2.3 學(xué)習(xí)一個(gè) MDP 模型27-29
  • 2.3 馬爾科夫隨機(jī)游走模型29-33
  • 2.3.1 馬爾科夫隨機(jī)游走29-30
  • 2.3.2 帶自轉(zhuǎn)移的馬爾科夫隨機(jī)游走模型30-31
  • 2.3.3 帶隨機(jī)跳轉(zhuǎn)的馬爾科夫隨機(jī)游走模型31-32
  • 2.3.4 帶重新啟動(dòng)的馬爾科夫隨機(jī)游走模型32-33
  • 第3章 基于馬爾科夫隨機(jī)游走模型的 QUERY-DOC 關(guān)聯(lián)挖掘算法設(shè)計(jì)33-39
  • 3.1 點(diǎn)擊圖上的隨機(jī)游走模型33-34
  • 3.2 點(diǎn)擊圖上的前向與后向計(jì)算模型34-35
  • 3.3 QUERY-DOC 關(guān)聯(lián)關(guān)系挖掘算法35-39
  • 3.3.1 迭代計(jì)算的步長(zhǎng)36
  • 3.3.2 算法優(yōu)化36-37
  • 3.3.3 置信度37-38
  • 3.3.4 裁剪與剪枝策略38-39
  • 第4章 算法實(shí)現(xiàn)與測(cè)試39-48
  • 4.1 基于點(diǎn)擊圖的 QUERY-DOC 關(guān)聯(lián)挖掘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)39-46
  • 4.1.1 系統(tǒng)開(kāi)發(fā)環(huán)境39
  • 4.1.2 挖掘系統(tǒng)總體設(shè)計(jì)方案39
  • 4.1.3 預(yù)處理系統(tǒng)實(shí)現(xiàn)與測(cè)試39-44
  • 4.1.4 關(guān)聯(lián)關(guān)系挖掘系統(tǒng)實(shí)現(xiàn)44-46
  • 4.2 系統(tǒng)測(cè)試46-48
  • 第5章 實(shí)驗(yàn)與結(jié)果分析48-61
  • 5.1 實(shí)驗(yàn)準(zhǔn)備48-49
  • 5.1.1 數(shù)據(jù)集48
  • 5.1.2 數(shù)據(jù)預(yù)處理48-49
  • 5.1.3 實(shí)驗(yàn)環(huán)境49
  • 5.2 實(shí)驗(yàn)結(jié)果49-59
  • 5.2.1 不同迭代次數(shù)的影響49-50
  • 5.2.2 實(shí)驗(yàn)整體效果50-55
  • 5.2.3 對(duì)比實(shí)驗(yàn)55-59
  • 5.3 實(shí)驗(yàn)相關(guān)說(shuō)明59-61
  • 第6章 總結(jié)與展望61-63
  • 參考文獻(xiàn)63-65
  • 附錄65-67
  • 作者簡(jiǎn)介及在學(xué)期間取得的科研成果67-68
  • 后記和致謝68

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 常利軍;于旭;秦璐;;Context-Sensitive Document Ranking[J];Journal of Computer Science & Technology;2010年03期

2 李文清;孫新;張常有;馮燁;;一種本體概念的語(yǔ)義相似度計(jì)算方法[J];自動(dòng)化學(xué)報(bào);2012年02期



本文編號(hào):932946

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/932946.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ce0a8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com