天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

短文本搜索查詢擴(kuò)展相關(guān)技術(shù)研究

發(fā)布時(shí)間:2017-03-23 15:06

  本文關(guān)鍵詞:短文本搜索查詢擴(kuò)展相關(guān)技術(shù)研究,由筆耕文化傳播整理發(fā)布。


【摘要】:近年來,微博已經(jīng)成為一種混合了社交網(wǎng)站的屬性及大眾媒體的作用的新型網(wǎng)絡(luò)應(yīng)用,在熱點(diǎn)新聞和各類信息發(fā)布中的重要性愈發(fā)顯現(xiàn),并深刻影響著社會(huì)輿論的走向。面對數(shù)以千萬計(jì)的、實(shí)時(shí)更新的微博數(shù)據(jù),用戶需要一種方便快捷的方式獲取信息。因此微博短文本語料下的信息檢索需求日益突出。查詢擴(kuò)展作為信息檢索領(lǐng)域的關(guān)鍵技術(shù),對于查詢結(jié)果的優(yōu)化具有非常重要的作用。本文主要內(nèi)容包括: 提出了一種基于Bayes-LDA模型的微博語料建模方法,該模型能夠在保證建模質(zhì)量的基礎(chǔ)上對微博短文本的完整建模;設(shè)計(jì)了一種基于主題模型的短文本查詢擴(kuò)展算法,其核心是將Bayes-LDA的建模結(jié)果應(yīng)用于特征詞的生成與選擇、查詢結(jié)果重排序等操作,從而提高短文本查詢的效果;本文的最后介紹了實(shí)際項(xiàng)目中的一個(gè)海量數(shù)據(jù)實(shí)時(shí)處理系統(tǒng),并詳細(xì)描述了系統(tǒng)中本人負(fù)責(zé)設(shè)計(jì)實(shí)現(xiàn)的模塊,即基于Map-Reduce思想的分布式流處理框架,以及綜合數(shù)據(jù)庫和搜索引擎特性的存儲(chǔ)檢索方案。
【關(guān)鍵詞】:查詢擴(kuò)展 LDA模型 短文本 貝葉斯理論 偽相關(guān)反饋
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
  • 摘要4-5
  • ABSTRACT5-8
  • 第一章 引言8-11
  • 1.1 課題研究背景及意義8-9
  • 1.2 查詢擴(kuò)展的國內(nèi)外研究現(xiàn)狀及相關(guān)技術(shù)9
  • 1.3 論文的研究內(nèi)容和組織結(jié)構(gòu)9-11
  • 第二章 查詢擴(kuò)展關(guān)鍵技術(shù)11-28
  • 2.1 查詢擴(kuò)展技術(shù)的定義11
  • 2.2 查詢擴(kuò)展技術(shù)的一般步驟11-24
  • 2.2.1 數(shù)據(jù)源預(yù)處理12
  • 2.2.2 候選擴(kuò)展特征的生成與排序12-21
  • 2.2.3 擴(kuò)展特征選擇21-22
  • 2.2.4 查詢重寫22-24
  • 2.3 技術(shù)分類24-28
  • 2.3.1 語言學(xué)方法24-25
  • 2.3.2 基于語料庫(全局)的分析技術(shù)25-26
  • 2.3.3 基于查詢的(局部)的分析技術(shù)26
  • 2.3.4 搜索日志分析26-27
  • 2.3.5 網(wǎng)絡(luò)數(shù)據(jù)27-28
  • 第三章 針對微博語料的Bayes-LDA主題建模方法28-45
  • 3.1 主題模型對短文本建模的特殊性分析28-30
  • 3.1.1 微博語料28-29
  • 3.1.2 主題模型在短文本建模問題上的優(yōu)勢29-30
  • 3.1.3 主題模型對短文本建模存在的問題30
  • 3.2 基于Bayes-LDA的短文本主題建模算法30-36
  • 3.2.1 算法基本思想31-32
  • 3.2.2 預(yù)處理及作者文檔聚集32
  • 3.2.3 微博語料的LDA模型訓(xùn)練32-35
  • 3.2.4 微博主題分布的貝葉斯推導(dǎo)35-36
  • 3.3 實(shí)驗(yàn)及結(jié)果分析36-42
  • 3.3.1 實(shí)驗(yàn)?zāi)康募霸O(shè)計(jì)方案36
  • 3.3.2 對比模型36-38
  • 3.3.3 數(shù)據(jù)集說明38-39
  • 3.3.4 預(yù)處理39
  • 3.3.5 實(shí)驗(yàn)結(jié)果及分析39-42
  • 3.4 針對微博短文本的主題模型建模方法分析42-45
  • 3.4.1 操作層面的擴(kuò)展42
  • 3.4.2 模型層面的擴(kuò)展42-43
  • 3.4.3 Bayes-LDA模型對于查詢擴(kuò)展的實(shí)用性分析43-45
  • 第四章 基于主題模型的查詢擴(kuò)展算法實(shí)現(xiàn)45-53
  • 4.1 查詢擴(kuò)展實(shí)現(xiàn)框架45-46
  • 4.2 核心算法描述46-48
  • 4.2.1 主題建模及偽相關(guān)文檔獲取46
  • 4.2.2 擴(kuò)展特征提取46-48
  • 4.2.3 查詢重排序48
  • 4.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析48-53
  • 4.3.1 實(shí)驗(yàn)?zāi)康暮头椒?/span>49
  • 4.3.2 實(shí)驗(yàn)數(shù)據(jù)及評價(jià)指標(biāo)49-50
  • 4.3.3 實(shí)驗(yàn)結(jié)果及分析50-53
  • 第五章 海量數(shù)據(jù)實(shí)時(shí)處理與檢索系統(tǒng)53-58
  • 5.1 系統(tǒng)需求和目標(biāo)53-54
  • 5.2 流處理框架設(shè)計(jì)54-55
  • 5.3 存儲(chǔ)與檢索機(jī)制設(shè)計(jì)55-58
  • 5.3.1 原文存儲(chǔ)策略55-56
  • 5.3.2 全文檢索策略56-58
  • 第六章 總結(jié)與展望58-60
  • 參考文獻(xiàn)60-64
  • 致謝64-65
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄65

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前1條

1 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計(jì)算機(jī)研究與發(fā)展;2011年10期


  本文關(guān)鍵詞:短文本搜索查詢擴(kuò)展相關(guān)技術(shù)研究,,由筆耕文化傳播整理發(fā)布。



本文編號:263970

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/263970.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6bb8f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com