天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

短文本搜索查詢擴展相關(guān)技術(shù)研究

發(fā)布時間:2017-03-23 15:06

  本文關(guān)鍵詞:短文本搜索查詢擴展相關(guān)技術(shù)研究,由筆耕文化傳播整理發(fā)布。


【摘要】:近年來,微博已經(jīng)成為一種混合了社交網(wǎng)站的屬性及大眾媒體的作用的新型網(wǎng)絡(luò)應(yīng)用,在熱點新聞和各類信息發(fā)布中的重要性愈發(fā)顯現(xiàn),并深刻影響著社會輿論的走向。面對數(shù)以千萬計的、實時更新的微博數(shù)據(jù),用戶需要一種方便快捷的方式獲取信息。因此微博短文本語料下的信息檢索需求日益突出。查詢擴展作為信息檢索領(lǐng)域的關(guān)鍵技術(shù),對于查詢結(jié)果的優(yōu)化具有非常重要的作用。本文主要內(nèi)容包括: 提出了一種基于Bayes-LDA模型的微博語料建模方法,該模型能夠在保證建模質(zhì)量的基礎(chǔ)上對微博短文本的完整建模;設(shè)計了一種基于主題模型的短文本查詢擴展算法,其核心是將Bayes-LDA的建模結(jié)果應(yīng)用于特征詞的生成與選擇、查詢結(jié)果重排序等操作,從而提高短文本查詢的效果;本文的最后介紹了實際項目中的一個海量數(shù)據(jù)實時處理系統(tǒng),并詳細描述了系統(tǒng)中本人負責(zé)設(shè)計實現(xiàn)的模塊,即基于Map-Reduce思想的分布式流處理框架,以及綜合數(shù)據(jù)庫和搜索引擎特性的存儲檢索方案。
【關(guān)鍵詞】:查詢擴展 LDA模型 短文本 貝葉斯理論 偽相關(guān)反饋
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
  • 摘要4-5
  • ABSTRACT5-8
  • 第一章 引言8-11
  • 1.1 課題研究背景及意義8-9
  • 1.2 查詢擴展的國內(nèi)外研究現(xiàn)狀及相關(guān)技術(shù)9
  • 1.3 論文的研究內(nèi)容和組織結(jié)構(gòu)9-11
  • 第二章 查詢擴展關(guān)鍵技術(shù)11-28
  • 2.1 查詢擴展技術(shù)的定義11
  • 2.2 查詢擴展技術(shù)的一般步驟11-24
  • 2.2.1 數(shù)據(jù)源預(yù)處理12
  • 2.2.2 候選擴展特征的生成與排序12-21
  • 2.2.3 擴展特征選擇21-22
  • 2.2.4 查詢重寫22-24
  • 2.3 技術(shù)分類24-28
  • 2.3.1 語言學(xué)方法24-25
  • 2.3.2 基于語料庫(全局)的分析技術(shù)25-26
  • 2.3.3 基于查詢的(局部)的分析技術(shù)26
  • 2.3.4 搜索日志分析26-27
  • 2.3.5 網(wǎng)絡(luò)數(shù)據(jù)27-28
  • 第三章 針對微博語料的Bayes-LDA主題建模方法28-45
  • 3.1 主題模型對短文本建模的特殊性分析28-30
  • 3.1.1 微博語料28-29
  • 3.1.2 主題模型在短文本建模問題上的優(yōu)勢29-30
  • 3.1.3 主題模型對短文本建模存在的問題30
  • 3.2 基于Bayes-LDA的短文本主題建模算法30-36
  • 3.2.1 算法基本思想31-32
  • 3.2.2 預(yù)處理及作者文檔聚集32
  • 3.2.3 微博語料的LDA模型訓(xùn)練32-35
  • 3.2.4 微博主題分布的貝葉斯推導(dǎo)35-36
  • 3.3 實驗及結(jié)果分析36-42
  • 3.3.1 實驗?zāi)康募霸O(shè)計方案36
  • 3.3.2 對比模型36-38
  • 3.3.3 數(shù)據(jù)集說明38-39
  • 3.3.4 預(yù)處理39
  • 3.3.5 實驗結(jié)果及分析39-42
  • 3.4 針對微博短文本的主題模型建模方法分析42-45
  • 3.4.1 操作層面的擴展42
  • 3.4.2 模型層面的擴展42-43
  • 3.4.3 Bayes-LDA模型對于查詢擴展的實用性分析43-45
  • 第四章 基于主題模型的查詢擴展算法實現(xiàn)45-53
  • 4.1 查詢擴展實現(xiàn)框架45-46
  • 4.2 核心算法描述46-48
  • 4.2.1 主題建模及偽相關(guān)文檔獲取46
  • 4.2.2 擴展特征提取46-48
  • 4.2.3 查詢重排序48
  • 4.3 實驗設(shè)計與結(jié)果分析48-53
  • 4.3.1 實驗?zāi)康暮头椒?/span>49
  • 4.3.2 實驗數(shù)據(jù)及評價指標49-50
  • 4.3.3 實驗結(jié)果及分析50-53
  • 第五章 海量數(shù)據(jù)實時處理與檢索系統(tǒng)53-58
  • 5.1 系統(tǒng)需求和目標53-54
  • 5.2 流處理框架設(shè)計54-55
  • 5.3 存儲與檢索機制設(shè)計55-58
  • 5.3.1 原文存儲策略55-56
  • 5.3.2 全文檢索策略56-58
  • 第六章 總結(jié)與展望58-60
  • 參考文獻60-64
  • 致謝64-65
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄65

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前1條

1 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計算機研究與發(fā)展;2011年10期


  本文關(guān)鍵詞:短文本搜索查詢擴展相關(guān)技術(shù)研究,,由筆耕文化傳播整理發(fā)布。



本文編號:263970

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/263970.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6bb8f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com