短文本搜索查詢擴展相關(guān)技術(shù)研究
發(fā)布時間:2017-03-23 15:06
本文關(guān)鍵詞:短文本搜索查詢擴展相關(guān)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:近年來,微博已經(jīng)成為一種混合了社交網(wǎng)站的屬性及大眾媒體的作用的新型網(wǎng)絡(luò)應(yīng)用,在熱點新聞和各類信息發(fā)布中的重要性愈發(fā)顯現(xiàn),并深刻影響著社會輿論的走向。面對數(shù)以千萬計的、實時更新的微博數(shù)據(jù),用戶需要一種方便快捷的方式獲取信息。因此微博短文本語料下的信息檢索需求日益突出。查詢擴展作為信息檢索領(lǐng)域的關(guān)鍵技術(shù),對于查詢結(jié)果的優(yōu)化具有非常重要的作用。本文主要內(nèi)容包括: 提出了一種基于Bayes-LDA模型的微博語料建模方法,該模型能夠在保證建模質(zhì)量的基礎(chǔ)上對微博短文本的完整建模;設(shè)計了一種基于主題模型的短文本查詢擴展算法,其核心是將Bayes-LDA的建模結(jié)果應(yīng)用于特征詞的生成與選擇、查詢結(jié)果重排序等操作,從而提高短文本查詢的效果;本文的最后介紹了實際項目中的一個海量數(shù)據(jù)實時處理系統(tǒng),并詳細描述了系統(tǒng)中本人負責(zé)設(shè)計實現(xiàn)的模塊,即基于Map-Reduce思想的分布式流處理框架,以及綜合數(shù)據(jù)庫和搜索引擎特性的存儲檢索方案。
【關(guān)鍵詞】:查詢擴展 LDA模型 短文本 貝葉斯理論 偽相關(guān)反饋
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-8
- 第一章 引言8-11
- 1.1 課題研究背景及意義8-9
- 1.2 查詢擴展的國內(nèi)外研究現(xiàn)狀及相關(guān)技術(shù)9
- 1.3 論文的研究內(nèi)容和組織結(jié)構(gòu)9-11
- 第二章 查詢擴展關(guān)鍵技術(shù)11-28
- 2.1 查詢擴展技術(shù)的定義11
- 2.2 查詢擴展技術(shù)的一般步驟11-24
- 2.2.1 數(shù)據(jù)源預(yù)處理12
- 2.2.2 候選擴展特征的生成與排序12-21
- 2.2.3 擴展特征選擇21-22
- 2.2.4 查詢重寫22-24
- 2.3 技術(shù)分類24-28
- 2.3.1 語言學(xué)方法24-25
- 2.3.2 基于語料庫(全局)的分析技術(shù)25-26
- 2.3.3 基于查詢的(局部)的分析技術(shù)26
- 2.3.4 搜索日志分析26-27
- 2.3.5 網(wǎng)絡(luò)數(shù)據(jù)27-28
- 第三章 針對微博語料的Bayes-LDA主題建模方法28-45
- 3.1 主題模型對短文本建模的特殊性分析28-30
- 3.1.1 微博語料28-29
- 3.1.2 主題模型在短文本建模問題上的優(yōu)勢29-30
- 3.1.3 主題模型對短文本建模存在的問題30
- 3.2 基于Bayes-LDA的短文本主題建模算法30-36
- 3.2.1 算法基本思想31-32
- 3.2.2 預(yù)處理及作者文檔聚集32
- 3.2.3 微博語料的LDA模型訓(xùn)練32-35
- 3.2.4 微博主題分布的貝葉斯推導(dǎo)35-36
- 3.3 實驗及結(jié)果分析36-42
- 3.3.1 實驗?zāi)康募霸O(shè)計方案36
- 3.3.2 對比模型36-38
- 3.3.3 數(shù)據(jù)集說明38-39
- 3.3.4 預(yù)處理39
- 3.3.5 實驗結(jié)果及分析39-42
- 3.4 針對微博短文本的主題模型建模方法分析42-45
- 3.4.1 操作層面的擴展42
- 3.4.2 模型層面的擴展42-43
- 3.4.3 Bayes-LDA模型對于查詢擴展的實用性分析43-45
- 第四章 基于主題模型的查詢擴展算法實現(xiàn)45-53
- 4.1 查詢擴展實現(xiàn)框架45-46
- 4.2 核心算法描述46-48
- 4.2.1 主題建模及偽相關(guān)文檔獲取46
- 4.2.2 擴展特征提取46-48
- 4.2.3 查詢重排序48
- 4.3 實驗設(shè)計與結(jié)果分析48-53
- 4.3.1 實驗?zāi)康暮头椒?/span>49
- 4.3.2 實驗數(shù)據(jù)及評價指標49-50
- 4.3.3 實驗結(jié)果及分析50-53
- 第五章 海量數(shù)據(jù)實時處理與檢索系統(tǒng)53-58
- 5.1 系統(tǒng)需求和目標53-54
- 5.2 流處理框架設(shè)計54-55
- 5.3 存儲與檢索機制設(shè)計55-58
- 5.3.1 原文存儲策略55-56
- 5.3.2 全文檢索策略56-58
- 第六章 總結(jié)與展望58-60
- 參考文獻60-64
- 致謝64-65
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄65
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計算機研究與發(fā)展;2011年10期
本文關(guān)鍵詞:短文本搜索查詢擴展相關(guān)技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
本文編號:263970
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/263970.html
最近更新
教材專著