短文本搜索查詢擴(kuò)展相關(guān)技術(shù)研究
發(fā)布時(shí)間:2017-03-23 15:06
本文關(guān)鍵詞:短文本搜索查詢擴(kuò)展相關(guān)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:近年來,微博已經(jīng)成為一種混合了社交網(wǎng)站的屬性及大眾媒體的作用的新型網(wǎng)絡(luò)應(yīng)用,在熱點(diǎn)新聞和各類信息發(fā)布中的重要性愈發(fā)顯現(xiàn),并深刻影響著社會(huì)輿論的走向。面對數(shù)以千萬計(jì)的、實(shí)時(shí)更新的微博數(shù)據(jù),用戶需要一種方便快捷的方式獲取信息。因此微博短文本語料下的信息檢索需求日益突出。查詢擴(kuò)展作為信息檢索領(lǐng)域的關(guān)鍵技術(shù),對于查詢結(jié)果的優(yōu)化具有非常重要的作用。本文主要內(nèi)容包括: 提出了一種基于Bayes-LDA模型的微博語料建模方法,該模型能夠在保證建模質(zhì)量的基礎(chǔ)上對微博短文本的完整建模;設(shè)計(jì)了一種基于主題模型的短文本查詢擴(kuò)展算法,其核心是將Bayes-LDA的建模結(jié)果應(yīng)用于特征詞的生成與選擇、查詢結(jié)果重排序等操作,從而提高短文本查詢的效果;本文的最后介紹了實(shí)際項(xiàng)目中的一個(gè)海量數(shù)據(jù)實(shí)時(shí)處理系統(tǒng),并詳細(xì)描述了系統(tǒng)中本人負(fù)責(zé)設(shè)計(jì)實(shí)現(xiàn)的模塊,即基于Map-Reduce思想的分布式流處理框架,以及綜合數(shù)據(jù)庫和搜索引擎特性的存儲(chǔ)檢索方案。
【關(guān)鍵詞】:查詢擴(kuò)展 LDA模型 短文本 貝葉斯理論 偽相關(guān)反饋
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-8
- 第一章 引言8-11
- 1.1 課題研究背景及意義8-9
- 1.2 查詢擴(kuò)展的國內(nèi)外研究現(xiàn)狀及相關(guān)技術(shù)9
- 1.3 論文的研究內(nèi)容和組織結(jié)構(gòu)9-11
- 第二章 查詢擴(kuò)展關(guān)鍵技術(shù)11-28
- 2.1 查詢擴(kuò)展技術(shù)的定義11
- 2.2 查詢擴(kuò)展技術(shù)的一般步驟11-24
- 2.2.1 數(shù)據(jù)源預(yù)處理12
- 2.2.2 候選擴(kuò)展特征的生成與排序12-21
- 2.2.3 擴(kuò)展特征選擇21-22
- 2.2.4 查詢重寫22-24
- 2.3 技術(shù)分類24-28
- 2.3.1 語言學(xué)方法24-25
- 2.3.2 基于語料庫(全局)的分析技術(shù)25-26
- 2.3.3 基于查詢的(局部)的分析技術(shù)26
- 2.3.4 搜索日志分析26-27
- 2.3.5 網(wǎng)絡(luò)數(shù)據(jù)27-28
- 第三章 針對微博語料的Bayes-LDA主題建模方法28-45
- 3.1 主題模型對短文本建模的特殊性分析28-30
- 3.1.1 微博語料28-29
- 3.1.2 主題模型在短文本建模問題上的優(yōu)勢29-30
- 3.1.3 主題模型對短文本建模存在的問題30
- 3.2 基于Bayes-LDA的短文本主題建模算法30-36
- 3.2.1 算法基本思想31-32
- 3.2.2 預(yù)處理及作者文檔聚集32
- 3.2.3 微博語料的LDA模型訓(xùn)練32-35
- 3.2.4 微博主題分布的貝葉斯推導(dǎo)35-36
- 3.3 實(shí)驗(yàn)及結(jié)果分析36-42
- 3.3.1 實(shí)驗(yàn)?zāi)康募霸O(shè)計(jì)方案36
- 3.3.2 對比模型36-38
- 3.3.3 數(shù)據(jù)集說明38-39
- 3.3.4 預(yù)處理39
- 3.3.5 實(shí)驗(yàn)結(jié)果及分析39-42
- 3.4 針對微博短文本的主題模型建模方法分析42-45
- 3.4.1 操作層面的擴(kuò)展42
- 3.4.2 模型層面的擴(kuò)展42-43
- 3.4.3 Bayes-LDA模型對于查詢擴(kuò)展的實(shí)用性分析43-45
- 第四章 基于主題模型的查詢擴(kuò)展算法實(shí)現(xiàn)45-53
- 4.1 查詢擴(kuò)展實(shí)現(xiàn)框架45-46
- 4.2 核心算法描述46-48
- 4.2.1 主題建模及偽相關(guān)文檔獲取46
- 4.2.2 擴(kuò)展特征提取46-48
- 4.2.3 查詢重排序48
- 4.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析48-53
- 4.3.1 實(shí)驗(yàn)?zāi)康暮头椒?/span>49
- 4.3.2 實(shí)驗(yàn)數(shù)據(jù)及評價(jià)指標(biāo)49-50
- 4.3.3 實(shí)驗(yàn)結(jié)果及分析50-53
- 第五章 海量數(shù)據(jù)實(shí)時(shí)處理與檢索系統(tǒng)53-58
- 5.1 系統(tǒng)需求和目標(biāo)53-54
- 5.2 流處理框架設(shè)計(jì)54-55
- 5.3 存儲(chǔ)與檢索機(jī)制設(shè)計(jì)55-58
- 5.3.1 原文存儲(chǔ)策略55-56
- 5.3.2 全文檢索策略56-58
- 第六章 總結(jié)與展望58-60
- 參考文獻(xiàn)60-64
- 致謝64-65
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄65
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計(jì)算機(jī)研究與發(fā)展;2011年10期
本文關(guān)鍵詞:短文本搜索查詢擴(kuò)展相關(guān)技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
本文編號:263970
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/263970.html
最近更新
教材專著