短文本搜索查詢擴展相關(guān)技術(shù)研究

發(fā)布時間：2017-03-23 15:06

本文關(guān)鍵詞：短文本搜索查詢擴展相關(guān)技術(shù)研究，由筆耕文化傳播整理發(fā)布。

【摘要】：近年來,微博已經(jīng)成為一種混合了社交網(wǎng)站的屬性及大眾媒體的作用的新型網(wǎng)絡(luò)應(yīng)用,在熱點新聞和各類信息發(fā)布中的重要性愈發(fā)顯現(xiàn),并深刻影響著社會輿論的走向。面對數(shù)以千萬計的、實時更新的微博數(shù)據(jù),用戶需要一種方便快捷的方式獲取信息。因此微博短文本語料下的信息檢索需求日益突出。查詢擴展作為信息檢索領(lǐng)域的關(guān)鍵技術(shù),對于查詢結(jié)果的優(yōu)化具有非常重要的作用。本文主要內(nèi)容包括：提出了一種基于Bayes-LDA模型的微博語料建模方法,該模型能夠在保證建模質(zhì)量的基礎(chǔ)上對微博短文本的完整建模；設(shè)計了一種基于主題模型的短文本查詢擴展算法,其核心是將Bayes-LDA的建模結(jié)果應(yīng)用于特征詞的生成與選擇、查詢結(jié)果重排序等操作,從而提高短文本查詢的效果；本文的最后介紹了實際項目中的一個海量數(shù)據(jù)實時處理系統(tǒng),并詳細描述了系統(tǒng)中本人負責(zé)設(shè)計實現(xiàn)的模塊,即基于Map-Reduce思想的分布式流處理框架,以及綜合數(shù)據(jù)庫和搜索引擎特性的存儲檢索方案。
【關(guān)鍵詞】：查詢擴展 LDA模型 短文本 貝葉斯理論 偽相關(guān)反饋
【學(xué)位授予單位】：北京郵電大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2014
【分類號】：TP391.1
【目錄】：

摘要4-5
ABSTRACT5-8
第一章引言8-11
1.1 課題研究背景及意義8-9
1.2 查詢擴展的國內(nèi)外研究現(xiàn)狀及相關(guān)技術(shù)9
1.3 論文的研究內(nèi)容和組織結(jié)構(gòu)9-11
第二章查詢擴展關(guān)鍵技術(shù)11-28
2.1 查詢擴展技術(shù)的定義11
2.2 查詢擴展技術(shù)的一般步驟11-24
2.2.1 數(shù)據(jù)源預(yù)處理12
2.2.2 候選擴展特征的生成與排序12-21
2.2.3 擴展特征選擇21-22
2.2.4 查詢重寫22-24
2.3 技術(shù)分類24-28
2.3.1 語言學(xué)方法24-25
2.3.2 基于語料庫(全局)的分析技術(shù)25-26
2.3.3 基于查詢的(局部)的分析技術(shù)26
2.3.4 搜索日志分析26-27
2.3.5 網(wǎng)絡(luò)數(shù)據(jù)27-28
第三章針對微博語料的Bayes-LDA主題建模方法28-45
3.1 主題模型對短文本建模的特殊性分析28-30
3.1.1 微博語料28-29
3.1.2 主題模型在短文本建模問題上的優(yōu)勢29-30
3.1.3 主題模型對短文本建模存在的問題30
3.2 基于Bayes-LDA的短文本主題建模算法30-36
3.2.1 算法基本思想31-32
3.2.2 預(yù)處理及作者文檔聚集32
3.2.3 微博語料的LDA模型訓(xùn)練32-35
3.2.4 微博主題分布的貝葉斯推導(dǎo)35-36
3.3 實驗及結(jié)果分析36-42
3.3.1 實驗?zāi)康募霸O(shè)計方案36
3.3.2 對比模型36-38
3.3.3 數(shù)據(jù)集說明38-39
3.3.4 預(yù)處理39
3.3.5 實驗結(jié)果及分析39-42
3.4 針對微博短文本的主題模型建模方法分析42-45
3.4.1 操作層面的擴展42
3.4.2 模型層面的擴展42-43
3.4.3 Bayes-LDA模型對于查詢擴展的實用性分析43-45
第四章基于主題模型的查詢擴展算法實現(xiàn)45-53
4.1 查詢擴展實現(xiàn)框架45-46
4.2 核心算法描述46-48
4.2.1 主題建模及偽相關(guān)文檔獲取46
4.2.2 擴展特征提取46-48
4.2.3 查詢重排序48
4.3 實驗設(shè)計與結(jié)果分析48-53
4.3.1 實驗?zāi)康暮头椒?/span>49
4.3.2 實驗數(shù)據(jù)及評價指標49-50
4.3.3 實驗結(jié)果及分析50-53
第五章海量數(shù)據(jù)實時處理與檢索系統(tǒng)53-58
5.1 系統(tǒng)需求和目標53-54
5.2 流處理框架設(shè)計54-55
5.3 存儲與檢索機制設(shè)計55-58
5.3.1 原文存儲策略55-56
5.3.2 全文檢索策略56-58
第六章總結(jié)與展望58-60
參考文獻60-64
致謝64-65
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄65

【參考文獻】

中國期刊全文數(shù)據(jù)庫前1條

1 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計算機研究與發(fā)展;2011年10期

本文關(guān)鍵詞：短文本搜索查詢擴展相關(guān)技術(shù)研究，，由筆耕文化傳播整理發(fā)布。

本文編號：263970

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/263970.html

上一篇：基于遺傳算法的專業(yè)元搜索引擎技術(shù)研究
下一篇：網(wǎng)絡(luò)搜索數(shù)據(jù)與消費者信心指數(shù)的相關(guān)性研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

短文本搜索查詢擴展相關(guān)技術(shù)研究