專業(yè)搜索引擎的無(wú)日志查詢推薦機(jī)制研究及實(shí)現(xiàn)
發(fā)布時(shí)間:2017-06-27 11:16
本文關(guān)鍵詞:專業(yè)搜索引擎的無(wú)日志查詢推薦機(jī)制研究及實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:搜索引擎的查詢推薦為用戶更好地使用搜索引擎提供了很大的便利,目前商用搜索引擎大部分采用基于日志的查詢推薦方法,為用戶推薦熱門查詢?cè)~及相關(guān)查詢。專業(yè)搜索引擎例如論文搜索引擎、校園網(wǎng)搜索引擎和論壇搜索引擎等通常應(yīng)用于特定領(lǐng)域,由于使用人數(shù)相對(duì)較少,用戶日志缺乏或不足,因此用傳統(tǒng)的基于日志分析的查詢推薦方法效果不夠好,而且傳統(tǒng)的查詢推薦方法也無(wú)法體現(xiàn)專業(yè)搜索引擎的主題專業(yè)性,因此本文主要研究適用于專業(yè)搜索引擎的查詢推薦方法,以彌補(bǔ)以上缺點(diǎn)。 本文的研究工作主要有如下三個(gè)方面: (1)輸入查詢?cè)~推薦:本文提出了兩種輸入查詢?cè)~的推薦方法,第一種方法利用貝葉斯公式建立模型,通過(guò)計(jì)算輸入查詢?cè)~的概率關(guān)系為用戶推薦輸入查詢?cè)~;第二種方法利用主題模型,使用LDA(Latent DirichletAllocation)算法對(duì)本地語(yǔ)料庫(kù)進(jìn)行預(yù)處理,對(duì)輸入查詢?cè)~使用主題向量計(jì)算詞相似度,將不同主題的推薦詞反饋給用戶。實(shí)驗(yàn)結(jié)果表明這兩種方法在推薦成功率等指標(biāo)上都優(yōu)于傳統(tǒng)的輸入查詢?cè)~推薦算法;而且基于主題模型的推薦算法比傳統(tǒng)的向量模型算法具有較高的多樣性指標(biāo),在專業(yè)性內(nèi)容推薦上具有更好的推薦效果。 (2)相關(guān)查詢推薦:本文提出了一個(gè)改進(jìn)的模塊度算法,該算法利用偽相關(guān)反饋對(duì)用戶初步查詢的結(jié)果使用模塊度算法進(jìn)行社團(tuán)挖掘,識(shí)別出模糊查詢所隸屬于的不同語(yǔ)義社團(tuán),最終將模糊查詢的不同語(yǔ)義相關(guān)查詢推薦給用戶。實(shí)驗(yàn)表明在純度值、推薦成功率等指標(biāo)上,模塊度算法比其他算法具有一定的優(yōu)勢(shì)。 (3)推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn):本文設(shè)計(jì)并開發(fā)了一個(gè)查詢推薦系統(tǒng),該系統(tǒng)劃分為表示層、接入層、模型層、數(shù)據(jù)層。整個(gè)系統(tǒng)分層次的設(shè)計(jì)方便了系統(tǒng)的維護(hù)以及功能擴(kuò)展。 本文設(shè)計(jì)開發(fā)的查詢推薦系統(tǒng)已應(yīng)用到教育網(wǎng)的分布式搜索引擎SE6中,該搜索引擎面向中國(guó)教育科研網(wǎng)絡(luò),提供教育科研等相關(guān)領(lǐng)域的檢索服務(wù),應(yīng)用效果表明本推薦系統(tǒng)生成的查詢推薦詞,,支持查詢的多樣性和主題性推,用戶交互性強(qiáng),效率也較高。
【關(guān)鍵詞】:查詢推薦 相關(guān)查詢 基于非日志 搜索引擎
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【目錄】:
- 摘要5-6
- Abstract6-9
- 第一章 緒論9-14
- 1.1 研究背景與意義9-10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-12
- 1.3 主要研究工作12-13
- 1.4 論文組織結(jié)構(gòu)13-14
- 第二章 相關(guān)理論和技術(shù)14-28
- 2.1 搜索引擎概述14-17
- 2.1.1 倒排索引15-16
- 2.1.2 向量模型16-17
- 2.2 搜索引擎的查詢推薦17-21
- 2.2.1 基于日志的查詢推薦17-19
- 2.2.2 非日志查詢推薦19-20
- 2.2.3 差異化查詢推薦20-21
- 2.2.4 性能評(píng)價(jià)21
- 2.3 社團(tuán)發(fā)現(xiàn)及聚類21-24
- 2.3.1 小世界網(wǎng)絡(luò)模型及詞關(guān)系網(wǎng)絡(luò)22-23
- 2.3.2 劃分算法23-24
- 2.3.3 模塊度算法24
- 2.4 主題模型24-27
- 2.4.1 主題模型的輸入25
- 2.4.2 主題模型中的基本假設(shè)25-26
- 2.4.3 主題模型的表示26
- 2.4.4 參數(shù)估計(jì)過(guò)程26-27
- 2.4.5 新樣本的推斷27
- 2.5 本章小結(jié)27-28
- 第三章 輸入查詢?cè)~推薦28-47
- 3.1 基于貝葉斯的查詢推薦28-32
- 3.1.1 定義查詢?cè)~概率28-29
- 3.1.2 概率估算29-30
- 3.1.3 算法設(shè)計(jì)30-32
- 3.2 基于主題模型的查詢推薦32-36
- 3.2.1 基于 LDA 的模型表示32-34
- 3.2.2 主題模型推薦算法34-36
- 3.3 實(shí)驗(yàn)分析36-45
- 3.3.1 數(shù)據(jù)集36
- 3.3.2 測(cè)試文本用例36-38
- 3.3.3 貝葉斯查詢推薦比較實(shí)驗(yàn)38-41
- 3.3.4 主題模型查詢推薦比較實(shí)驗(yàn)41-45
- 3.4 本章小結(jié)45-47
- 第四章 相關(guān)查詢推薦47-58
- 4.1 數(shù)據(jù)預(yù)處理47-48
- 4.2 社團(tuán)結(jié)構(gòu)發(fā)現(xiàn)48-53
- 4.2.1 模塊度算法48-51
- 4.2.2 劃分算法51-53
- 4.3 實(shí)驗(yàn)分析53-57
- 4.3.1 數(shù)據(jù)集及測(cè)試用例53
- 4.3.2 評(píng)價(jià)標(biāo)準(zhǔn)53-54
- 4.3.3 結(jié)果分析54-57
- 4.4 本章小結(jié)57-58
- 第五章 查詢推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)58-67
- 5.1 設(shè)計(jì)目標(biāo)58
- 5.2 功能架構(gòu)設(shè)計(jì)58-60
- 5.3 模塊詳細(xì)設(shè)計(jì)60-66
- 5.3.1 表示層模塊設(shè)計(jì)60-62
- 5.3.2 接入層模塊設(shè)計(jì)62-63
- 5.3.3 模型層模塊設(shè)計(jì)63-65
- 5.3.4 數(shù)據(jù)層模塊設(shè)計(jì)65-66
- 5.4 系統(tǒng)展示66
- 5.5 本章小結(jié)66-67
- 結(jié)論和展望67-69
- 參考文獻(xiàn)69-74
- 攻讀碩士學(xué)位期間取得的研究成果74-75
- 致謝75-76
- 附件76
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前4條
1 孫茂松,鄒嘉彥;漢語(yǔ)自動(dòng)分詞研究評(píng)述[J];當(dāng)代語(yǔ)言學(xué);2001年01期
2 徐戈;王厚峰;;自然語(yǔ)言處理中主題模型的發(fā)展[J];計(jì)算機(jī)學(xué)報(bào);2011年08期
3 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學(xué)報(bào);2007年01期
4 劉知遠(yuǎn);孫茂松;;漢語(yǔ)詞同現(xiàn)網(wǎng)絡(luò)的小世界效應(yīng)和無(wú)標(biāo)度特性[J];中文信息學(xué)報(bào);2007年06期
本文關(guān)鍵詞:專業(yè)搜索引擎的無(wú)日志查詢推薦機(jī)制研究及實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):489595
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/489595.html
最近更新
教材專著