搜索引擎中查詢擴展模塊的設(shè)計與實現(xiàn)
本文關(guān)鍵詞:搜索引擎中查詢擴展模塊的設(shè)計與實現(xiàn)
更多相關(guān)文章: 社區(qū)通 搜索引擎 查詢擴展 知網(wǎng) 個性化
【摘要】:隨著網(wǎng)絡(luò)數(shù)據(jù)的迅猛增長,用戶對搜索引擎的檢索質(zhì)量和個性化服務(wù)的要求不斷提高。本文基于社區(qū)通信息化平臺信息檢索服務(wù)設(shè)計實現(xiàn)了查詢擴展模塊的實現(xiàn)方案,幫助社區(qū)通用戶準(zhǔn)確的在海量數(shù)據(jù)信息中找到滿足自己需求的信息。在搜索引擎進行檢索前,通過查詢擴展模塊對用戶的查詢條件進行擴展,可以有效的提高檢索結(jié)果的全面性和準(zhǔn)確率。另外,為了提供個性化服務(wù),本文還利用用戶的興趣特征對檢索結(jié)果進行優(yōu)化,以滿足用戶的個性化需求。完成的主要工作概括如下: (1)采用查詢擴展的方法對用戶提供的查詢關(guān)鍵詞進行同義詞擴展。利用《知網(wǎng)》知識描述語言對詞語的描述實現(xiàn)詞語相似度的計算,選取與初始查詢詞具有最大相似度的同義詞作為候選擴展詞。對于候選擴展詞,本文采用查詢其百度指數(shù)對其進行進一步的篩選,可以有效的避免將不相關(guān)的詞語加入到擴展詞集中。 (2)挖掘用戶個性化興趣特征優(yōu)化信息檢索查詢結(jié)果。提取用戶的歷史瀏覽記錄以及收藏夾中的信息,進行內(nèi)容提取、數(shù)據(jù)清理等處理,得到包含用戶興趣的文本信息;谖臋n向量之間的相似度,對文檔集進行文本聚類,將文檔集的聚類結(jié)果作為用戶興趣的分類結(jié)果,并在聚類的結(jié)果中提取出關(guān)鍵詞來表示用戶興趣特征。 本文所研究的查詢擴展模塊和個性化模塊已經(jīng)融合到社區(qū)信息化平臺的信息檢索服務(wù)中,有效地提高了信息檢索服務(wù)的質(zhì)量,增強了社區(qū)通的用戶體驗,提升了用戶黏度。
【關(guān)鍵詞】:社區(qū)通 搜索引擎 查詢擴展 知網(wǎng) 個性化
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-14
- 1.1 項目背景9-10
- 1.2 研究意義10
- 1.3 國內(nèi)外研究狀況10-12
- 1.3.1 搜索引擎研究狀況10-11
- 1.3.2 查詢擴展研究狀況11-12
- 1.4 論文研究內(nèi)容12-13
- 1.5 論文結(jié)構(gòu)13-14
- 第二章 相關(guān)技術(shù)14-24
- 2.1 搜索引擎概述14
- 2.2 搜索引擎工作原理14-17
- 2.3 查詢擴展技術(shù)17-21
- 2.3.1 基于全局分析的查詢擴展技術(shù)18-19
- 2.3.2 基于局部分析的查詢擴展技術(shù)19
- 2.3.3 基于相關(guān)反饋的查詢擴展技術(shù)19-20
- 2.3.4 基于語義詞典的查詢擴展技術(shù)20
- 2.3.5 個性化的查詢擴展技術(shù)20-21
- 2.4 語義詞典《知網(wǎng)》21-24
- 2.4.1 概念及義原21-22
- 2.4.2 《知網(wǎng)》中的知識描述語言22-24
- 第三章 需求分析與系統(tǒng)設(shè)計24-31
- 3.1 系統(tǒng)需求分析24
- 3.2 系統(tǒng)總體設(shè)計24-29
- 3.2.1 查詢擴展模塊設(shè)計26-28
- 3.2.2 個性化模塊設(shè)計28-29
- 3.3 系統(tǒng)功能目標(biāo)29-31
- 3.3.1 查詢關(guān)鍵詞擴展29
- 3.3.2 查詢百度指數(shù)29-30
- 3.3.3 用戶興趣特征提取30
- 3.3.4 搜索結(jié)果的篩選30-31
- 第四章 系統(tǒng)詳細(xì)設(shè)計與實現(xiàn)31-54
- 4.1 查詢擴展模塊詳細(xì)設(shè)計與實現(xiàn)31-44
- 4.1.1 查詢擴展模塊詳細(xì)設(shè)計31-34
- 4.1.2 基于《知網(wǎng)》的詞語相似度的計算34
- 4.1.3 義原相似度的計算34-39
- 4.1.4 概念相似度的計算39-44
- 4.1.5 詞語相似度的計算44
- 4.2 個性化模塊的設(shè)計與實現(xiàn)44-54
- 4.2.1 個性化模塊的詳細(xì)設(shè)計44-45
- 4.2.2 收集用戶信息45-46
- 4.2.3 基于向量空間模型的文本聚類46-51
- 4.2.4 提取用戶興趣特征關(guān)鍵詞51-54
- 第五章 測試結(jié)果與系統(tǒng)展示54-67
- 5.1 測試環(huán)境54
- 5.2 查詢擴展模塊測試結(jié)果54-58
- 5.2.1 義原相似度測試結(jié)果54-56
- 5.2.2 詞語相似度測試結(jié)果56-57
- 5.2.3 查詢擴展測試結(jié)果57-58
- 5.3 個性化模塊測試結(jié)果58-60
- 5.4 系統(tǒng)搜索結(jié)果展示60-64
- 5.5 性能測試64-67
- 第六章 總結(jié)與展望67-69
- 6.1 總結(jié)67
- 6.2 展望67-69
- 參考文獻(xiàn)69-71
- 致謝71
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 姚清耘;劉功申;李翔;;基于向量空間模型的文本聚類算法[J];計算機工程;2008年18期
2 黃名選;嚴(yán)小衛(wèi);張師超;;查詢擴展技術(shù)進展與展望[J];計算機應(yīng)用與軟件;2007年11期
3 張立娜;楊之音;楊波;;第三代搜索引擎發(fā)展現(xiàn)狀研究[J];科技情報開發(fā)與經(jīng)濟;2011年34期
4 袁曉峰;;《知網(wǎng)》義原相似度計算的研究[J];遼寧大學(xué)學(xué)報(自然科學(xué)版);2011年04期
5 呂碧波;趙軍;;基于相關(guān)文檔池建模的查詢擴展[J];中文信息學(xué)報;2006年03期
6 李峰;李芳;;中文詞語語義相似度計算——基于《知網(wǎng)》2000[J];中文信息學(xué)報;2007年03期
7 胡吉明;;個性化搜索引擎中的用戶興趣提取技術(shù)[J];圖書館學(xué)刊;2006年04期
8 高琰,谷士文,譚立球,費耀平;基于Lucene的搜索引擎設(shè)計與實現(xiàn)[J];微機發(fā)展;2004年10期
9 丁明;祝博;李龍森;;網(wǎng)絡(luò)信息檢索發(fā)展趨勢展望[J];科技資訊;2006年04期
,本文編號:777798
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/777798.html