基于用戶特征分析的查詢擴展技術研究與應用
本文關鍵詞:基于用戶特征分析的查詢擴展技術研究與應用
更多相關文章: 檢索擴展 特征模型 Lucene 本體 語義關聯(lián)度計算
【摘要】:從20世紀末到現(xiàn)在,搜索引擎在為人們查找信息給予了很大的方便,但是它無法提供完全令用戶滿意的結果。在現(xiàn)今的搜索引擎的使用過程中,由于用戶查詢語句過短而導致的詞不匹配、信息迷向和信息超載等問題,成為制約檢索質量的主要因素之一。另外,大部分搜索引擎沒有考慮到各個用戶的差異性特征,導致檢索結果含有較多無用的信息,準確率較低。因此,信息檢索系統(tǒng)應該能夠區(qū)別對待不同用戶的查詢請求,按照一定的策略為原查詢詞附加更多的關鍵詞,來解決用戶查詢信息不完整的問題。本文闡明了在相關領域內的科研意義和技術背景,介紹了國際國內相關方面的研究成果,簡單敘述了和本文相關的重要技術以及理論,將查詢擴展技術應用到了基于Lucene的檢索系統(tǒng)中,通過對實驗結果進行的分析證明了該技術的有效性。主要做的工作如下所示:介紹了以用戶特征模型為基礎的查詢擴展方法,論文以本體技術構造了用戶特征模型,并且根據(jù)用戶模型來擴展用戶輸入的檢索詞,借此使用戶的搜索過程更加便利。另外,根據(jù)查詢者的日志文件,考慮到不同人的差異性特征,區(qū)別各用戶的的檢索意圖,以防止發(fā)生檢索結果大大偏離用戶原本意愿的情況。在研究和參考Lucene結構的基礎上,提出了一種以Lucene為基礎的數(shù)據(jù)庫查詢系統(tǒng)(database retrieval system based-Lucene),通過實驗證明,該系統(tǒng)顯著提高了數(shù)據(jù)庫檢索的效率和召回率,能夠較好地滿足查詢者的檢索需求。本文將基于用戶特征模型的擴展技術應用到了基于Lucene索引的全文查詢系統(tǒng)中,能夠根據(jù)查詢者的差異性特征來對其檢索條件擴展,查詢結果可以較好地滿足搜索者的查詢意圖。
【關鍵詞】:檢索擴展 特征模型 Lucene 本體 語義關聯(lián)度計算
【學位授予單位】:長春工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.3
【目錄】:
- 摘要2-3
- Abstract3-6
- 第一章 緒論6-10
- 1.1 論文選題來源及研究意義6
- 1.2 國內外研究現(xiàn)狀6-8
- 1.3 論文的結構安排8-10
- 第二章 相關基礎知識及關鍵方法10-17
- 2.1 信息檢索10-11
- 2.2 搜索引擎11-13
- 2.3 本體概述13-14
- 2.4 Lucene概述14-17
- 第三章 依托于用戶模型的檢索擴展技術研究17-27
- 3.1 基于用戶模型的查詢擴展原理17-21
- 3.1.1 用戶模型的簡介17
- 3.1.2 用戶特征模型的構建17-20
- 3.1.3 查詢擴展的流程20-21
- 3.2 查詢擴展算法21-24
- 3.2.1 語義關聯(lián)度21
- 3.2.2 詞項相似度21-23
- 3.2.3 以關聯(lián)度和相似度為基礎的檢索擴展方法23-24
- 3.3 控制“查詢漂移”現(xiàn)象24-25
- 3.4 實驗驗證25-27
- 3.4.1 實驗環(huán)境25
- 3.4.2 實驗過程25-27
- 第四章 以Lucene為基礎的數(shù)據(jù)庫查詢研究27-37
- 4.1 序言27
- 4.2 Lucene的索引27-28
- 4.2.1 Lucene概述27-28
- 4.2.2 索引的層次28
- 4.3 以Lucene為基礎的數(shù)據(jù)庫查詢28-34
- 4.3.1 DRSB的層次28-29
- 4.3.2 數(shù)據(jù)庫的索引層次29-30
- 4.3.3 數(shù)據(jù)庫的倒排索引結構30-32
- 4.3.4 詞頻位置加權排序法32-33
- 4.3.5 以索引為基礎的查詢33-34
- 4.3.6 DRSB查詢與數(shù)據(jù)庫查詢對比34
- 4.4 實驗結果及實驗分析34-37
- 4.4.1 實驗的環(huán)境34-35
- 4.4.2 實驗的結果35-36
- 4.4.3 實驗分析36-37
- 第五章 查詢擴展技術在全文檢索系統(tǒng)中的應用37-41
- 5.1 系統(tǒng)概述37
- 5.2 系統(tǒng)的主要模塊37-38
- 5.3 Lucene索引庫的構建38
- 5.4 實驗結果及分析38-41
- 5.4.1 實驗結果38-40
- 5.4.2 實驗分析40-41
- 第六章 結論41-42
- 致謝42-43
- 參考文獻43-46
- 作者簡介46
- 攻讀碩士學位期間研究成果46-47
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計算方法[J];吉林大學學報(信息科學版);2010年06期
2 祝偉華;張正龍;劉斌斌;;基于全文檢索工具包Lucene的排序技術[J];重慶工學院學報(自然科學版);2008年12期
3 張雪源;賀前華;李艷雄;葉婉玲;;一種基于倒排索引的音頻檢索方法[J];電子與信息學報;2012年11期
4 范晨熙;黃理燦;李雪利;;基于Lucene的BM25模型的評分機制的研究[J];工業(yè)控制計算機;2013年03期
5 薛涵;秦兵;劉挺;;基于Folksonomy的本體構建綜述[J];電子學報;2014年04期
6 金貴陽;呂福在;項占琴;;基于知識圖譜和語義網(wǎng)技術的企業(yè)信息集成方法[J];東南大學學報(自然科學版);2014年02期
7 紀海;曹三省;;基于互聯(lián)網(wǎng)融合媒體的大數(shù)據(jù)應用技術分析[J];電視技術;2014年21期
8 孟祥娜;秦玉平;;一種基于分類和語義查詢擴展的信息檢索方法[J];信息技術;2010年09期
9 楊勁松;凌培亮;;搜索引擎PageRank算法的改進[J];計算機工程;2009年22期
10 王歡;孫瑞志;;基于領域本體和Lucene的語義檢索系統(tǒng)研究[J];計算機應用;2010年06期
,本文編號:908638
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/908638.html