基于相關(guān)詞識別的數(shù)據(jù)庫全文檢索研究
本文關(guān)鍵詞:基于相關(guān)詞識別的數(shù)據(jù)庫全文檢索研究
更多相關(guān)文章: 相關(guān)詞識別 數(shù)據(jù)庫全文檢索 lucene 相關(guān)詞搜索
【摘要】:隨著計算機的大量普及,各行各業(yè)的信息化進(jìn)程也不斷加快,各種信息化系統(tǒng)不斷涌現(xiàn)。數(shù)據(jù)庫作為應(yīng)用系統(tǒng)的數(shù)據(jù)來源,隨著這些信息系統(tǒng)的長期使用,數(shù)據(jù)庫中的各種業(yè)務(wù)數(shù)據(jù)不斷積累,如何從這大量的數(shù)據(jù)中快速找到需要的信息推動了我們對數(shù)據(jù)庫全文檢索的研究。 針對上述需求,本文在信息系統(tǒng)中設(shè)計實現(xiàn)了數(shù)據(jù)庫全文檢索框架,在比較兩種全文索引實現(xiàn)的優(yōu)缺點后,基于開源搜索引擎lucene來創(chuàng)建索引和搜索索引,完成對數(shù)據(jù)庫的全文檢索。并用增量索引的方式對索引庫進(jìn)行維護(hù)。 Lucene提供的對索引的搜索是針對關(guān)鍵詞的精準(zhǔn)搜索。但是由于生活中人們對同一事物的描述千差萬別,所以這樣的搜索就會導(dǎo)致結(jié)果不夠全面。這需要檢索系統(tǒng)自動識別用戶的意圖,能夠全面合理的檢索到用戶希望看到的結(jié)果,這就對中文同義詞的識別技術(shù)提出了更嚴(yán)格的要求。鑒于上述問題,本文深入研究了同義詞識別的相關(guān)算法,利用數(shù)據(jù)庫中已有的大量數(shù)據(jù)改進(jìn)同義詞識別的算法應(yīng)用于大數(shù)據(jù)中提取相關(guān)詞,借此構(gòu)造應(yīng)用于本系統(tǒng)的相關(guān)詞詞庫。在此相關(guān)詞詞庫的基礎(chǔ)上,在數(shù)據(jù)庫全文檢索框架中加入對相關(guān)詞的識別,并針對在加入相關(guān)詞后的檢索結(jié)果排序問題對lucene自帶的排序算法做了改進(jìn),把相關(guān)詞和關(guān)鍵詞對結(jié)果的影響的重要度區(qū)分開來。實驗結(jié)果表明,這種方法擴(kuò)展了搜索結(jié)果,提高了檢索系統(tǒng)的查全率。 目前國內(nèi)對中文同義詞識別方面的研究才剛剛開始,在搜索引擎中的應(yīng)用也不能盡如人意。本文以高校信息管理系統(tǒng)的應(yīng)用為背景,以學(xué)科相關(guān)詞的識別為目的,參考同義詞識別方面的相關(guān)算法思想,結(jié)合lucene構(gòu)建了一個支持相關(guān)詞識別的數(shù)據(jù)庫全文檢索模型,改進(jìn)同義詞識別方法應(yīng)用于相關(guān)詞詞庫的構(gòu)造中,從學(xué)科門類中基于概念樹的語義相似度算法計算概念問的相似度,根據(jù)相似度的大小來確定相關(guān)詞,另一方面,從現(xiàn)有的論文數(shù)據(jù)中基于統(tǒng)計的相關(guān)思想提取相關(guān)詞。通過相關(guān)詞詞庫的構(gòu)造,把相關(guān)詞的識別應(yīng)用于全文檢索中。在基于向量空間模型的基礎(chǔ)上,把關(guān)鍵詞對結(jié)果的影響大小用相關(guān)度的概念來描述,設(shè)計了合理的結(jié)果排序方法。
【關(guān)鍵詞】:相關(guān)詞識別 數(shù)據(jù)庫全文檢索 lucene 相關(guān)詞搜索
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP311.13;TP391.3
【目錄】:
- 摘要10-12
- ABSTRACT12-14
- 第一章 緒論14-21
- 1.1 研究背景和研究意義14-15
- 1.1.1 研究背景14-15
- 1.1.2 研究意義15
- 1.2 國內(nèi)外研究現(xiàn)狀15-18
- 1.2.1 數(shù)據(jù)庫全文栓索技術(shù)的研究現(xiàn)狀15-16
- 1.2.2 同義詞識別技術(shù)的研究現(xiàn)狀16-18
- 1.3 本文主要工作18-19
- 1.3.1 主要研究內(nèi)容18-19
- 1.3.2 創(chuàng)新點19
- 1.4 本文組織結(jié)構(gòu)19-21
- 第二章 數(shù)據(jù)庫全文檢索框架設(shè)計21-36
- 2.1 全文檢索技術(shù)21-23
- 2.2 lucene技術(shù)簡介23-27
- 2.2.1 lucene系統(tǒng)結(jié)構(gòu)23-24
- 2.2.2 lucene功能24-26
- 2.2.3 lucene優(yōu)缺點26-27
- 2.3 中文分詞27-28
- 2.4 數(shù)據(jù)庫全文檢索系統(tǒng)架構(gòu)與工作原理28-35
- 2.4.1 系統(tǒng)架構(gòu)設(shè)計28
- 2.4.2 創(chuàng)建索引模塊的設(shè)計28-32
- 2.4.3 搜索索引模塊的設(shè)計32-34
- 2.4.4 索引維護(hù)34-35
- 2.5 本章小結(jié)35-36
- 第三章 基于高校信息系統(tǒng)的相關(guān)詞庫的生成36-45
- 3.1 引言36-37
- 3.2 常用的同義詞識別算法37-38
- 3.3 相關(guān)詞詞庫的建立38-42
- 3.3.1 把學(xué)科相關(guān)詞抽取出來加入相關(guān)詞詞庫38-40
- 3.3.2 成果信息中抽取相關(guān)詞加入相關(guān)詞詞庫40-42
- 3.4 相關(guān)詞詞庫的存儲及更新42-44
- 3.4.1 詞庫的存儲42-43
- 3.4.2 詞庫的更新43-44
- 3.5 本章小結(jié)44-45
- 第四章 相關(guān)詞檢索的設(shè)計45-51
- 4.1 引言45-46
- 4.2 相關(guān)詞檢索原理介紹46-48
- 4.2.1 加入相關(guān)詞檢索的數(shù)據(jù)庫全文檢索系統(tǒng)架構(gòu)設(shè)計46-47
- 4.2.2 相關(guān)詞加入全文檢索的實現(xiàn)原理47-48
- 4.3 相關(guān)詞檢索的結(jié)果排序48-51
- 第五章 系統(tǒng)設(shè)計與實現(xiàn)51-57
- 5.1 系統(tǒng)設(shè)計51-52
- 5.2 系統(tǒng)主要功能模塊實現(xiàn)52-55
- 5.2.1 數(shù)據(jù)庫全文檢索模塊的實現(xiàn)52-53
- 5.2.2 相關(guān)詞搜索的實現(xiàn)53-55
- 5.3 實驗結(jié)果分析55-57
- 第六章 總結(jié)與展望57-59
- 6.1 總結(jié)57-58
- 6.2 展望58-59
- 參考文獻(xiàn)59-62
- 致謝62-63
- 攻讀碩士期間發(fā)表的論文63-64
- 攻讀碩士期間參加項目情況64-65
- 學(xué)位論文評閱及答辯情況表65
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計算方法[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2010年06期
2 楊寶峰;;數(shù)據(jù)庫全文檢索技術(shù)[J];黑龍江科技信息;2007年05期
3 宋震,郭海霞;淺析基于超文本的全文檢索技術(shù)[J];津圖學(xué)刊;2003年04期
4 張枝令;;結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的分類方法[J];寧德師專學(xué)報(自然科學(xué)版);2007年04期
5 陸勇,侯漢清;用于信息檢索的同義詞自動識別及其進(jìn)展[J];南京農(nóng)業(yè)大學(xué)學(xué)報(社會科學(xué)版);2004年03期
6 劉華梅,侯漢清;基于情報檢索的漢語同義詞識別初探[J];情報理論與實踐;2005年04期
7 宋明亮;漢語詞匯字面相似性原理與后控制詞表動態(tài)維護(hù)研究[J];情報學(xué)報;1996年04期
8 陸勇;侯漢清;;基于PageRank算法的漢語同義詞自動識別[J];西華大學(xué)學(xué)報(自然科學(xué)版);2008年02期
9 徐葉強;朱艷輝;栗春亮;王文華;;基于Lucene的海量數(shù)據(jù)庫全文檢索的設(shè)計與實現(xiàn)[J];湖南工業(yè)大學(xué)學(xué)報;2011年02期
,本文編號:799653
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/799653.html