基于相關(guān)詞識別的數(shù)據(jù)庫全文檢索研究

發(fā)布時間：2017-09-05 18:40

本文關(guān)鍵詞：基于相關(guān)詞識別的數(shù)據(jù)庫全文檢索研究

【摘要】：隨著計算機的大量普及,各行各業(yè)的信息化進(jìn)程也不斷加快,各種信息化系統(tǒng)不斷涌現(xiàn)。數(shù)據(jù)庫作為應(yīng)用系統(tǒng)的數(shù)據(jù)來源,隨著這些信息系統(tǒng)的長期使用,數(shù)據(jù)庫中的各種業(yè)務(wù)數(shù)據(jù)不斷積累,如何從這大量的數(shù)據(jù)中快速找到需要的信息推動了我們對數(shù)據(jù)庫全文檢索的研究。針對上述需求,本文在信息系統(tǒng)中設(shè)計實現(xiàn)了數(shù)據(jù)庫全文檢索框架,在比較兩種全文索引實現(xiàn)的優(yōu)缺點后,基于開源搜索引擎lucene來創(chuàng)建索引和搜索索引,完成對數(shù)據(jù)庫的全文檢索。并用增量索引的方式對索引庫進(jìn)行維護(hù)。 Lucene提供的對索引的搜索是針對關(guān)鍵詞的精準(zhǔn)搜索。但是由于生活中人們對同一事物的描述千差萬別,所以這樣的搜索就會導(dǎo)致結(jié)果不夠全面。這需要檢索系統(tǒng)自動識別用戶的意圖,能夠全面合理的檢索到用戶希望看到的結(jié)果,這就對中文同義詞的識別技術(shù)提出了更嚴(yán)格的要求。鑒于上述問題,本文深入研究了同義詞識別的相關(guān)算法,利用數(shù)據(jù)庫中已有的大量數(shù)據(jù)改進(jìn)同義詞識別的算法應(yīng)用于大數(shù)據(jù)中提取相關(guān)詞,借此構(gòu)造應(yīng)用于本系統(tǒng)的相關(guān)詞詞庫。在此相關(guān)詞詞庫的基礎(chǔ)上,在數(shù)據(jù)庫全文檢索框架中加入對相關(guān)詞的識別,并針對在加入相關(guān)詞后的檢索結(jié)果排序問題對lucene自帶的排序算法做了改進(jìn),把相關(guān)詞和關(guān)鍵詞對結(jié)果的影響的重要度區(qū)分開來。實驗結(jié)果表明,這種方法擴(kuò)展了搜索結(jié)果,提高了檢索系統(tǒng)的查全率。目前國內(nèi)對中文同義詞識別方面的研究才剛剛開始,在搜索引擎中的應(yīng)用也不能盡如人意。本文以高校信息管理系統(tǒng)的應(yīng)用為背景,以學(xué)科相關(guān)詞的識別為目的,參考同義詞識別方面的相關(guān)算法思想,結(jié)合lucene構(gòu)建了一個支持相關(guān)詞識別的數(shù)據(jù)庫全文檢索模型,改進(jìn)同義詞識別方法應(yīng)用于相關(guān)詞詞庫的構(gòu)造中,從學(xué)科門類中基于概念樹的語義相似度算法計算概念問的相似度,根據(jù)相似度的大小來確定相關(guān)詞,另一方面,從現(xiàn)有的論文數(shù)據(jù)中基于統(tǒng)計的相關(guān)思想提取相關(guān)詞。通過相關(guān)詞詞庫的構(gòu)造,把相關(guān)詞的識別應(yīng)用于全文檢索中。在基于向量空間模型的基礎(chǔ)上,把關(guān)鍵詞對結(jié)果的影響大小用相關(guān)度的概念來描述,設(shè)計了合理的結(jié)果排序方法。
【關(guān)鍵詞】：相關(guān)詞識別 數(shù)據(jù)庫全文檢索 lucene 相關(guān)詞搜索
【學(xué)位授予單位】：山東大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2014
【分類號】：TP311.13;TP391.3
【目錄】：

摘要10-12
ABSTRACT12-14
第一章緒論14-21
1.1 研究背景和研究意義14-15
1.1.1 研究背景14-15
1.1.2 研究意義15
1.2 國內(nèi)外研究現(xiàn)狀15-18
1.2.1 數(shù)據(jù)庫全文栓索技術(shù)的研究現(xiàn)狀15-16
1.2.2 同義詞識別技術(shù)的研究現(xiàn)狀16-18
1.3 本文主要工作18-19
1.3.1 主要研究內(nèi)容18-19
1.3.2 創(chuàng)新點19
1.4 本文組織結(jié)構(gòu)19-21
第二章數(shù)據(jù)庫全文檢索框架設(shè)計21-36
2.1 全文檢索技術(shù)21-23
2.2 lucene技術(shù)簡介23-27
2.2.1 lucene系統(tǒng)結(jié)構(gòu)23-24
2.2.2 lucene功能24-26
2.2.3 lucene優(yōu)缺點26-27
2.3 中文分詞27-28
2.4 數(shù)據(jù)庫全文檢索系統(tǒng)架構(gòu)與工作原理28-35
2.4.1 系統(tǒng)架構(gòu)設(shè)計28
2.4.2 創(chuàng)建索引模塊的設(shè)計28-32
2.4.3 搜索索引模塊的設(shè)計32-34
2.4.4 索引維護(hù)34-35
2.5 本章小結(jié)35-36
第三章基于高校信息系統(tǒng)的相關(guān)詞庫的生成36-45
3.1 引言36-37
3.2 常用的同義詞識別算法37-38
3.3 相關(guān)詞詞庫的建立38-42
3.3.1 把學(xué)科相關(guān)詞抽取出來加入相關(guān)詞詞庫38-40
3.3.2 成果信息中抽取相關(guān)詞加入相關(guān)詞詞庫40-42
3.4 相關(guān)詞詞庫的存儲及更新42-44
3.4.1 詞庫的存儲42-43
3.4.2 詞庫的更新43-44
3.5 本章小結(jié)44-45
第四章相關(guān)詞檢索的設(shè)計45-51
4.1 引言45-46
4.2 相關(guān)詞檢索原理介紹46-48
4.2.1 加入相關(guān)詞檢索的數(shù)據(jù)庫全文檢索系統(tǒng)架構(gòu)設(shè)計46-47
4.2.2 相關(guān)詞加入全文檢索的實現(xiàn)原理47-48
4.3 相關(guān)詞檢索的結(jié)果排序48-51
第五章系統(tǒng)設(shè)計與實現(xiàn)51-57
5.1 系統(tǒng)設(shè)計51-52
5.2 系統(tǒng)主要功能模塊實現(xiàn)52-55
5.2.1 數(shù)據(jù)庫全文檢索模塊的實現(xiàn)52-53
5.2.2 相關(guān)詞搜索的實現(xiàn)53-55
5.3 實驗結(jié)果分析55-57
第六章總結(jié)與展望57-59
6.1 總結(jié)57-58
6.2 展望58-59
參考文獻(xiàn)59-62
致謝62-63
攻讀碩士期間發(fā)表的論文63-64
攻讀碩士期間參加項目情況64-65
學(xué)位論文評閱及答辯情況表65

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前9條

1 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計算方法[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2010年06期

2 楊寶峰;;數(shù)據(jù)庫全文檢索技術(shù)[J];黑龍江科技信息;2007年05期

3 宋震,郭海霞;淺析基于超文本的全文檢索技術(shù)[J];津圖學(xué)刊;2003年04期

4 張枝令;;結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的分類方法[J];寧德師專學(xué)報(自然科學(xué)版);2007年04期

5 陸勇,侯漢清;用于信息檢索的同義詞自動識別及其進(jìn)展[J];南京農(nóng)業(yè)大學(xué)學(xué)報(社會科學(xué)版);2004年03期

6 劉華梅,侯漢清;基于情報檢索的漢語同義詞識別初探[J];情報理論與實踐;2005年04期

7 宋明亮;漢語詞匯字面相似性原理與后控制詞表動態(tài)維護(hù)研究[J];情報學(xué)報;1996年04期

8 陸勇;侯漢清;;基于PageRank算法的漢語同義詞自動識別[J];西華大學(xué)學(xué)報(自然科學(xué)版);2008年02期

9 徐葉強;朱艷輝;栗春亮;王文華;;基于Lucene的海量數(shù)據(jù)庫全文檢索的設(shè)計與實現(xiàn)[J];湖南工業(yè)大學(xué)學(xué)報;2011年02期

，

本文編號：799653

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/799653.html

上一篇：基于領(lǐng)域本體和位置關(guān)系的檢索模型研究
下一篇：讓服務(wù)更簡易——百度百付寶公司總經(jīng)理章政華演講精粹

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于相關(guān)詞識別的數(shù)據(jù)庫全文檢索研究