天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于相關(guān)詞識別的數(shù)據(jù)庫全文檢索研究

發(fā)布時間:2017-09-05 18:40

  本文關(guān)鍵詞:基于相關(guān)詞識別的數(shù)據(jù)庫全文檢索研究


  更多相關(guān)文章: 相關(guān)詞識別 數(shù)據(jù)庫全文檢索 lucene 相關(guān)詞搜索


【摘要】:隨著計算機的大量普及,各行各業(yè)的信息化進(jìn)程也不斷加快,各種信息化系統(tǒng)不斷涌現(xiàn)。數(shù)據(jù)庫作為應(yīng)用系統(tǒng)的數(shù)據(jù)來源,隨著這些信息系統(tǒng)的長期使用,數(shù)據(jù)庫中的各種業(yè)務(wù)數(shù)據(jù)不斷積累,如何從這大量的數(shù)據(jù)中快速找到需要的信息推動了我們對數(shù)據(jù)庫全文檢索的研究。 針對上述需求,本文在信息系統(tǒng)中設(shè)計實現(xiàn)了數(shù)據(jù)庫全文檢索框架,在比較兩種全文索引實現(xiàn)的優(yōu)缺點后,基于開源搜索引擎lucene來創(chuàng)建索引和搜索索引,完成對數(shù)據(jù)庫的全文檢索。并用增量索引的方式對索引庫進(jìn)行維護(hù)。 Lucene提供的對索引的搜索是針對關(guān)鍵詞的精準(zhǔn)搜索。但是由于生活中人們對同一事物的描述千差萬別,所以這樣的搜索就會導(dǎo)致結(jié)果不夠全面。這需要檢索系統(tǒng)自動識別用戶的意圖,能夠全面合理的檢索到用戶希望看到的結(jié)果,這就對中文同義詞的識別技術(shù)提出了更嚴(yán)格的要求。鑒于上述問題,本文深入研究了同義詞識別的相關(guān)算法,利用數(shù)據(jù)庫中已有的大量數(shù)據(jù)改進(jìn)同義詞識別的算法應(yīng)用于大數(shù)據(jù)中提取相關(guān)詞,借此構(gòu)造應(yīng)用于本系統(tǒng)的相關(guān)詞詞庫。在此相關(guān)詞詞庫的基礎(chǔ)上,在數(shù)據(jù)庫全文檢索框架中加入對相關(guān)詞的識別,并針對在加入相關(guān)詞后的檢索結(jié)果排序問題對lucene自帶的排序算法做了改進(jìn),把相關(guān)詞和關(guān)鍵詞對結(jié)果的影響的重要度區(qū)分開來。實驗結(jié)果表明,這種方法擴(kuò)展了搜索結(jié)果,提高了檢索系統(tǒng)的查全率。 目前國內(nèi)對中文同義詞識別方面的研究才剛剛開始,在搜索引擎中的應(yīng)用也不能盡如人意。本文以高校信息管理系統(tǒng)的應(yīng)用為背景,以學(xué)科相關(guān)詞的識別為目的,參考同義詞識別方面的相關(guān)算法思想,結(jié)合lucene構(gòu)建了一個支持相關(guān)詞識別的數(shù)據(jù)庫全文檢索模型,改進(jìn)同義詞識別方法應(yīng)用于相關(guān)詞詞庫的構(gòu)造中,從學(xué)科門類中基于概念樹的語義相似度算法計算概念問的相似度,根據(jù)相似度的大小來確定相關(guān)詞,另一方面,從現(xiàn)有的論文數(shù)據(jù)中基于統(tǒng)計的相關(guān)思想提取相關(guān)詞。通過相關(guān)詞詞庫的構(gòu)造,把相關(guān)詞的識別應(yīng)用于全文檢索中。在基于向量空間模型的基礎(chǔ)上,把關(guān)鍵詞對結(jié)果的影響大小用相關(guān)度的概念來描述,設(shè)計了合理的結(jié)果排序方法。
【關(guān)鍵詞】:相關(guān)詞識別 數(shù)據(jù)庫全文檢索 lucene 相關(guān)詞搜索
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP311.13;TP391.3
【目錄】:
  • 摘要10-12
  • ABSTRACT12-14
  • 第一章 緒論14-21
  • 1.1 研究背景和研究意義14-15
  • 1.1.1 研究背景14-15
  • 1.1.2 研究意義15
  • 1.2 國內(nèi)外研究現(xiàn)狀15-18
  • 1.2.1 數(shù)據(jù)庫全文栓索技術(shù)的研究現(xiàn)狀15-16
  • 1.2.2 同義詞識別技術(shù)的研究現(xiàn)狀16-18
  • 1.3 本文主要工作18-19
  • 1.3.1 主要研究內(nèi)容18-19
  • 1.3.2 創(chuàng)新點19
  • 1.4 本文組織結(jié)構(gòu)19-21
  • 第二章 數(shù)據(jù)庫全文檢索框架設(shè)計21-36
  • 2.1 全文檢索技術(shù)21-23
  • 2.2 lucene技術(shù)簡介23-27
  • 2.2.1 lucene系統(tǒng)結(jié)構(gòu)23-24
  • 2.2.2 lucene功能24-26
  • 2.2.3 lucene優(yōu)缺點26-27
  • 2.3 中文分詞27-28
  • 2.4 數(shù)據(jù)庫全文檢索系統(tǒng)架構(gòu)與工作原理28-35
  • 2.4.1 系統(tǒng)架構(gòu)設(shè)計28
  • 2.4.2 創(chuàng)建索引模塊的設(shè)計28-32
  • 2.4.3 搜索索引模塊的設(shè)計32-34
  • 2.4.4 索引維護(hù)34-35
  • 2.5 本章小結(jié)35-36
  • 第三章 基于高校信息系統(tǒng)的相關(guān)詞庫的生成36-45
  • 3.1 引言36-37
  • 3.2 常用的同義詞識別算法37-38
  • 3.3 相關(guān)詞詞庫的建立38-42
  • 3.3.1 把學(xué)科相關(guān)詞抽取出來加入相關(guān)詞詞庫38-40
  • 3.3.2 成果信息中抽取相關(guān)詞加入相關(guān)詞詞庫40-42
  • 3.4 相關(guān)詞詞庫的存儲及更新42-44
  • 3.4.1 詞庫的存儲42-43
  • 3.4.2 詞庫的更新43-44
  • 3.5 本章小結(jié)44-45
  • 第四章 相關(guān)詞檢索的設(shè)計45-51
  • 4.1 引言45-46
  • 4.2 相關(guān)詞檢索原理介紹46-48
  • 4.2.1 加入相關(guān)詞檢索的數(shù)據(jù)庫全文檢索系統(tǒng)架構(gòu)設(shè)計46-47
  • 4.2.2 相關(guān)詞加入全文檢索的實現(xiàn)原理47-48
  • 4.3 相關(guān)詞檢索的結(jié)果排序48-51
  • 第五章 系統(tǒng)設(shè)計與實現(xiàn)51-57
  • 5.1 系統(tǒng)設(shè)計51-52
  • 5.2 系統(tǒng)主要功能模塊實現(xiàn)52-55
  • 5.2.1 數(shù)據(jù)庫全文檢索模塊的實現(xiàn)52-53
  • 5.2.2 相關(guān)詞搜索的實現(xiàn)53-55
  • 5.3 實驗結(jié)果分析55-57
  • 第六章 總結(jié)與展望57-59
  • 6.1 總結(jié)57-58
  • 6.2 展望58-59
  • 參考文獻(xiàn)59-62
  • 致謝62-63
  • 攻讀碩士期間發(fā)表的論文63-64
  • 攻讀碩士期間參加項目情況64-65
  • 學(xué)位論文評閱及答辯情況表65

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前9條

1 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計算方法[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2010年06期

2 楊寶峰;;數(shù)據(jù)庫全文檢索技術(shù)[J];黑龍江科技信息;2007年05期

3 宋震,郭海霞;淺析基于超文本的全文檢索技術(shù)[J];津圖學(xué)刊;2003年04期

4 張枝令;;結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的分類方法[J];寧德師專學(xué)報(自然科學(xué)版);2007年04期

5 陸勇,侯漢清;用于信息檢索的同義詞自動識別及其進(jìn)展[J];南京農(nóng)業(yè)大學(xué)學(xué)報(社會科學(xué)版);2004年03期

6 劉華梅,侯漢清;基于情報檢索的漢語同義詞識別初探[J];情報理論與實踐;2005年04期

7 宋明亮;漢語詞匯字面相似性原理與后控制詞表動態(tài)維護(hù)研究[J];情報學(xué)報;1996年04期

8 陸勇;侯漢清;;基于PageRank算法的漢語同義詞自動識別[J];西華大學(xué)學(xué)報(自然科學(xué)版);2008年02期

9 徐葉強;朱艷輝;栗春亮;王文華;;基于Lucene的海量數(shù)據(jù)庫全文檢索的設(shè)計與實現(xiàn)[J];湖南工業(yè)大學(xué)學(xué)報;2011年02期



本文編號:799653

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/799653.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0298d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com