基于向量空間模型的本地搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-09-26 13:07
本文關(guān)鍵詞:基于向量空間模型的本地搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 信息檢索 實(shí)時(shí)信息檢索 異構(gòu)信息檢索 向量空間模型 語(yǔ)義擴(kuò)展
【摘要】:近一個(gè)世紀(jì),隨著人類的知識(shí)以前所未有的速度急劇膨脹,信息存儲(chǔ)的數(shù)量越來(lái)越大,文件格式也越來(lái)越豐富。普通個(gè)人計(jì)算機(jī)往往都包含數(shù)百GB、甚至數(shù)TB的數(shù)據(jù)。要求用戶從其中篩選出感興趣的目標(biāo)文檔,往往需要付出大量的時(shí)間成本。在大量的、異構(gòu)的數(shù)據(jù)中進(jìn)行快速、準(zhǔn)確的信息檢索顯然已成為迫切的需求。目前大多數(shù)通用操作系統(tǒng),面對(duì)文件系統(tǒng)中相互嵌套、關(guān)聯(lián)的文件和文件夾,除了提供資源管理器讓用戶人工翻閱查找外,一般都還會(huì)提供一種基于文件名匹配的簡(jiǎn)易查詢工具,通過(guò)遍歷文件或文件夾的路徑實(shí)現(xiàn)文件檢索。這種僅根據(jù)字符串匹配原理的查詢方式,因?yàn)闆](méi)有參考文件正文中所包含的大量有用信息,使得大量相關(guān)的、有價(jià)值的文檔難以被發(fā)掘。在實(shí)際使用中,尤其對(duì)于一些沒(méi)有良好文件管理習(xí)慣的用戶來(lái)說(shuō),效果很不理想。本文應(yīng)用基于傳統(tǒng)的向量空間模型的多層向量空間模型,并改進(jìn)了其定義的權(quán)重計(jì)算方法,同時(shí)還加入了基于用戶點(diǎn)擊行為的相關(guān)反饋技術(shù)和基于同義詞詞典的查詢語(yǔ)義擴(kuò)展技術(shù)。利用這些技術(shù)實(shí)現(xiàn)了本地磁盤上異構(gòu)化文件的全文實(shí)時(shí)信息檢索服務(wù)核心系統(tǒng)。然后在該核心系統(tǒng)的基礎(chǔ)上,基于WebSocket通信協(xié)議制定了該系統(tǒng)的控制命令協(xié)議,實(shí)現(xiàn)了該系統(tǒng)的本地脫機(jī)和異地聯(lián)機(jī)檢索。目前,該系統(tǒng)已經(jīng)過(guò)多次測(cè)試,并已經(jīng)投入使用,取得了不錯(cuò)的效果。本文主要介紹了該信息檢索系統(tǒng)的具體設(shè)計(jì)和實(shí)現(xiàn)方法。特別是改進(jìn)了多層向量空間模型的權(quán)重計(jì)算方法,并在貝葉斯估計(jì)投票排名算法基礎(chǔ)之上,引入了基于用戶點(diǎn)擊行為的相關(guān)反饋技術(shù)。另外本文在查詢語(yǔ)義擴(kuò)展技術(shù)、以及利用VSM在異構(gòu)的、動(dòng)態(tài)的數(shù)據(jù)環(huán)境下中進(jìn)行信息檢索的具體方法等方面也做出了較為深入的研究和實(shí)現(xiàn)。最后,本文還嘗試分析和說(shuō)明了多層向量空間模型的效果、性能及改進(jìn)方向。
【關(guān)鍵詞】:信息檢索 實(shí)時(shí)信息檢索 異構(gòu)信息檢索 向量空間模型 語(yǔ)義擴(kuò)展
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 緒論10-18
- 1.1 課題背景10
- 1.2 開發(fā)目的和意義10
- 1.3 國(guó)內(nèi)外研究現(xiàn)狀與分析10-16
- 1.3.1 信息檢索理論概述10-12
- 1.3.2 向量空間模型12-15
- 1.3.3 信息檢索系統(tǒng)的評(píng)測(cè)標(biāo)準(zhǔn)15-16
- 1.3.4 中文信息檢索研究現(xiàn)狀16
- 1.4 本文的主要內(nèi)容及組織結(jié)構(gòu)16-18
- 第2章 檢索核心系統(tǒng)關(guān)鍵技術(shù)與算法18-26
- 2.1 信息檢索系統(tǒng)流程18-20
- 2.2 基于索引詞位置差異性的權(quán)重計(jì)算方法20-23
- 2.3 基于用戶點(diǎn)擊行為的相關(guān)反饋技術(shù)23-24
- 2.4 基于同義詞詞典的查詢語(yǔ)義擴(kuò)展技術(shù)24-25
- 2.5 本章小結(jié)25-26
- 第3章 需求分析與系統(tǒng)總體設(shè)計(jì)26-41
- 3.1 需求分析26-34
- 3.1.1 系統(tǒng)業(yè)務(wù)需求26-30
- 3.1.2 系統(tǒng)功能需求30-33
- 3.1.3 系統(tǒng)性能需求33-34
- 3.1.4 系統(tǒng)運(yùn)行環(huán)境需求34
- 3.2 系統(tǒng)總體設(shè)計(jì)34-40
- 3.2.1 系統(tǒng)總體架構(gòu)方案35-36
- 3.2.2 人機(jī)交互界面原型設(shè)計(jì)36-38
- 3.2.3 檢索核心系統(tǒng)重要模塊設(shè)計(jì)方案38-40
- 3.3 本章小結(jié)40-41
- 第4章 系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)41-74
- 4.1 人機(jī)交互界面詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)42-47
- 4.1.1 顯示模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)42-45
- 4.1.2 通信模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)45-47
- 4.2 檢索核心系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)47-73
- 4.2.1 文本預(yù)處理模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)48-51
- 4.2.2 索引模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)51-62
- 4.2.3 查詢處理模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)62-65
- 4.2.4 相關(guān)反饋模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)65-66
- 4.2.5 搜索排序模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)66-70
- 4.2.6 實(shí)時(shí)模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)70-73
- 4.3 本章小結(jié)73-74
- 第5章 系統(tǒng)測(cè)試與性能分析74-80
- 5.1 測(cè)試環(huán)境74
- 5.2 功能測(cè)試74-76
- 5.3 性能測(cè)試與分析76-79
- 5.4 本章小結(jié)79-80
- 結(jié)論80-81
- 參考文獻(xiàn)81-84
- 致謝84
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 馮佳捷;王瑞;;中文分詞技術(shù)對(duì)中文搜索引擎的查準(zhǔn)率及查全率的影響[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2013年06期
2 郝文寧;穆新國(guó);陳剛;靳大尉;趙水寧;;基于軍事訓(xùn)練本體的文檔向量空間模型構(gòu)建[J];計(jì)算機(jī)應(yīng)用;2012年S2期
3 宋艷華;;向量空間模型在電信企業(yè)中的應(yīng)用[J];科技信息;2010年34期
4 夏云慶;楊瑩;張鵬洲;劉宇飛;;基于情感向量空間模型的歌詞情感分析[J];中文信息學(xué)報(bào);2010年01期
5 鮑鈺;;基于Web日志的個(gè)性化搜索引擎模型的發(fā)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2009年05期
6 文振威;秦曉;;個(gè)性化搜索引擎的研究與設(shè)計(jì)[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年02期
7 羊晶t,
本文編號(hào):923668
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/923668.html
最近更新
教材專著