天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于分布式架構(gòu)的海量文本信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-05-16 11:20

  本文關(guān)鍵詞:基于分布式架構(gòu)的海量文本信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)的使用越來(lái)越受到人們的關(guān)注,海量文本信息的組織和處理問(wèn)題,是數(shù)據(jù)挖掘搜索引擎電信業(yè)務(wù)網(wǎng)絡(luò)安全網(wǎng)絡(luò)監(jiān)管網(wǎng)絡(luò)信息收集等領(lǐng)域所必然面臨的問(wèn)題,網(wǎng)絡(luò)環(huán)境下產(chǎn)生的海量文本信息所具有的鮮明特點(diǎn)是需要全文檢索,數(shù)據(jù)產(chǎn)生速度快密度大規(guī)模大且不間斷如何存儲(chǔ)管理這類海量文本信息及完成快速檢索已經(jīng)成為當(dāng)前的一個(gè)重要課題而現(xiàn)在存儲(chǔ)管理技術(shù)往往適用于日積月累形成的海量信息,如何存儲(chǔ)管理持續(xù)高速的海量文本信息及快速檢索尚缺乏十分有效的技術(shù)手段 本課題來(lái)自于哈爾濱市大源恒晟通信技術(shù)有限公司的實(shí)際項(xiàng)目本課系統(tǒng)主要被應(yīng)用于公安網(wǎng)絡(luò)安全領(lǐng)域同時(shí),該系統(tǒng)也可以應(yīng)用于幫助用戶獲取大量的個(gè)人感興趣的文本信息 本課題所研究的內(nèi)容,是在分析該類海量文本信息特點(diǎn)的基礎(chǔ)上,運(yùn)用ORACLE10g并行數(shù)據(jù)庫(kù)分區(qū)表技術(shù)ROWID查詢技術(shù)ElasticSearch分布式架構(gòu)技術(shù)及多線程調(diào)度算法,從海量文本信息快速檢索這個(gè)特定應(yīng)用出發(fā),設(shè)計(jì)和實(shí)現(xiàn)一個(gè)將涉及海量數(shù)據(jù)加載入庫(kù)后,對(duì)海量文本信息進(jìn)行數(shù)據(jù)存儲(chǔ)管理文本索引創(chuàng)建及存儲(chǔ)管理和文本信息檢索通過(guò)使用本課題設(shè)計(jì)和實(shí)現(xiàn)的海量文本信息檢索系統(tǒng),可以滿足用戶快速檢索文本信息的需求 在完成本課題的過(guò)程中,作者分析了海量文本信息存儲(chǔ)和訪問(wèn)所需解決的問(wèn)題基于本課題海量文本信息檢索系統(tǒng)的應(yīng)用領(lǐng)域,作者進(jìn)行了業(yè)務(wù)場(chǎng)景的應(yīng)用描述,并以此歸納成為系統(tǒng)的原始需求最后,作者依據(jù)軟件開發(fā)生命周期,依次從需求分析系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)以及系統(tǒng)測(cè)試這幾個(gè)方面,詳細(xì)介紹了課題系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn) 在此過(guò)程中,,首先,本文使用用例模型分析和總結(jié)了系統(tǒng)的功能性需求然后,以此模型為基礎(chǔ)設(shè)計(jì)了整個(gè)系統(tǒng)的功能模塊和系統(tǒng)體系結(jié)構(gòu)作為這一部分的核心,針對(duì)系統(tǒng)的文本信息存儲(chǔ)文本索引創(chuàng)建工作引擎和Http檢索服務(wù)框架這兩個(gè)組件的設(shè)計(jì)和實(shí)現(xiàn),本文借助類圖時(shí)序圖流程圖模型對(duì)它們進(jìn)行了重點(diǎn)的介紹
【關(guān)鍵詞】:分布式架構(gòu) 并行數(shù)據(jù)庫(kù) 分區(qū)表 文本索引 全文檢索
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【目錄】:
  • 摘要4-5
  • Abstract5-10
  • 第1章 緒論10-17
  • 1.1 課題來(lái)源與項(xiàng)目名稱10
  • 1.2 課題背景及研究的目的和意義10-11
  • 1.3 本課題相關(guān)的國(guó)內(nèi)外研究狀況11-15
  • 1.3.1 國(guó)內(nèi)搜索引擎現(xiàn)狀11-12
  • 1.3.2 搜索引擎技術(shù)12-14
  • 1.3.3 國(guó)外優(yōu)秀案例 ES14-15
  • 1.4 本文的主要研究?jī)?nèi)容15-16
  • 1.5 本文組織結(jié)構(gòu)16-17
  • 第2章 系統(tǒng)需求分析及相關(guān)技術(shù)17-31
  • 2.1 系統(tǒng)需求描述17-18
  • 2.1.1 系統(tǒng)的應(yīng)用場(chǎng)景17
  • 2.1.2 系統(tǒng)目標(biāo)范圍需求描述17-18
  • 2.1.3 提供服務(wù)方式需求描述18
  • 2.2 系統(tǒng)需求分析與建模18-21
  • 2.2.1 系統(tǒng)需求分析18-19
  • 2.2.2 系統(tǒng)功能性需求19-20
  • 2.2.3 系統(tǒng)非功能性需求20-21
  • 2.3 系統(tǒng)相關(guān)技術(shù)21-30
  • 2.3.1 并行數(shù)據(jù)庫(kù)技術(shù)21-23
  • 2.3.2 分區(qū)表技術(shù)23-24
  • 2.3.3 ROWID 概述24-26
  • 2.3.4 全文檢索技術(shù)26
  • 2.3.5 分布式架構(gòu) ES26-30
  • 2.4 本章小結(jié)30-31
  • 第3章 系統(tǒng)的總體設(shè)計(jì)31-38
  • 3.1 系統(tǒng)的架構(gòu)設(shè)計(jì)31-33
  • 3.2 系統(tǒng)功能模塊的設(shè)計(jì)33-34
  • 3.3 系統(tǒng)數(shù)據(jù)庫(kù)相關(guān)設(shè)計(jì)34-37
  • 3.3.1 數(shù)據(jù)表設(shè)計(jì)34-36
  • 3.3.2 存儲(chǔ)過(guò)程設(shè)計(jì)36
  • 3.3.3 分區(qū)索引設(shè)計(jì)36-37
  • 3.3.4 定時(shí)任務(wù)設(shè)計(jì)37
  • 3.4 本章小結(jié)37-38
  • 第4章 系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)38-60
  • 4.1 用戶管理模塊的設(shè)計(jì)與實(shí)現(xiàn)38-40
  • 4.1.1 用戶權(quán)限模塊38-40
  • 4.1.2 用戶管理模塊40
  • 4.2 數(shù)據(jù)抽取模塊的設(shè)計(jì)與實(shí)現(xiàn)40-42
  • 4.3 索引創(chuàng)建模塊的設(shè)計(jì)與實(shí)現(xiàn)42-48
  • 4.3.1 索引文件格式42
  • 4.3.2 相關(guān)性排序算法42-45
  • 4.3.3 索引創(chuàng)建模塊交互設(shè)計(jì)45-46
  • 4.3.4 索引創(chuàng)建模塊實(shí)現(xiàn)46-48
  • 4.4 索引刪除模塊的設(shè)計(jì)與實(shí)現(xiàn)48-49
  • 4.5 索引重構(gòu)模塊的設(shè)計(jì)與實(shí)現(xiàn)49-51
  • 4.6 索引檢索模塊的設(shè)計(jì)與實(shí)現(xiàn)51-56
  • 4.6.1 分詞器算法51-53
  • 4.6.2 索引檢索模塊交互設(shè)計(jì)53-55
  • 4.6.3 索引檢索模塊的實(shí)現(xiàn)55-56
  • 4.7 文本查詢模塊的設(shè)計(jì)與實(shí)現(xiàn)56-58
  • 4.8 表分區(qū)管理的設(shè)計(jì)與實(shí)現(xiàn)58-59
  • 4.9 本章小結(jié)59-60
  • 第5章 系統(tǒng)的測(cè)試60-79
  • 5.1 測(cè)試計(jì)劃60-62
  • 5.1.1 測(cè)試環(huán)境60-61
  • 5.1.2 測(cè)試工具61
  • 5.1.3 測(cè)試對(duì)象和范圍61-62
  • 5.1.4 測(cè)試技術(shù)與方法62
  • 5.2 系統(tǒng)測(cè)試62-78
  • 5.2.1 功能測(cè)試62-69
  • 5.2.2 性能測(cè)試69-78
  • 5.3 測(cè)試結(jié)論78
  • 5.4 本章小結(jié)78-79
  • 結(jié)論79-80
  • 參考文獻(xiàn)80-84
  • 致謝84-85
  • 個(gè)人簡(jiǎn)歷85

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 陳俊陽(yáng);ORACLE索引的使用與優(yōu)化[J];電腦知識(shí)與技術(shù);2005年14期

2 史斌;;Oracle分布式數(shù)據(jù)庫(kù)及其實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2011年26期

3 陳

本文編號(hào):370712


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/370712.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7bac0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com