天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于大數(shù)據(jù)平臺(tái)的百度式數(shù)據(jù)檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-03-18 15:03

  本文關(guān)鍵詞:基于大數(shù)據(jù)平臺(tái)的百度式數(shù)據(jù)檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:21世紀(jì)毫無疑問是互聯(lián)網(wǎng)時(shí)代,如今互聯(lián)網(wǎng)中的信息每天都在爆炸式的增長,面對(duì)海量數(shù)據(jù)的存儲(chǔ)和分析,傳統(tǒng)的集中式搜索引擎顯得拙荊見肘。因此人們提出了分布式搜索引擎的策略。分布式文件系統(tǒng)基于云計(jì)算可以合理的利用硬件資源,進(jìn)行高效的并行檢索;ヂ(lián)網(wǎng)每天產(chǎn)生的海量數(shù)據(jù)都是寶貴的財(cái)富,但是沒有搜索引擎它們只是一堆雜亂的數(shù)據(jù),需要耗費(fèi)大量的人力去挖掘。傳統(tǒng)的搜索引擎都是采用關(guān)鍵字匹配查詢,無法揣測(cè)人們的意圖,使得用戶很難精準(zhǔn)的獲得自己想要的信息,因此搜索引擎的分布式智能化是未來發(fā)展的趨勢(shì)。對(duì)于企業(yè)來說一個(gè)數(shù)十萬員工的企業(yè),分支機(jī)構(gòu)分布在世界各地,需要在企業(yè)內(nèi)部門戶上提供面向全體員工的統(tǒng)一搜索服務(wù),搜索的內(nèi)容包括企業(yè)內(nèi)應(yīng)用所產(chǎn)生的業(yè)務(wù)數(shù)據(jù)以及企業(yè)員工相關(guān)信息。大部分企業(yè)不能充分發(fā)掘自身數(shù)據(jù)的價(jià)值,比如說現(xiàn)在企業(yè)數(shù)據(jù)中大多數(shù)是非結(jié)構(gòu)化數(shù)據(jù),這其中包括了Word文檔,Excel表格,PDF文件,掃描圖片,電子郵件,電話記錄、語音留言、紙質(zhì)文檔、照片、網(wǎng)頁、視頻以及其他形式的內(nèi)容。由于很多企業(yè)缺乏能夠理解并有效利用這些內(nèi)容的技術(shù),使得非常有價(jià)值又充滿戰(zhàn)略意義的資源常常無法發(fā)揮其作用。企業(yè)數(shù)據(jù)多且雜缺少統(tǒng)一管理平臺(tái),業(yè)務(wù)人員缺乏技術(shù)支持,對(duì)底層數(shù)據(jù)結(jié)構(gòu)不熟悉只能通過技術(shù)人員提數(shù),效率很低。那么一款基于自然語言的智能云搜索系統(tǒng)對(duì)于企業(yè)的價(jià)值是不可估量的。本系統(tǒng)基于大數(shù)據(jù)平臺(tái)通過新建移動(dòng)行業(yè)專業(yè)術(shù)語詞庫、自學(xué)習(xí)的動(dòng)態(tài)語義網(wǎng)解析模型,采用Lucene/Solr分詞服務(wù)器,實(shí)現(xiàn)了使用人員可以輸入自然語言檢索經(jīng)分?jǐn)?shù)據(jù)。通過動(dòng)態(tài)語義網(wǎng)語義解析模型,系統(tǒng)可自動(dòng)收集、分析、豐富詞條語義,持續(xù)完善“自然語言與技術(shù)語言”對(duì)應(yīng)詞庫。利用元數(shù)據(jù)配置庫和統(tǒng)一計(jì)算框架實(shí)現(xiàn)異構(gòu)數(shù)據(jù)訪問,融合文件、傳統(tǒng)數(shù)據(jù)庫、XML、MPP和HADOOP等結(jié)構(gòu)化/非結(jié)構(gòu)化的多種類型平臺(tái)數(shù)據(jù),信息查詢服務(wù)由平臺(tái)統(tǒng)一提供;利用智能任務(wù)協(xié)同,實(shí)現(xiàn)查詢分布式處理,快速響應(yīng)信息查詢服務(wù)。系統(tǒng)還通過利用Spark Streaming流處理技術(shù),采用內(nèi)存索引方式,建立后臺(tái)數(shù)據(jù)的增量索引更新機(jī)制,及時(shí)向使用者提供最新數(shù)據(jù)情況。
【關(guān)鍵詞】:智能云搜索 數(shù)據(jù)檢索 企業(yè)級(jí)檢索 Big Data
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.52;TP391.3
【目錄】:
  • 摘要5-6
  • ABSTRACT6-11
  • 第一章 緒論11-18
  • 1.1 選題依據(jù)和意義11-12
  • 1.2 搜索引擎簡介12-13
  • 1.3 國內(nèi)外研究現(xiàn)狀13-16
  • 1.3.1 國外研究綜述13-15
  • 1.3.2 國內(nèi)研究綜述15
  • 1.3.3 搜索引擎的發(fā)展趨勢(shì)15-16
  • 1.3.4 國內(nèi)外研究的結(jié)果分析16
  • 1.4 研究的主要內(nèi)容16
  • 1.5 章節(jié)安排16-18
  • 第二章 相關(guān)技術(shù)介紹18-32
  • 2.1 Hadoop與大數(shù)據(jù)18-23
  • 2.1.1 HDFS19-20
  • 2.1.2 MapReduce20-21
  • 2.1.3 HBase21-22
  • 2.1.4 Hive22-23
  • 2.2 Lucene23-24
  • 2.3 Solr24-25
  • 2.4 Spark Streaming(流處理技術(shù))25-27
  • 2.5 Bootstrap(Web前端CSS框架)27-28
  • 2.6 Apache+Tomcat28-30
  • 2.7 DB2數(shù)據(jù)庫30-31
  • 2.8 本章小結(jié)31-32
  • 第三章 企業(yè)級(jí)智能云搜索系統(tǒng)可行性和需求分析32-38
  • 3.1 建立企業(yè)級(jí)數(shù)據(jù)檢索系統(tǒng)的可行性分析32-33
  • 3.1.1 技術(shù)可行性分析32
  • 3.1.2 經(jīng)濟(jì)可行性分析32-33
  • 3.2 智能云搜索系統(tǒng)需求背景33
  • 3.3 結(jié)合應(yīng)用場(chǎng)景分析33-37
  • 3.4 架構(gòu)初步設(shè)計(jì)37
  • 3.5 本章小節(jié)37-38
  • 第四章 智能云搜索系統(tǒng)概要設(shè)計(jì)及詳細(xì)設(shè)計(jì)38-49
  • 4.1 方案說明38-39
  • 4.2 分詞設(shè)計(jì)39-42
  • 4.2.1 詞庫建立39-40
  • 4.2.2 詞性標(biāo)注40-41
  • 4.2.3 中間語言生成41
  • 4.2.4 轉(zhuǎn)換標(biāo)準(zhǔn)SQL41-42
  • 4.3 DB2優(yōu)化42-44
  • 4.4 分布式搜素引擎設(shè)計(jì)44-46
  • 4.4.1 設(shè)計(jì)目標(biāo)44
  • 4.4.2 總體設(shè)計(jì)44-46
  • 4.5 數(shù)據(jù)更新機(jī)制和其他設(shè)定46-47
  • 4.6 權(quán)限管控47-48
  • 4.7 原始設(shè)計(jì)結(jié)果呈現(xiàn)48
  • 4.8 本章小結(jié)48-49
  • 第五章 系統(tǒng)實(shí)現(xiàn)49-66
  • 5.1 功能實(shí)現(xiàn)架構(gòu)設(shè)計(jì)圖49-50
  • 5.2 系統(tǒng)目錄結(jié)構(gòu)50
  • 5.3 自然語言解析詞庫50-57
  • 5.3.1 Lucene引擎包51-52
  • 5.3.2 Solr配置52-54
  • 5.3.3 SQL運(yùn)用54-55
  • 5.3.4 詞庫的實(shí)現(xiàn)55-57
  • 5.4 混搭架構(gòu)下的任務(wù)協(xié)同計(jì)算框架57-63
  • 5.4.1 分布式文件存儲(chǔ)57-59
  • 5.4.2 云計(jì)算59-60
  • 5.4.3 云數(shù)據(jù)處理60-61
  • 5.4.4 實(shí)時(shí)索引61
  • 5.4.5 分布式搜素引擎的實(shí)現(xiàn)61-63
  • 5.5 Web前端頁面63-65
  • 5.5.1 Web服務(wù)器63-64
  • 5.5.2 用戶界面效果64-65
  • 5.6 本章小結(jié)65-66
  • 第六章 系統(tǒng)測(cè)試66-73
  • 6.1 測(cè)試目標(biāo)66-67
  • 6.2 功能測(cè)試67-69
  • 6.2.1 測(cè)試環(huán)境67
  • 6.2.2 用戶登錄系統(tǒng)測(cè)試67-68
  • 6.2.3 搜索功能測(cè)試68
  • 6.2.4 詳細(xì)數(shù)據(jù)測(cè)試68-69
  • 6.2.5 下載和打印功能測(cè)試69
  • 6.3 性能測(cè)試69-70
  • 6.3.1 服務(wù)器穩(wěn)定性69-70
  • 6.3.2 檢索效率測(cè)試70
  • 6.4 兼容性測(cè)試70
  • 6.5 實(shí)時(shí)索引測(cè)試70-72
  • 6.5.1 數(shù)據(jù)插入性能71
  • 6.5.2 Maxmatches參數(shù)的影響71-72
  • 6.5.3 總數(shù)據(jù)量的影響72
  • 6.6 本章小節(jié)72-73
  • 第七章 總結(jié)與展望73-75
  • 7.1 總結(jié)73
  • 7.2 展望73-75
  • 致謝75-76
  • 參考文獻(xiàn)76-78

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 陳慶全;黃文明;崔亞楠;;基于改進(jìn)跳躍表的數(shù)據(jù)檢索系統(tǒng)應(yīng)用[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2008年12期

2 姚逸濤;彭宇揚(yáng);彭自成;;基于倒排表的數(shù)據(jù)檢索優(yōu)化系統(tǒng)[J];電腦與信息技術(shù);2008年02期

3 鐘求喜;朱昕;;分布式數(shù)據(jù)檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];湖南大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期

4 辛黎升;;數(shù)據(jù)檢索技術(shù)在遙測(cè)信息處理中的應(yīng)用[J];戰(zhàn)術(shù)導(dǎo)彈技術(shù);1984年03期

5 陳峗;胡堅(jiān);汪超亮;李子揚(yáng);;基于REST Web Services的分布式遙感數(shù)據(jù)檢索技術(shù)研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年14期

6 王金杰;周海芳;;基于語義的遙感影像數(shù)據(jù)檢索關(guān)鍵技術(shù)研究[J];計(jì)算機(jī)與數(shù)字工程;2012年08期

7 諶曉歡,陳志剛;永平銅礦生產(chǎn)數(shù)據(jù)檢索系統(tǒng)研究及應(yīng)用[J];有色冶金設(shè)計(jì)與研究;2004年04期

8 周志堅(jiān);;基于移動(dòng)Agent技術(shù)的試題數(shù)據(jù)檢索系統(tǒng)的設(shè)計(jì)[J];科技咨詢導(dǎo)報(bào);2007年07期

9 趙堅(jiān);;混和編程增強(qiáng)FoxBASE~+管理軟件的功能[J];金屬礦山;1993年09期

10 楊大順,陶明華,丁青;二次分檔檢索法[J];計(jì)算機(jī)研究與發(fā)展;1995年06期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前6條

1 周榮貴;李凌偉;劉怡;;MBase中圖文數(shù)據(jù)檢索的反饋策略[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

2 叢日建;孫國強(qiáng);;基于QB編碼的數(shù)據(jù)檢索方法[A];第三屆全國信息獲取與處理學(xué)術(shù)會(huì)議論文集[C];2005年

3 單廣榮;于洪志;李應(yīng)興;滿正行;;藏文古籍保護(hù)技術(shù)的元數(shù)據(jù)檢索技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

4 張衛(wèi)強(qiáng);劉加;;網(wǎng)絡(luò)音頻數(shù)據(jù)檢索技術(shù)[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(下冊(cè))[C];2007年

5 劉仁進(jìn);;MICAPS2.0數(shù)據(jù)接口及數(shù)據(jù)檢索程序的若干改進(jìn)[A];2007年湖北省氣象學(xué)會(huì)學(xué)術(shù)年會(huì)暨全省青年氣象科技工作者學(xué)術(shù)交流會(huì)議學(xué)術(shù)論文詳細(xì)文摘匯集[C];2007年

6 郭燕;;我國服裝行業(yè)專利保護(hù)現(xiàn)狀研究[A];中國紡織工業(yè)發(fā)展報(bào)告(2008/2009)[C];2009年

中國重要報(bào)紙全文數(shù)據(jù)庫 前2條

1 徐楓邋宦茂盛;元數(shù)據(jù)檢索按圖索驥[N];計(jì)算機(jī)世界;2007年

2 徐楓邋宦茂盛;如何對(duì)信息資源分類[N];計(jì)算機(jī)世界;2007年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 袁貞明;基于樣例的空間數(shù)據(jù)檢索技術(shù)研究[D];浙江大學(xué);2005年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 王心慧;云環(huán)境下基于安全k近鄰的加密數(shù)據(jù)檢索技術(shù)研究[D];南京信息工程大學(xué);2015年

2 王疊;基于局部相似性的運(yùn)動(dòng)捕捉數(shù)據(jù)檢索[D];山東大學(xué);2015年

3 林久對(duì);一種基于HBase的海量空間遙感數(shù)據(jù)檢索系統(tǒng)[D];浙江大學(xué);2015年

4 管明亮;基于大數(shù)據(jù)平臺(tái)的百度式數(shù)據(jù)檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年

5 龐歡;基于最優(yōu)搜索的分布式數(shù)據(jù)檢索技術(shù)[D];電子科技大學(xué);2008年

6 姚臻佳;RFID公共服務(wù)體系研究與實(shí)現(xiàn)[D];上海交通大學(xué);2009年

7 李博;汽車導(dǎo)航系統(tǒng)中數(shù)據(jù)檢索功能的研究與實(shí)現(xiàn)[D];東北大學(xué);2006年

8 趙薇;P2P技術(shù)在分布式數(shù)據(jù)檢索中的應(yīng)用研究[D];東北財(cái)經(jīng)大學(xué);2007年

9 韓天壇;基于Clucene的個(gè)人數(shù)據(jù)檢索支撐系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年

10 張卓;結(jié)構(gòu)化電子病歷的數(shù)據(jù)檢索[D];華中科技大學(xué);2005年


  本文關(guān)鍵詞:基于大數(shù)據(jù)平臺(tái)的百度式數(shù)據(jù)檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。



本文編號(hào):254595

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/254595.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f9a79***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com