天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)搜索引擎設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-04-12 23:09

  本文關(guān)鍵詞:基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)搜索引擎設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著信息技術(shù)的發(fā)展,搜索引擎的應(yīng)用已經(jīng)深入到各個(gè)領(lǐng)域,成為了人們獲取信息的一種最常使用的有效手段。目前市場(chǎng)上比較流行的搜索引擎,如Google、Baidu等,都是面向公眾領(lǐng)域的普適化搜索引擎,檢索的信息也基本上以網(wǎng)頁(yè)、博客、文檔等非結(jié)構(gòu)化信息為主。對(duì)于一般企業(yè)來說,信息的結(jié)構(gòu)更多的是結(jié)構(gòu)化數(shù)據(jù),存放在數(shù)據(jù)倉(cāng)庫(kù)、ERP、 OA等信息系統(tǒng)中,并且隨著信息化水平的不斷提高,企業(yè)也積累了大量的數(shù)據(jù),如何更好的利用這些信息為企業(yè)決策提供支持,也是企業(yè)面臨的痛點(diǎn)。 針對(duì)這一廣闊的市場(chǎng),我們結(jié)合搜索引擎和數(shù)據(jù)倉(cāng)庫(kù)兩大理論特色,設(shè)計(jì)并實(shí)現(xiàn)了構(gòu)架在數(shù)據(jù)倉(cāng)庫(kù)之上的搜索引擎系統(tǒng),利用數(shù)據(jù)倉(cāng)庫(kù)的標(biāo)準(zhǔn)化數(shù)據(jù)模型,結(jié)合搜索引擎的特點(diǎn).系統(tǒng)允許用戶使用自然語(yǔ)言進(jìn)行查詢,為企業(yè)提供一種信息查詢與展現(xiàn)的信息檢索新形式,降低了IT系統(tǒng)的技術(shù)壁壘,從而促進(jìn)信息共享和深度挖掘。 本文的主要工作和研究成果包括: 1.針對(duì)結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),結(jié)合數(shù)據(jù)倉(cāng)庫(kù)多維模型,提出語(yǔ)義層的抽象封裝方法,規(guī)范了數(shù)據(jù)存儲(chǔ)結(jié)構(gòu); 2.優(yōu)化搜索引擎的索引結(jié)構(gòu),使之適合結(jié)構(gòu)化數(shù)據(jù)查詢,并實(shí)現(xiàn)基于正則表達(dá)式的關(guān)鍵字識(shí)別,提高了分詞識(shí)別精確度; 3.采用中文分詞技術(shù)并整合IKAnalyzer開源控件實(shí)現(xiàn)查詢解析,使得用戶可以采用自然語(yǔ)言作為查詢?nèi)肟?允許用戶直接輸入業(yè)務(wù)短語(yǔ)進(jìn)行查詢,并且結(jié)合編譯原理技術(shù),實(shí)現(xiàn)自然語(yǔ)言分詞中的表達(dá)式解析,對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行條件篩選,自動(dòng)生成查詢SQL語(yǔ)句; 4.針對(duì)結(jié)構(gòu)化數(shù)據(jù)的搜索特點(diǎn),對(duì)搜索結(jié)果展現(xiàn)模式進(jìn)行優(yōu)化,為用戶提供更方便的搜索界面。 該數(shù)據(jù)倉(cāng)庫(kù)搜索引擎系統(tǒng)已在上海煙草集團(tuán)數(shù)據(jù)中心的信息服務(wù)中得到實(shí)際應(yīng)用,取得了預(yù)期的應(yīng)用效果。
【關(guān)鍵詞】:搜索引擎 結(jié)構(gòu)化數(shù)據(jù) 企業(yè)級(jí) 數(shù)據(jù)倉(cāng)庫(kù) 多維模型
【學(xué)位授予單位】:華東理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3;TP311.13
【目錄】:
  • 摘要5-6
  • Abstract6-7
  • 目錄7-9
  • 第1章 緒論9-15
  • 1.1 研究背景9-10
  • 1.2 知識(shí)領(lǐng)域及相關(guān)研究10-13
  • 1.2.1 數(shù)據(jù)倉(cāng)庫(kù)10-11
  • 1.2.2 搜索引擎11-12
  • 1.2.3 NLU、中文分詞及IKAnalyzer12-13
  • 1.3 本研究的目的和意義13
  • 1.4 主要研究工作13-14
  • 1.5 論文結(jié)構(gòu)14-15
  • 第2章 DWSE的系統(tǒng)設(shè)計(jì)15-21
  • 2.1 設(shè)計(jì)目標(biāo)15
  • 2.2 系統(tǒng)架構(gòu)15-17
  • 2.2.1 展現(xiàn)層16
  • 2.2.2 控制層16-17
  • 2.2.3 數(shù)據(jù)層17
  • 2.3 軟硬件架構(gòu)17-18
  • 2.4 主要外部模塊結(jié)構(gòu)18
  • 2.5 系統(tǒng)使用入口18-20
  • 2.6 信息來源的選擇20-21
  • 第3章 DWSE的核心算法實(shí)現(xiàn)21-55
  • 3.1 總體技術(shù)特點(diǎn)21-23
  • 3.2 語(yǔ)義層實(shí)現(xiàn)23-39
  • 3.2.1 數(shù)據(jù)單元23-24
  • 3.2.2 多維模型24-30
  • 3.2.3 語(yǔ)義層存儲(chǔ)30-39
  • 3.3 數(shù)據(jù)索引實(shí)現(xiàn)39-42
  • 3.3.1 索引的類型39-41
  • 3.3.2 索引Java類實(shí)現(xiàn)41
  • 3.3.3 索引更新機(jī)制41-42
  • 3.4 解析過程42-47
  • 3.4.1 解析流程42-44
  • 3.4.2 解析Java類實(shí)現(xiàn)44-45
  • 3.4.3 解析過程的算法調(diào)用45-47
  • 3.5 展現(xiàn)模式優(yōu)化47-52
  • 3.5.1 自動(dòng)補(bǔ)全48-49
  • 3.5.2 拼音及縮寫轉(zhuǎn)換49
  • 3.5.3 最佳答案49-50
  • 3.5.4 分頁(yè)篩選50-51
  • 3.5.5 搜索結(jié)果集成展現(xiàn)51
  • 3.5.6 數(shù)據(jù)交互51-52
  • 3.6 程序框架總覽52-55
  • 第4章 DWSE的應(yīng)用實(shí)例55-69
  • 4.1 DWSE在煙草等行業(yè)的應(yīng)用55-57
  • 4.2 DWSE所帶來的展現(xiàn)優(yōu)化效果57-58
  • 4.3 常見搜索語(yǔ)句58
  • 4.4 實(shí)際查詢案例解析過程58-69
  • 4.4.1 示例數(shù)據(jù)59-60
  • 4.4.2 測(cè)試用例160-65
  • 4.4.3 測(cè)試用例265-69
  • 第5章 結(jié)束語(yǔ)69-71
  • 5.1 總結(jié)69
  • 5.2 下一步工作69-71
  • 參考文獻(xiàn)71-74
  • 致謝74

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 沈軍;一個(gè)面向受限領(lǐng)域的漢語(yǔ)人機(jī)接口系統(tǒng)[J];東南大學(xué)學(xué)報(bào);1996年05期

2 林鴻飛,戰(zhàn)學(xué)剛,姚天順;文本結(jié)構(gòu)分析與基于示例的文本過濾[J];小型微型計(jì)算機(jī)系統(tǒng);2000年04期


  本文關(guān)鍵詞:基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)搜索引擎設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。

,

本文編號(hào):302261

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/302261.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a6778***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com