基于數(shù)據(jù)倉庫的數(shù)據(jù)搜索引擎設(shè)計與實現(xiàn)
發(fā)布時間:2017-04-12 23:09
本文關(guān)鍵詞:基于數(shù)據(jù)倉庫的數(shù)據(jù)搜索引擎設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著信息技術(shù)的發(fā)展,搜索引擎的應(yīng)用已經(jīng)深入到各個領(lǐng)域,成為了人們獲取信息的一種最常使用的有效手段。目前市場上比較流行的搜索引擎,如Google、Baidu等,都是面向公眾領(lǐng)域的普適化搜索引擎,檢索的信息也基本上以網(wǎng)頁、博客、文檔等非結(jié)構(gòu)化信息為主。對于一般企業(yè)來說,信息的結(jié)構(gòu)更多的是結(jié)構(gòu)化數(shù)據(jù),存放在數(shù)據(jù)倉庫、ERP、 OA等信息系統(tǒng)中,并且隨著信息化水平的不斷提高,企業(yè)也積累了大量的數(shù)據(jù),如何更好的利用這些信息為企業(yè)決策提供支持,也是企業(yè)面臨的痛點。 針對這一廣闊的市場,我們結(jié)合搜索引擎和數(shù)據(jù)倉庫兩大理論特色,設(shè)計并實現(xiàn)了構(gòu)架在數(shù)據(jù)倉庫之上的搜索引擎系統(tǒng),利用數(shù)據(jù)倉庫的標(biāo)準(zhǔn)化數(shù)據(jù)模型,結(jié)合搜索引擎的特點.系統(tǒng)允許用戶使用自然語言進行查詢,為企業(yè)提供一種信息查詢與展現(xiàn)的信息檢索新形式,降低了IT系統(tǒng)的技術(shù)壁壘,從而促進信息共享和深度挖掘。 本文的主要工作和研究成果包括: 1.針對結(jié)構(gòu)化數(shù)據(jù)存儲,結(jié)合數(shù)據(jù)倉庫多維模型,提出語義層的抽象封裝方法,規(guī)范了數(shù)據(jù)存儲結(jié)構(gòu); 2.優(yōu)化搜索引擎的索引結(jié)構(gòu),使之適合結(jié)構(gòu)化數(shù)據(jù)查詢,并實現(xiàn)基于正則表達式的關(guān)鍵字識別,提高了分詞識別精確度; 3.采用中文分詞技術(shù)并整合IKAnalyzer開源控件實現(xiàn)查詢解析,使得用戶可以采用自然語言作為查詢?nèi)肟?允許用戶直接輸入業(yè)務(wù)短語進行查詢,并且結(jié)合編譯原理技術(shù),實現(xiàn)自然語言分詞中的表達式解析,對結(jié)構(gòu)化數(shù)據(jù)進行條件篩選,自動生成查詢SQL語句; 4.針對結(jié)構(gòu)化數(shù)據(jù)的搜索特點,對搜索結(jié)果展現(xiàn)模式進行優(yōu)化,為用戶提供更方便的搜索界面。 該數(shù)據(jù)倉庫搜索引擎系統(tǒng)已在上海煙草集團數(shù)據(jù)中心的信息服務(wù)中得到實際應(yīng)用,取得了預(yù)期的應(yīng)用效果。
【關(guān)鍵詞】:搜索引擎 結(jié)構(gòu)化數(shù)據(jù) 企業(yè)級 數(shù)據(jù)倉庫 多維模型
【學(xué)位授予單位】:華東理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3;TP311.13
【目錄】:
- 摘要5-6
- Abstract6-7
- 目錄7-9
- 第1章 緒論9-15
- 1.1 研究背景9-10
- 1.2 知識領(lǐng)域及相關(guān)研究10-13
- 1.2.1 數(shù)據(jù)倉庫10-11
- 1.2.2 搜索引擎11-12
- 1.2.3 NLU、中文分詞及IKAnalyzer12-13
- 1.3 本研究的目的和意義13
- 1.4 主要研究工作13-14
- 1.5 論文結(jié)構(gòu)14-15
- 第2章 DWSE的系統(tǒng)設(shè)計15-21
- 2.1 設(shè)計目標(biāo)15
- 2.2 系統(tǒng)架構(gòu)15-17
- 2.2.1 展現(xiàn)層16
- 2.2.2 控制層16-17
- 2.2.3 數(shù)據(jù)層17
- 2.3 軟硬件架構(gòu)17-18
- 2.4 主要外部模塊結(jié)構(gòu)18
- 2.5 系統(tǒng)使用入口18-20
- 2.6 信息來源的選擇20-21
- 第3章 DWSE的核心算法實現(xiàn)21-55
- 3.1 總體技術(shù)特點21-23
- 3.2 語義層實現(xiàn)23-39
- 3.2.1 數(shù)據(jù)單元23-24
- 3.2.2 多維模型24-30
- 3.2.3 語義層存儲30-39
- 3.3 數(shù)據(jù)索引實現(xiàn)39-42
- 3.3.1 索引的類型39-41
- 3.3.2 索引Java類實現(xiàn)41
- 3.3.3 索引更新機制41-42
- 3.4 解析過程42-47
- 3.4.1 解析流程42-44
- 3.4.2 解析Java類實現(xiàn)44-45
- 3.4.3 解析過程的算法調(diào)用45-47
- 3.5 展現(xiàn)模式優(yōu)化47-52
- 3.5.1 自動補全48-49
- 3.5.2 拼音及縮寫轉(zhuǎn)換49
- 3.5.3 最佳答案49-50
- 3.5.4 分頁篩選50-51
- 3.5.5 搜索結(jié)果集成展現(xiàn)51
- 3.5.6 數(shù)據(jù)交互51-52
- 3.6 程序框架總覽52-55
- 第4章 DWSE的應(yīng)用實例55-69
- 4.1 DWSE在煙草等行業(yè)的應(yīng)用55-57
- 4.2 DWSE所帶來的展現(xiàn)優(yōu)化效果57-58
- 4.3 常見搜索語句58
- 4.4 實際查詢案例解析過程58-69
- 4.4.1 示例數(shù)據(jù)59-60
- 4.4.2 測試用例160-65
- 4.4.3 測試用例265-69
- 第5章 結(jié)束語69-71
- 5.1 總結(jié)69
- 5.2 下一步工作69-71
- 參考文獻71-74
- 致謝74
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 沈軍;一個面向受限領(lǐng)域的漢語人機接口系統(tǒng)[J];東南大學(xué)學(xué)報;1996年05期
2 林鴻飛,戰(zhàn)學(xué)剛,姚天順;文本結(jié)構(gòu)分析與基于示例的文本過濾[J];小型微型計算機系統(tǒng);2000年04期
本文關(guān)鍵詞:基于數(shù)據(jù)倉庫的數(shù)據(jù)搜索引擎設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號:302261
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/302261.html
最近更新
教材專著