基于大型數(shù)據(jù)庫的智能搜索與摘要提取技術研究
本文關鍵詞:基于大型數(shù)據(jù)庫的智能搜索與摘要提取技術研究
【摘要】:數(shù)據(jù)庫全文檢索技術的出現(xiàn)大大提高了數(shù)據(jù)庫對于海量數(shù)據(jù)的檢索效率。但是,在中文應用系統(tǒng)尤其是一些指揮信息系統(tǒng)中,采用全文檢索技術的并不多,主要是由于特殊原因這些系統(tǒng)不能與互聯(lián)網對接,無法針對多個數(shù)據(jù)庫表多個字段實現(xiàn)全局數(shù)據(jù)聯(lián)合查找,也不能結合具體的作戰(zhàn)指揮和平時應用靈活的展示給指揮員感興趣的內容。因此,急需研究一種能夠完善支持中文應用系統(tǒng)、采用全文檢索技術、并具備一定智能特性、可以進行摘要提取的通用搜索引擎,能夠在相關指揮信息系統(tǒng)中加入全中文智能搜索和摘要提取功能,以便于用戶及時查找到所需要的內容,以提高指揮的信息處理能力、快速反應能力和輔助決策能力。以目前單位XX指揮系統(tǒng)的大型數(shù)據(jù)庫無法有效處理中文數(shù)據(jù)信息的問題為背景,針對中文數(shù)據(jù)庫應用系統(tǒng)數(shù)據(jù)搜索不靈活的問題開展了深入研究,以大型數(shù)據(jù)庫的全文檢索技術為核心,構建了一個全庫多表多字段的全局智能搜索引擎,在其實現(xiàn)流程和應用方式上都作了改進和創(chuàng)新,能夠真正幫助用戶從海量數(shù)據(jù)中快速的檢索有效的信息。針對目前多數(shù)數(shù)據(jù)庫在面對大量數(shù)據(jù)進行檢索時出現(xiàn)的信息表現(xiàn)力差的問題,對大型數(shù)據(jù)庫的全文檢索機制進行了研究,提出了全局智能搜索的技術,設計了搜索引擎的工作流程;研究了文檔去格式化技術和基于XML的文本聯(lián)結技術,實現(xiàn)了多表多字段的聯(lián)合數(shù)據(jù)查詢;提出基于正則表達式的摘要提取方法和改進的基于Oracle Text的排序算法,有效地提高了全文檢索結果的質量;對搜索結果的展現(xiàn)技術進行了研究,結合用戶的具體應用需求,智能搜索引擎能對查詢結果做出不同的處理,以最合適的方式展現(xiàn)給用戶,體現(xiàn)全局智能搜索引擎的智能化。在單位XX指揮系統(tǒng)中設計了智能搜索與摘要提取工具,建立了全文索引,開發(fā)了良好的人機界面,解決了目前大型數(shù)據(jù)庫應用中用戶或開發(fā)者必須知道數(shù)據(jù)存放位置才能實現(xiàn)數(shù)據(jù)搜索的問題,實現(xiàn)了通用的全數(shù)據(jù)庫多表多字段的全局智能聯(lián)合數(shù)據(jù)搜索,并進一步實現(xiàn)了結果自動排序、關鍵詞突顯、摘要顯示等功能,同時在數(shù)據(jù)的展現(xiàn)上能有效地針對數(shù)據(jù)的類型和特點,將搜索結果以最直觀、最合適的方式展現(xiàn)給用戶,使數(shù)據(jù)庫的檢索功能能夠真正結合具體應用,以滿足XX指揮系統(tǒng)的作戰(zhàn)指揮、訓練演習和平時辦公等多項需求。
【關鍵詞】:排序算法 摘要提取 全文檢索 智能搜索
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.3;TP311.13
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 緒論10-18
- 1.1 基于數(shù)據(jù)庫的檢索技術發(fā)展現(xiàn)狀10-14
- 1.2 數(shù)據(jù)庫全文檢索技術面臨的挑戰(zhàn)14-15
- 1.3 本文研究的主要內容15-17
- 1.4 文章的結構17-18
- 第二章 大型數(shù)據(jù)庫的全文檢索機制研究18-27
- 2.1 ORACLE TEXT全文檢索18-21
- 2.1.1 Oracle Text的體系結構18-19
- 2.1.2 Oracle Text的分詞技術19-20
- 2.1.3 Oracle Text的排序算法20
- 2.1.4 Oracle Text的索引類型20-21
- 2.2 SQL SERVER全文檢索21-25
- 2.2.1 SQL Server全文檢索體系結構21-23
- 2.2.2 SQL Server全文檢索分詞技術23-24
- 2.2.3 SQL Server全文檢索排序算法24-25
- 2.3 MYSQL全文檢索機制25-26
- 2.4 小結26-27
- 第三章 全局智能搜索工具的關鍵技術27-40
- 3.1 全局智能搜索工具流程27-30
- 3.1.1 需求分析27
- 3.1.2 功能設計27-30
- 3.2 文本處理30-33
- 3.2.1 文本去格式化30-32
- 3.2.2 索引文本XML處理32-33
- 3.3 排序算法33-36
- 3.3.1 智能搜索引擎排序算法33-34
- 3.3.2 Oracle Text排序算法34-35
- 3.3.3 改進的基于Oracle Text的排序算法35-36
- 3.4 摘要提取技術36-39
- 3.4.1 句子提取37-38
- 3.4.2 計算句子的權值38
- 3.4.3 計算句子之間的相似度38-39
- 3.5 小結39-40
- 第四章 智能搜索與摘要提取工具的實現(xiàn)40-53
- 4.1 搜索工具的實現(xiàn)40-49
- 4.1.1 文本聯(lián)結的實現(xiàn)41-42
- 4.1.2 排序算法的實現(xiàn)42
- 4.1.3 摘要顯示的實現(xiàn)42-43
- 4.1.4 全文索引的建立43-44
- 4.1.5 全文索引的同步與優(yōu)化44-45
- 4.1.6 索引配置工具的實現(xiàn)45-48
- 4.1.7 人機界面的開發(fā)48-49
- 4.2 通用性設計49
- 4.3 表現(xiàn)方式和檢索效率49-50
- 4.4 展現(xiàn)方式設計——與用戶的具體應用相結合50-52
- 4.5 小結52-53
- 第五章 結束語53-55
- 5.1 研究工作的總結53
- 5.2 下一步需要解決的問題53-55
- 致謝55-56
- 參考文獻56-59
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 侯大銀;;智能搜索:夢想照進現(xiàn)實[J];互聯(lián)網周刊;2009年03期
2 黃昆;;聰明萬事通,智能搜索引路[J];中國計算機用戶;2006年47期
3 ;智能搜索:學習型組織的推動力[J];計算機與網絡;2006年10期
4 ;企業(yè)級市場:智能搜索的獨角戲?[J];計算機與網絡;2006年11期
5 王淑英;張明;劉云;;移動Agent在智能搜索中的應用[J];中小企業(yè)管理與科技(下旬刊);2011年04期
6 朱貴憲;蘆艷芳;;用于智能搜索的無線通信系統(tǒng)設計[J];煤炭技術;2011年09期
7 翁代云;楊莉;;基于語義Web的智能搜索的研究[J];科技風;2013年06期
8 葉慶衛(wèi),陳濤;企業(yè)信息智能搜索的研究與應用[J];管理信息系統(tǒng);1998年09期
9 晏俊德,李雪蓮,胡慶倫;基于個人定制的智能搜索助手的研究[J];沈陽工業(yè)大學學報;2000年01期
10 楊明莉;陳義輝;;基于概念的語義智能搜索模型體系結構的研究[J];商場現(xiàn)代化;2009年05期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 何盈捷;馮月利;王珊;;Peer-to-Peer環(huán)境下基于內容的智能搜索[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年
2 王雪萍;楊青;黃祖鋒;;P2P網絡中基于蟻群算法的智能搜索研究[A];2006全國復雜網絡學術會議論文集[C];2006年
3 丁曉安;徐伯夏;;基于智能搜索功能的Android平臺手機拼車系統(tǒng)設計[A];全國第五屆信號和智能信息處理與應用學術會議專刊(第一冊)[C];2011年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 ;智能搜索:結果最優(yōu)化 價值最大化[N];中國計算機報;2006年
2 鄧健;智能搜索為信息共享提速[N];計算機世界;2006年
3 記者 莫小松 常鑫 通訊員 郝晉薇;廣西交通網設交管問答智能搜索[N];法制日報;2010年
4 中國電信上海研究院 邢青;移動智能搜索 所需即所得[N];人民郵電;2011年
5 潘z,
本文編號:900884
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/900884.html