分布式搜索引擎核心技術的研究與實現(xiàn)
本文關鍵詞:分布式搜索引擎核心技術的研究與實現(xiàn)
【摘要】:伴隨著大數(shù)據(jù)時代的降臨,人們在日常的生產(chǎn)、生活和工作等多個方面都積累了海量的數(shù)據(jù),并且每天還在以不可逆的方式在迅猛增長,由此帶來了嚴重的信息過載問題。傳統(tǒng)的集中式搜索引擎受存儲條件和計算速度的制約,已經(jīng)無法適應海量數(shù)據(jù)的快速查詢,而分布式搜索引擎以大量普通的PC機為依托,采用分而治之的思想,不但可以為大數(shù)據(jù)的存儲提供解決方案,并且能夠為人們提供快速準確的查詢結果。分布式搜索引擎涉及了許多復雜的問題和難點,為了深入研究和掌握其背后所隱藏的奧秘,本文構建了一套面向地圖查詢的分布式搜索引擎,以此來展開對分布式搜索引擎核心技術的研究。首先,以地圖數(shù)據(jù)為基礎設計合理的分布式索引結構,實現(xiàn)索引的動態(tài)更新,并輔以巧妙的索引壓縮機制;其次,基于地理位置為地圖數(shù)據(jù)的存儲提供合理的解決方案,同時分布式搜索引擎各獨立搜索單元采用有效的檢索模型來保證各自的準確性,在此基礎上配合主控服務器的查詢分發(fā)策略和數(shù)據(jù)融合策略為人們提供理想的查詢結果;最后,根據(jù)人們提交的查詢分析其潛在的查詢意圖,對查詢意圖進行正確分類,從而將人們真正需要的信息放在最前面,以此來改善分布式搜索引擎的排名。從實驗的結果來看,合理的分布式索引是搜索引擎快速查詢的基礎,而大量機器協(xié)同工作的分布式搜索可以有效地縮短查詢的時間,并且優(yōu)秀的檢索模型能夠按照相關性的大小返回有序的查詢結果,查詢意圖分析則可以提供最佳的用戶體驗。
【關鍵詞】:分布式索引 分布式搜索 查詢意圖
【學位授予單位】:遼寧科技大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.3
【目錄】:
- 中文摘要5-6
- ABSTRACT6-10
- 1.緒論10-13
- 1.1 課題研究背景10-11
- 1.2 分布式搜索引擎發(fā)展狀況11-12
- 1.3 論文研究內容12
- 1.4 論文結構安排12-13
- 2.分布式搜索引擎基本原理13-19
- 2.1 中文分詞技術13-15
- 2.2 倒排索引技術15-17
- 2.3 經(jīng)典檢索模型17-18
- 2.4 查詢意圖分析18-19
- 3.分布式搜索引擎核心技術的研究19-28
- 3.1 分布式搜索引擎總體設計19-20
- 3.2 分布式索引研究20-22
- 3.2.1 倒排索引20-21
- 3.2.2 動態(tài)索引21-22
- 3.2.3 索引更新策略22
- 3.3 分布式搜索技術研究22-25
- 3.3.1 基于位置的三層分布式檢索模型22-23
- 3.3.2 查詢分發(fā)策略23-24
- 3.3.3 獨立搜索單元24
- 3.3.4 數(shù)據(jù)融合策略24-25
- 3.4 查詢意圖分析的研究25-28
- 3.4.1 查詢意圖的層次分類模型25
- 3.4.2 查詢意圖分類器25-27
- 3.4.3 查詢意圖類別判定27-28
- 4.分布式搜索引擎核心技術的實現(xiàn)28-41
- 4.1iSearch分布式搜索平臺開發(fā)環(huán)境28
- 4.2 分布式索引技術實現(xiàn)28-32
- 4.2.1 索引詞典28-29
- 4.2.2 倒排文件29-30
- 4.2.3 倒排索引內存結構30
- 4.2.4 動態(tài)索引內存結構30-31
- 4.2.5 索引的建立與更新31-32
- 4.3 分布式搜索技術實現(xiàn)32-36
- 4.3.1 查詢任務分發(fā)32-33
- 4.3.2 利用概率模型計算相似度33-34
- 4.3.3 獨立搜索單元的查詢34-35
- 4.3.4 融合分布式搜索結果35-36
- 4.4 查詢意圖分析的實現(xiàn)36-41
- 4.4.1 分類語料預處理36-38
- 4.4.2 特征向量表示38-39
- 4.4.3 特征選擇39-40
- 4.4.4 余弦相似度計算40
- 4.4.5 層次分類模型40-41
- 5.分布式搜索引擎核心技術評測41-48
- 5.1 查詢意圖分析評測41-45
- 5.1.1 評測指標41-42
- 5.1.2 評測結果及分析42-45
- 5.2 分布式索引評測45-46
- 5.3 分布式搜索評測46-48
- 6.總結與展望48-49
- 參考文獻49-52
- 致謝52-53
- 作者簡介53-54
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 陸偉;周紅霞;張曉娟;;查詢意圖研究綜述[J];中國圖書館學報;2013年01期
2 白露;郭嘉豐;曹雷;程學旗;;基于查詢意圖的長尾查詢推薦[J];計算機學報;2013年03期
3 江雪;孫樂;;用戶查詢意圖切分的研究[J];計算機學報;2013年03期
4 張曉娟;陸偉;;利用查詢重構識別查詢意圖[J];現(xiàn)代圖書情報技術;2013年01期
5 周之誠;;基于查詢意圖聚類的實時搜索建議[J];現(xiàn)代圖書情報技術;2011年02期
6 唐靜笑;呂學強;柳成洋;李涵;;用戶查詢意圖的層次化識別方法[J];現(xiàn)代圖書情報技術;2014年01期
7 文軍,文貴華,丁月華;面向查詢意圖的搜索引擎設計與實現(xiàn)[J];計算機應用研究;2002年10期
8 吳曉暉;宋萍萍;張榮欣;;有無查詢意圖的分類與實現(xiàn)架構模型研究[J];情報科學;2009年12期
9 楊藝;周元;;基于用戶查詢意圖識別的Web搜索優(yōu)化模型[J];計算機科學;2012年01期
10 張美珍;王治瑩;;基于用戶查詢意圖的搜索排序算法[J];天津理工大學學報;2012年03期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 王俞霖;孫樂;黃云平;李文波;;基于規(guī)則和類型還原的用戶查詢意圖識別[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
2 高鶯;沈潔;陳滄;劉春陽;葉君峰;;一種基于排序學習的查詢意圖預測算法[A];第五屆全國信息檢索學術會議論文集[C];2009年
3 華松;洪宇;張劍峰;姚建民;朱巧明;;基于相關子主題消解的悖向重排序方法研究[A];第六屆全國信息檢索學術會議論文集[C];2010年
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 宋巍;基于主題的查詢意圖識別研究[D];哈爾濱工業(yè)大學;2013年
中國碩士學位論文全文數(shù)據(jù)庫 前9條
1 張恒慶;網(wǎng)絡用戶查詢意圖分析[D];北京工業(yè)大學;2014年
2 王井豐;基于百度百科的查詢意圖分類[D];吉林大學;2013年
3 胡剛;百科知識與統(tǒng)計方法結合的查詢意圖分類[D];哈爾濱工業(yè)大學;2011年
4 張苗;基于用戶查詢意圖的信息檢索技術研究與實現(xiàn)方法[D];湖南大學;2013年
5 陳杰;基于Web檢索的查詢意圖分類研究[D];華南理工大學;2011年
6 蔡桂秀;基于Markov網(wǎng)絡團的查詢意圖識別[D];江西師范大學;2012年
7 張培英;基于用戶行為的用戶查詢意圖分析方法及研究[D];西華大學;2011年
8 華松;檢索重排序和文獻權威度判定方法研究[D];蘇州大學;2012年
9 白鵬超;分布式搜索引擎核心技術的研究與實現(xiàn)[D];遼寧科技大學;2015年
,本文編號:567390
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/567390.html