天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于golang的分布式全文檢索系統(tǒng)研究與實現(xiàn)

發(fā)布時間:2017-12-12 02:02

  本文關(guān)鍵詞:基于golang的分布式全文檢索系統(tǒng)研究與實現(xiàn)


  更多相關(guān)文章: 全文檢索 字符串哈希算法 中文分詞 golang 分布式


【摘要】:近年來,隨著城軌線網(wǎng)規(guī)模的擴大,城市軌道交通系統(tǒng)中每天產(chǎn)生的數(shù)據(jù)量也急劇增長,如何從日積月累的海量數(shù)據(jù)中快速地獲取工作人員所需的信息成為一大挑戰(zhàn)。全文檢索不同于傳統(tǒng)的數(shù)據(jù)庫信息管理技術(shù),其處理的對象是非結(jié)構(gòu)化數(shù)據(jù),用戶可以通過內(nèi)容關(guān)鍵字來檢索相關(guān)的文檔,從而高效,多維度的利用信息資源;ヂ(lián)網(wǎng)上蓬勃發(fā)展的搜索引擎其核心技術(shù)也是全文檢索技術(shù),但是出于企業(yè)商業(yè)信息的安全性等方面來考慮,在互聯(lián)網(wǎng)上應(yīng)用良好的搜索引擎比如谷歌、百度、bing等并不能直接應(yīng)用于企業(yè)環(huán)境之中,因此需要針對特定的行業(yè)建設(shè)一套垂直領(lǐng)域的檢索系統(tǒng)。本文以城軌線網(wǎng)為背景,針對單機檢索系統(tǒng)在處理海量數(shù)據(jù)時出現(xiàn)的性能瓶頸問題,基于nginx、Flask、wukong等工具和框架,用golang語言設(shè)計了一套適用于城軌線網(wǎng)領(lǐng)域的分布式全文檢索系統(tǒng),重點研究了分布式全文檢索系統(tǒng)中的字符串哈希算法、中文分詞技術(shù)、權(quán)值問題。本文的主要工作如下:(1)對常用的字符串哈希算法進行了分析和對比后,根據(jù)系統(tǒng)應(yīng)用場景哈希字符串長度短的特點,選用mumurhash3字符串哈希算法來實現(xiàn)分布式檢索模型,用于解決單機檢索系統(tǒng)性能上的瓶頸。(2)分析對比了幾類常見的分詞算法,并重點研究了基于統(tǒng)計的分詞算法模型:隱馬爾可夫模型和條件隨機場模型,在此基礎(chǔ)上實現(xiàn)了一種基于隱馬爾科夫模型加字典的組合分詞算法,實驗結(jié)果表明該分詞算法有著良好的切分性能和分詞效果。(3)在上述研究的基礎(chǔ)上,利用nginx作代理服務(wù)器,Flask作為web框架,wukong作為檢索引擎,搭建了一套分布式全文檢索系統(tǒng)。實驗結(jié)果表明,該全文檢索系統(tǒng)具有良好的性能,在檢索方面有著較高的查全率和查準率,并且能夠準確及時地為用戶提供所需的結(jié)果。
【學位授予單位】:華南理工大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.3

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 李智超;熊風;富羽鵬;馬少平;;分布式大規(guī)模文本檢索系統(tǒng)[J];廣西師范大學學報(自然科學版);2007年02期

2 吳澤彬;魏潔;李蔚清;吳慧中;;面向服務(wù)架構(gòu)的全文檢索研究[J];華中科技大學學報(自然科學版);2007年S1期

3 黃德根;焦世斗;周惠巍;;基于子詞的雙層CRFs中文分詞[J];計算機研究與發(fā)展;2010年05期

4 許君;王朝坤;李瑞;王建民;劉璋;;基于內(nèi)容的分布式FTP搜索引擎的設(shè)計與實現(xiàn)[J];計算機研究與發(fā)展;2011年S3期

5 朱岸青;黃杰;;基于Lucene的全文檢索系統(tǒng)模型的研究和開發(fā)[J];暨南大學學報(自然科學與醫(yī)學版);2009年05期

6 歐振猛,余順爭;中文分詞算法在搜索引擎應(yīng)用中的研究[J];計算機工程與應(yīng)用;2000年08期

7 張裔智;趙毅;湯小斌;;MD5算法研究[J];計算機科學;2008年07期

8 吳棟,滕育平;中文信息檢索引擎中的分詞與檢索技術(shù)[J];計算機應(yīng)用;2004年07期

9 楊廣翔,俞寧,諶莉;搜索引擎結(jié)果的重排序方法[J];計算機應(yīng)用;2005年02期

10 譚文堂;賀明科;李阜;;基于Lucene.Net的分布式全文檢索系統(tǒng)[J];計算機應(yīng)用與軟件;2009年09期

中國博士學位論文全文數(shù)據(jù)庫 前1條

1 李志敏;哈希函數(shù)設(shè)計與分析[D];北京郵電大學;2009年

中國碩士學位論文全文數(shù)據(jù)庫 前3條

1 朱世猛;中文分詞算法的研究與實現(xiàn)[D];電子科技大學;2011年

2 徐建軍;基于分布對象的WEB計算技術(shù)研究與實現(xiàn)[D];西北工業(yè)大學;2001年

3 吳海明;基于Lucene的搜索引擎技術(shù)的研究與改進[D];暨南大學;2006年

,

本文編號:1280721

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1280721.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4ee8d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com