智能搜索引擎關(guān)鍵技術(shù)研究及應(yīng)用
本文選題:搜索引擎 + Nutch ; 參考:《浙江理工大學(xué)》2017年碩士論文
【摘要】:人類社會(huì)的信息化建設(shè)已經(jīng)深入到各個(gè)領(lǐng)域,包括建設(shè)帶寬和速率更高的網(wǎng)絡(luò)基礎(chǔ)設(shè)施、研發(fā)基于內(nèi)存數(shù)據(jù)庫群集的新型數(shù)據(jù)倉庫、大規(guī)模分布式云計(jì)算的逐步應(yīng)用、設(shè)計(jì)和開發(fā)更注重用戶體驗(yàn)的各類應(yīng)用界面等,以上都在不同層面分別革新了信息的傳輸、存儲(chǔ)、計(jì)算、VIEW等領(lǐng)域,以應(yīng)對(duì)大數(shù)據(jù)時(shí)代的來臨。但針對(duì)互聯(lián)網(wǎng)應(yīng)用產(chǎn)生的異構(gòu)并呈爆炸式增長(zhǎng)的海量數(shù)據(jù),人們面臨著如何更準(zhǔn)確高效地獲取更有價(jià)值信息的問題,而這也逐漸成為了信息高速公路最后一公里的瓶頸。因此,越來越多的互聯(lián)網(wǎng)公司和科研機(jī)構(gòu)開始以新高度采用新技術(shù)來研發(fā)或優(yōu)化其所在領(lǐng)域的搜索引擎,學(xué)術(shù)界也從更核心的理論及算法角度投入更多精力進(jìn)行研究,以期望能在搜索引擎革新領(lǐng)域有更大的突破。因此,本文針對(duì)智能搜索引擎,在分析核心原理和經(jīng)典算法的基礎(chǔ)上,主要有以下幾個(gè)方面的成果:(1)分析了搜索引擎國內(nèi)外的研究現(xiàn)狀及發(fā)展趨勢(shì)、搜索引擎的相關(guān)理論、系統(tǒng)結(jié)構(gòu)和性能評(píng)價(jià)標(biāo)準(zhǔn)。(2)針對(duì)中文搜索引擎,本文重點(diǎn)分析了中文分詞算法原理、向量空間模型(VSM)原理和基于VSM的相似度算法的特點(diǎn),從向量空間模型的構(gòu)建出發(fā),提出了一種基于VSM特征詞相似度改進(jìn)算法,并驗(yàn)證了該改進(jìn)算法的優(yōu)化性能。(3)根據(jù)“正向迭代最細(xì)粒度切分”分詞的特點(diǎn),對(duì)Nutch搜索引擎框架的分詞器進(jìn)行了優(yōu)化,并以此為基礎(chǔ)設(shè)計(jì)搭建了一套完整的搜索引擎系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,本文實(shí)現(xiàn)的基于Nutch的搜索引擎系統(tǒng),其檢索準(zhǔn)確度有明顯提高,具有較好的應(yīng)用價(jià)值。
[Abstract]:The information construction of human society has been deeply studied in various fields , including the construction of network infrastructure with higher bandwidth and rate , the development of a new data warehouse based on memory database cluster , the step - by - step application of large - scale distributed cloud computing , the design and development of search engine more focused on user experience .
【學(xué)位授予單位】:浙江理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李宜兵;郭玉堂;潘潔珠;陳軍;;基于VSM模型和數(shù)據(jù)庫技術(shù)的文本相似度檢查軟件研究與實(shí)現(xiàn)[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2014年08期
2 朱鵬;;基于Lucene的倒排索引性能的研究[J];無線互聯(lián)科技;2014年08期
3 虞飛華;;不同搜索引擎在中國大學(xué)網(wǎng)絡(luò)影響力評(píng)價(jià)中的比較研究[J];情報(bào)科學(xué);2013年05期
4 黃承慧;印鑒;侯f ;;一種結(jié)合詞項(xiàng)語義信息和TF-IDF方法的文本相似度量方法[J];計(jì)算機(jī)學(xué)報(bào);2011年05期
5 王文鈞;李巍;;垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J];情報(bào)科學(xué);2010年03期
6 劉迪慧;何友全;;一種基于相似度值的向量空間投影HITS算法[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2009年10期
7 游慶祥;尤瑞玲;;一種基于向量空間模型的構(gòu)件庫設(shè)計(jì)[J];電腦知識(shí)與技術(shù);2009年03期
8 陳莉;吳潔;馬靜;薛浩;;基于本體的領(lǐng)域知識(shí)搜索研究[J];計(jì)算機(jī)工程;2008年24期
9 羅桂瓊;費(fèi)洪曉;戴弋;;基于反序詞典的中文分詞技術(shù)研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2008年01期
10 魏曉寧;;基于隱馬爾科夫模型的中文分詞研究[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年21期
相關(guān)博士學(xué)位論文 前1條
1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 周祺;基于統(tǒng)計(jì)與詞典相結(jié)合的中文分詞的研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
2 楊淦;基于條件隨機(jī)場(chǎng)模型的中文分詞系統(tǒng)研究與實(shí)現(xiàn)[D];重慶大學(xué);2015年
3 白曉丹;搜索引擎網(wǎng)頁相關(guān)性及檢索效率評(píng)價(jià)體系研究[D];北京交通大學(xué);2015年
4 紀(jì)曉陽;基于Nutch搜索引擎系統(tǒng)數(shù)據(jù)處理的中文分詞技術(shù)的研究[D];成都理工大學(xué);2014年
5 張曉偉;聚類算法及在搜索引擎系統(tǒng)中的應(yīng)用[D];哈爾濱理工大學(xué);2014年
6 玉兆輝;基于MapReduce的分布式聚類搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
7 牛秀萍;基于隱馬爾科夫模型詞性標(biāo)注的研究[D];太原理工大學(xué);2013年
8 徐鐘;隱馬爾科夫模型在中文實(shí)體分類中的應(yīng)用及研究[D];南昌大學(xué);2012年
9 劉昆;應(yīng)用于文本搜索引擎的聚類算法研究[D];上海交通大學(xué);2012年
10 邵蕾;基于Lucene的教學(xué)資源垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年
,本文編號(hào):1935678
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1935678.html