天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Hadoop的分布式搜索引擎的研究及實現(xiàn)

發(fā)布時間:2018-06-24 08:00

  本文選題:分布式搜索引擎 + HITS ; 參考:《電子科技大學(xué)》2017年碩士論文


【摘要】:今天互聯(lián)網(wǎng)已經(jīng)發(fā)展到了大眾普遍參與的時代,人們使用網(wǎng)絡(luò)的方式愈發(fā)多樣,發(fā)布信息也愈發(fā)方便,這使得網(wǎng)絡(luò)中充斥著海量的數(shù)據(jù)。怎樣對這些海量數(shù)據(jù)進(jìn)行索引和檢索是目前搜索引擎研究的重點。顯然,集中式索引已經(jīng)無法滿足當(dāng)前大數(shù)據(jù)環(huán)境下的要求。為此,人們將分布式技術(shù)與索引技術(shù)進(jìn)行結(jié)合,實現(xiàn)了分布式索引和檢索。在分布式索引中采用怎樣的索引策略對索引和檢索的效率起到了關(guān)鍵性的影響,因此索引策略具有重要的研究價值。搜索引擎會獲取到各種各樣的數(shù)據(jù),當(dāng)用戶搜索時,會檢索出大量的結(jié)果頁面。如何將搜索結(jié)果中的網(wǎng)頁按照其重要程度進(jìn)行排序,使得相對于用戶查詢最重要的網(wǎng)頁排到輸出結(jié)果的最前面,節(jié)省用戶查找信息的時間是一項很有意義的研究工作。因此從上述角度考慮,本文對分布式索引策略和鏈接排序算法進(jìn)行了研究。主要做了如下工作:1.對分布式搜索引擎相關(guān)理論進(jìn)行了學(xué)習(xí)研究,重點對分布式的索引策略進(jìn)行了研究,包括局部索引策略和全局索引策略,提出了基于Map Reduce和DHT的混合索引策略,并對Map Reduce下的實現(xiàn)原理和流程進(jìn)行了說明。2.對鏈接分析排序算法HITS進(jìn)行了分析研究,并通過引入超鏈接關(guān)系聯(lián)合引用度和超鏈接文本聯(lián)合相似度,提出了基于鏈接價值的HITS改進(jìn)算法—HVHITS算法。通過結(jié)合網(wǎng)頁信任度和蟻群算法的思想提出了基于反饋的HITS改進(jìn)策略,并與HVHITS算法結(jié)合提出了—FHVHITS算法。3.在對索引、排序等相關(guān)理論研究的基礎(chǔ)上,基于Hadoop完成了分布式搜索引擎系統(tǒng)的設(shè)計與實現(xiàn)。其中,索引及檢索模塊中對基于Map Reduce和DHT的混合索引策略進(jìn)行了并行化實現(xiàn),在鏈接分析排序模塊中通過Map Reduce對FHVHITS算法進(jìn)行并行化實現(xiàn)。4.在本文最后選取相應(yīng)的主題及評估方法對分布式搜索引擎系統(tǒng)和HITS改進(jìn)算法的性能進(jìn)行了測試和評估。
[Abstract]:Today, the Internet has developed into the era of popular participation, people use the network more and more diverse, the more convenient to publish information, which makes the network full of massive data. How to index and retrieve these massive data is the focus of search engine. Obviously, the centralized index can no longer meet the requirements of the current big data environment. For this reason, people combine distributed technology with index technology to realize distributed index and retrieval. What kind of index strategy is used in distributed index plays a key role in the efficiency of index and retrieval, so the index strategy has important research value. Search engines get all kinds of data, and when users search, they retrieve a lot of result pages. How to sort web pages in search results according to their importance, so that the most important pages are ranked to the front of the output results, it is a very meaningful research work to save the time for users to find information. Therefore, from the above point of view, the distributed index strategy and link sorting algorithm are studied in this paper. I did the following work: 1. The related theories of distributed search engine are studied, especially the distributed index strategy, including local index strategy and global index strategy, and a hybrid index strategy based on Map reduce and DHT is proposed. At the same time, the realization principle and flow chart of Map reduce are explained. 2. 2. By introducing the hyperlink relation co-reference degree and the hyperlink text association similarity, an improved HVHITS algorithm based on link value is proposed. Based on the idea of web page trust and ant colony algorithm, the improved strategy of hits based on feedback is put forward, and the algorithm of -FHVHITS. 3 is proposed in combination with HVHITS algorithm. The design and implementation of distributed search engine system based on Hadoop is completed on the basis of the research of index and sorting theory. In the index and retrieval module, the hybrid index strategy based on Map reduce and DHT is parallelized, and the FHVHITS algorithm is parallelized by Map reduce in the link analysis and sorting module. At the end of this paper, the performance of distributed search engine system and hits improved algorithm is tested and evaluated.
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 申健;柴艷娜;;Web搜索引擎技術(shù)研究[J];計算機(jī)技術(shù)與發(fā)展;2016年12期

2 姚墨涵;謝紅薇;;一致性哈希算法在分布式系統(tǒng)中的應(yīng)用[J];電腦開發(fā)與應(yīng)用;2012年07期

3 吳文忠;易平;;MapReduce在分布式搜索引擎中的應(yīng)用[J];計算機(jī)系統(tǒng)應(yīng)用;2012年02期

4 高琴;;HITS算法探究[J];信息安全與技術(shù);2012年02期

5 王偉;;基于Hadoop的分布式索引集群的研究[J];電腦知識與技術(shù);2011年35期

6 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J];計算機(jī)科學(xué)與探索;2011年01期

7 何明;周軍;紀(jì)周鵬;李樹友;;基于相似度量矩陣HITS的改進(jìn)算法[J];微電子學(xué)與計算機(jī);2010年07期

8 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期

9 鄭榕增;林世平;;基于Lucene的中文倒排索引技術(shù)的研究[J];計算機(jī)技術(shù)與發(fā)展;2010年03期

10 劉迪慧;何友全;;一種基于相似度值的向量空間投影HITS算法[J];現(xiàn)代計算機(jī)(專業(yè)版);2009年10期

相關(guān)碩士學(xué)位論文 前7條

1 鄒康;基于Nutch的分布式搜索引擎的研究與實現(xiàn)[D];湖北工業(yè)大學(xué);2015年

2 陳笑;論Robots協(xié)議下搜索引擎數(shù)據(jù)挖掘行為的法律責(zé)任[D];北京郵電大學(xué);2014年

3 李肖娜;基于蟻群算法的非結(jié)構(gòu)化P2P網(wǎng)絡(luò)資源搜索機(jī)制研究[D];江西師范大學(xué);2013年

4 趙雪霞;基于DHT的key-value存儲的范圍查詢技術(shù)研究[D];西安電子科技大學(xué);2011年

5 李春生;基于WEB信息采集的分布式網(wǎng)絡(luò)爬蟲搜索引擎的研究[D];吉林大學(xué);2009年

6 盧虹宇;Web結(jié)構(gòu)挖掘中HITS算法的研究[D];西南交通大學(xué);2008年

7 劉芳芳;Web鏈接分析中HITS算法的研究[D];大連理工大學(xué);2006年

,

本文編號:2060721

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2060721.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶43e4a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com