基于Kademlia的FTP搜索引擎索引技術(shù)的研究
本文選題:P2P 切入點(diǎn):FTP搜索引擎 出處:《西華大學(xué)》2013年碩士論文
【摘要】:近年來(lái),由于互聯(lián)網(wǎng)資源的逐漸多樣化與分布式存儲(chǔ),基于P2P技術(shù)的分布式FTP搜索引擎已成為FTP資源搜索的研究熱點(diǎn),其中,索引技術(shù)一直是提高FTP檢索效率的關(guān)鍵。針對(duì)FTP資源檢索對(duì)象的特點(diǎn)以及對(duì)等網(wǎng)絡(luò)中的Kademlia模型存在的問題,本文提出了一種基于包含地理位置信息的Kademlia模型的分布式雙字母倒排索引算法(a DistributedDouble-letters Inverted Indexing AlgorithmBased on a Containing Geographical Location Information Kademlia Model,簡(jiǎn)稱為DGKAD)。為了提高資源檢索效率,在DGKAD索引算法中,節(jié)點(diǎn)ID信息加入了節(jié)點(diǎn)的物理位置信息,從而改善了Kademlia層疊網(wǎng)(overlay network)邏輯結(jié)構(gòu)和物理結(jié)構(gòu)不匹配的問題,提高了網(wǎng)絡(luò)通信效率,并且鑒于檢索對(duì)象是字符長(zhǎng)度較短的文件名,與基于標(biāo)準(zhǔn)Kademlia模型的DHT倒排索引算法(a DHTInverted Indexing AlgorithmBased on a Standard KademliaModel Based簡(jiǎn)稱為DSKAD)相比,使用DGKAD索引算法可以避免分詞,并提高了檢索結(jié)果的查全率和準(zhǔn)確率。 最后,本文通過對(duì)DGKAD索引算法進(jìn)行模擬仿真,結(jié)果表明,在FTP檢索資源所需的邏輯路徑跳數(shù)、檢索查全率以及查準(zhǔn)率各個(gè)方面,DGKAD索引算法具有消耗網(wǎng)絡(luò)帶寬少,資源定位速度快,查全率和查準(zhǔn)率較高等方面的優(yōu)點(diǎn)。
[Abstract]:In recent years, due to the gradual diversification and distributed storage of Internet resources, the distributed FTP search engine based on P2P technology has become the research hotspot of FTP resource search. Among them, indexing technology has been the key to improve the efficiency of FTP retrieval.According to the characteristics of FTP resource retrieval object and the problems of Kademlia model in peer-to-peer network,In this paper, a distributed DistributedDouble-letters Inverted Indexing AlgorithmBased on a Containing Geographical Location Information Kademlia model based on Kademlia model with geographic location information is proposed.In order to improve the efficiency of resource retrieval, the node ID information is added to the physical location information of the node in the DGKAD index algorithm, which improves the mismatch between the logical structure and the physical structure of the Kademlia overlay network, and improves the communication efficiency of the network.In view of the fact that the retrieval object is a file name with shorter character length, compared with a DHTInverted Indexing AlgorithmBased on a Standard KademliaModel Based (DSKAD) algorithm based on standard Kademlia model, the DGKAD index algorithm can avoid word segmentation.The recall and accuracy of retrieval results are improved.Finally, this paper simulates the DGKAD indexing algorithm, and the results show that the DGKAD index algorithm consumes less network bandwidth in all aspects of logical path hops, retrieval recall and precision of FTP retrieval resources.High speed of resource location, high recall rate and high precision rate.
【學(xué)位授予單位】:西華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 任超;李戰(zhàn)懷;張英;;異構(gòu)P2P網(wǎng)絡(luò)的分布式查詢協(xié)議[J];電子科技大學(xué)學(xué)報(bào);2009年01期
2 陳剛;吳國(guó)新;楊望;;G-Chord:一種基于Chord的路由改進(jìn)算法[J];東南大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年01期
3 周皓;何克右;邵紅梅;;基于Kademlia的P2P搜索技術(shù)的研究[J];電腦知識(shí)與技術(shù);2009年01期
4 王震;;優(yōu)化型Kademlia的設(shè)計(jì)研究[J];電腦知識(shí)與技術(shù);2011年32期
5 吳建源;;基于BP神經(jīng)網(wǎng)絡(luò)的中文分詞算法研究[J];廣東培正學(xué)院學(xué)報(bào);2011年04期
6 趙娟娟;;基于區(qū)域劃分的對(duì)等網(wǎng)Kademali模型的改進(jìn)[J];硅谷;2011年03期
7 潘家英;唐曉年;勞有蘭;;基于P2P技術(shù)的校園網(wǎng)絡(luò)應(yīng)用研究[J];桂林電子科技大學(xué)學(xué)報(bào);2008年06期
8 易清亮;劉克劍;蔡祖戀;;基于P2P技術(shù)的大型分布式FTP搜索引擎研究[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期
9 陳華,王繼民,韓近強(qiáng),謝欣;互聯(lián)網(wǎng)上FTP文件的分布特征及啟示[J];計(jì)算機(jī)工程與應(yīng)用;2004年01期
10 吳煒;蘇永紅;李瑞軒;盧正鼎;;基于DHT的分布式索引技術(shù)研究與實(shí)現(xiàn)[J];計(jì)算機(jī)科學(xué);2010年02期
,本文編號(hào):1704386
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1704386.html