面向海量URL數(shù)據(jù)存取的快速文件系統(tǒng)
發(fā)布時間:2021-05-27 07:20
海量URL快速存儲和訪問是高性能web爬蟲的基礎(chǔ),由于web爬蟲需要根據(jù)一定的策略將URL按照一定的順序進行抓取,因此,為了快速查找,URL往往被保存在關(guān)系數(shù)據(jù)庫中。但是當(dāng)數(shù)據(jù)庫中數(shù)據(jù)的數(shù)量規(guī)模很大時,關(guān)系數(shù)據(jù)庫往往不能滿足爬蟲對海量URL數(shù)據(jù)存取的需求。這個也是提高web爬蟲性能的瓶頸所在。本文的研究是為了解決海量URL存取的性能瓶頸問題。通過對聚焦爬蟲在實際環(huán)境中爬行的過程進行深入的剖析,明確了爬蟲對海量URL數(shù)據(jù)存取的技術(shù)需求。針對這些技術(shù)需求我們進行了深入的研究,并在研究的成果上提出了面向海量URL存取的快速文件系統(tǒng)。根據(jù)功能文件系統(tǒng)分為邏輯存取模型和物理存取模型,并最終能夠取得滿足爬蟲需求的效果。本文的主要貢獻有:1)以B+樹作為快速文件系統(tǒng)邏輯存取模型的索引,并且以域名和URL的哈希值聯(lián)合作為B+樹的索引關(guān)鍵字,提高了URL記錄查詢的效率。并且通過葉子節(jié)點平移的延遲分裂方法優(yōu)化了B+樹的空間利用效率。2)在物理模型中,通過分析web爬蟲對URL的需求,在URL訪問的局部性原理,硬盤的順序讀寫,web爬蟲抓取網(wǎng)頁的可重現(xiàn)性和延遲寫技術(shù)的理論基礎(chǔ)之上,對緩存技術(shù)做了適當(dāng)?shù)膬?yōu)化,...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題來源及研究的目的和意義
1.1.1 課題來源
1.1.2 研究意義
1.2 國內(nèi)外相關(guān)技術(shù)發(fā)展現(xiàn)狀
1.2.1 URL 管理的技術(shù)現(xiàn)狀
1.2.2 文件系統(tǒng)的技術(shù)現(xiàn)狀
1.3 本文的主要內(nèi)容
1.4 本文的結(jié)構(gòu)安排
第2章 Web 爬蟲中海量URL 數(shù)據(jù)的存取操作分析
2.1 引言
2.2 web 爬蟲對海量URL 的存取需求
2.2.1 web 爬蟲的相關(guān)術(shù)語詮釋
2.2.2 web 爬蟲的流程
2.2.3 web 爬蟲對URL 的存取需求
2.3 基于關(guān)系數(shù)據(jù)庫的海量URL 存取方法分析
2.4 海量URL 操作的性能瓶頸
2.4.1 內(nèi)存數(shù)據(jù)庫、嵌入式數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫的對比
2.4.2 快速文件系統(tǒng)模型
2.5 本章小結(jié)
第3章 快速文件系統(tǒng)的邏輯存取模型
3.1 引言
3.2 海量URL 的去重技術(shù)
3.2.1 基于哈希的去重技術(shù)
3.2.2 哈希函數(shù)的選擇實驗
3.3 海量URL 的索引技術(shù)
3.3.1 哈希索引技術(shù)
3.3.2 Trie 索引
3.3.3 B 樹索引
3.4 基于優(yōu)化B+樹的快速文件系統(tǒng)邏輯存取模型
3.4.1 URL 及其附屬信息的存儲結(jié)構(gòu)
3.4.2 邏輯存取模型
3.4.3 優(yōu)化B+樹索引
3.4.4 優(yōu)化B+樹的實驗分析
3.5 并發(fā)存取模型設(shè)計
3.5.1 鎖機制
3.5.2 共享緩沖區(qū)并發(fā)模型
3.6 本章小結(jié)
第4章 快速文件系統(tǒng)的物理存取模型及I/O 優(yōu)化
4.1 引言
4.2 海量URL 的物理存取模型
4.2.1 URL 的物理存取結(jié)構(gòu)
4.2.2 快速文件系統(tǒng)的物理存取模型
4.2.3 外存地址的映射關(guān)系
4.3 海量URL 的緩存技術(shù)
4.3.1 快速文件系統(tǒng)的緩存策略
4.3.2 緩存命中率實驗分析
4.4 I/O 優(yōu)化
4.4.1 I/O 優(yōu)化原理
4.4.2 I/O 優(yōu)化實驗分析
4.5 本章小結(jié)
第5章 面向Web 爬蟲的海量URL 快速文件系統(tǒng)設(shè)計與實現(xiàn)
5.1 引言
5.2 快速文件系統(tǒng)的設(shè)計目標(biāo)
5.3 系統(tǒng)的總體設(shè)計
5.4 系統(tǒng)的詳細(xì)設(shè)計
5.4.1 去重模塊
5.4.2 索引管理模塊
5.4.3 記錄管理模塊
5.4.4 緩存管理模塊
5.4.5 頁面調(diào)度模塊
5.5 實驗結(jié)果和對比
5.6 本章小結(jié)
結(jié)論
參考文獻
致謝
【參考文獻】:
期刊論文
[1]Web緩存技術(shù)概述[J]. 王世克,吳集,金士堯. 計算機與信息技術(shù). 2005(06)
[2]兩種對URL的散列效果很好的函數(shù)[J]. 李曉明,鳳旺森. 軟件學(xué)報. 2004(02)
本文編號:3207157
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題來源及研究的目的和意義
1.1.1 課題來源
1.1.2 研究意義
1.2 國內(nèi)外相關(guān)技術(shù)發(fā)展現(xiàn)狀
1.2.1 URL 管理的技術(shù)現(xiàn)狀
1.2.2 文件系統(tǒng)的技術(shù)現(xiàn)狀
1.3 本文的主要內(nèi)容
1.4 本文的結(jié)構(gòu)安排
第2章 Web 爬蟲中海量URL 數(shù)據(jù)的存取操作分析
2.1 引言
2.2 web 爬蟲對海量URL 的存取需求
2.2.1 web 爬蟲的相關(guān)術(shù)語詮釋
2.2.2 web 爬蟲的流程
2.2.3 web 爬蟲對URL 的存取需求
2.3 基于關(guān)系數(shù)據(jù)庫的海量URL 存取方法分析
2.4 海量URL 操作的性能瓶頸
2.4.1 內(nèi)存數(shù)據(jù)庫、嵌入式數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫的對比
2.4.2 快速文件系統(tǒng)模型
2.5 本章小結(jié)
第3章 快速文件系統(tǒng)的邏輯存取模型
3.1 引言
3.2 海量URL 的去重技術(shù)
3.2.1 基于哈希的去重技術(shù)
3.2.2 哈希函數(shù)的選擇實驗
3.3 海量URL 的索引技術(shù)
3.3.1 哈希索引技術(shù)
3.3.2 Trie 索引
3.3.3 B 樹索引
3.4 基于優(yōu)化B+樹的快速文件系統(tǒng)邏輯存取模型
3.4.1 URL 及其附屬信息的存儲結(jié)構(gòu)
3.4.2 邏輯存取模型
3.4.3 優(yōu)化B+樹索引
3.4.4 優(yōu)化B+樹的實驗分析
3.5 并發(fā)存取模型設(shè)計
3.5.1 鎖機制
3.5.2 共享緩沖區(qū)并發(fā)模型
3.6 本章小結(jié)
第4章 快速文件系統(tǒng)的物理存取模型及I/O 優(yōu)化
4.1 引言
4.2 海量URL 的物理存取模型
4.2.1 URL 的物理存取結(jié)構(gòu)
4.2.2 快速文件系統(tǒng)的物理存取模型
4.2.3 外存地址的映射關(guān)系
4.3 海量URL 的緩存技術(shù)
4.3.1 快速文件系統(tǒng)的緩存策略
4.3.2 緩存命中率實驗分析
4.4 I/O 優(yōu)化
4.4.1 I/O 優(yōu)化原理
4.4.2 I/O 優(yōu)化實驗分析
4.5 本章小結(jié)
第5章 面向Web 爬蟲的海量URL 快速文件系統(tǒng)設(shè)計與實現(xiàn)
5.1 引言
5.2 快速文件系統(tǒng)的設(shè)計目標(biāo)
5.3 系統(tǒng)的總體設(shè)計
5.4 系統(tǒng)的詳細(xì)設(shè)計
5.4.1 去重模塊
5.4.2 索引管理模塊
5.4.3 記錄管理模塊
5.4.4 緩存管理模塊
5.4.5 頁面調(diào)度模塊
5.5 實驗結(jié)果和對比
5.6 本章小結(jié)
結(jié)論
參考文獻
致謝
【參考文獻】:
期刊論文
[1]Web緩存技術(shù)概述[J]. 王世克,吳集,金士堯. 計算機與信息技術(shù). 2005(06)
[2]兩種對URL的散列效果很好的函數(shù)[J]. 李曉明,鳳旺森. 軟件學(xué)報. 2004(02)
本文編號:3207157
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3207157.html
最近更新
教材專著