Hadoop網(wǎng)頁爬取系統(tǒng)的時間同步算法研究
本文關(guān)鍵詞:Hadoop網(wǎng)頁爬取系統(tǒng)的時間同步算法研究
更多相關(guān)文章: 敏感信息 偵測 Hadoop 復(fù)雜網(wǎng)絡(luò) 時間同步
【摘要】:隨著網(wǎng)絡(luò)的快速普及,我國的網(wǎng)民人數(shù)已經(jīng)達(dá)到了近7.5億,占據(jù)了全球網(wǎng)民數(shù)據(jù)量的近百分之二十,如此量級的網(wǎng)民群體在網(wǎng)絡(luò)空間上會產(chǎn)生海量的網(wǎng)絡(luò)的信息。網(wǎng)絡(luò)平臺的快速發(fā)展和信息交互的更加頻繁化使得人們之間的信息傳遞更加迅速和快捷,同時通過網(wǎng)絡(luò)也使得經(jīng)濟(jì)結(jié)構(gòu)形式更加合理、言論自由得到主張。但凡事有利即有弊,過度自由的網(wǎng)絡(luò)環(huán)境和不可控性導(dǎo)致了網(wǎng)絡(luò)犯罪的迅速蔓延、特別是網(wǎng)絡(luò)賭博、色情、煽動性言論等信息在網(wǎng)絡(luò)平臺上滋生的非常快速。因此政府相關(guān)部門也十分重視網(wǎng)絡(luò)良性發(fā)展的重要性。隨著網(wǎng)絡(luò)數(shù)據(jù)傳輸、存儲和分析技術(shù)的不斷發(fā)展,相關(guān)部門也開展了對網(wǎng)絡(luò)上熱點信息的獲取與把控。這也正是大數(shù)據(jù)時代挖掘數(shù)據(jù)價值的分支。在此背景下,本文著眼于對網(wǎng)絡(luò)話題檢測算法的研究。文中首先介紹了本文的研究背景、明確了課題的研究意義。并查閱相關(guān)文獻(xiàn),介紹了話題檢測技術(shù)的國內(nèi)外研究現(xiàn)狀;其次,詳細(xì)介紹了課題研究所涉及到的相關(guān)技術(shù)和理論,具體包括Hadoop分布式爬取架構(gòu)、網(wǎng)絡(luò)數(shù)據(jù)爬取的基本原理、復(fù)雜網(wǎng)絡(luò)理論和時間同步理論;再者文中對敏感信息數(shù)據(jù)爬取方案設(shè)計進(jìn)行了詳細(xì)闡述,明確網(wǎng)絡(luò)話題檢測的基礎(chǔ)數(shù)據(jù)載體,并結(jié)合復(fù)雜網(wǎng)絡(luò)理論,對敏感信息數(shù)據(jù)網(wǎng)頁進(jìn)行了復(fù)雜網(wǎng)絡(luò)模型的構(gòu)建與特性分析。在完成對網(wǎng)頁的復(fù)雜網(wǎng)絡(luò)模型研究后,文中針對該復(fù)雜網(wǎng)絡(luò)分析了偵測算法時間同步的意義和需求,并給出了時間同步算法的改進(jìn)方案。文中最后基于NS2仿真平臺對改進(jìn)后的算法進(jìn)行了仿真分析與實驗。本文的研究中,摒棄傳統(tǒng)的研究網(wǎng)頁文本信息手段,從網(wǎng)頁元集群的時間同步特性出發(fā)展開研究分析,可以看出話題檢測網(wǎng)頁復(fù)雜網(wǎng)絡(luò)模型下的時間同步算法研究與改進(jìn)切實的提高了網(wǎng)頁同步的精度,能夠更準(zhǔn)確的反應(yīng)網(wǎng)民的話題趨向,這對于話題檢測系統(tǒng)的信息捕獲是具有重要意義的。
【關(guān)鍵詞】:敏感信息 偵測 Hadoop 復(fù)雜網(wǎng)絡(luò) 時間同步
【學(xué)位授予單位】:河北大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092
【目錄】:
- 摘要5-6
- Abstract6-9
- 第1章 緒論9-14
- 1.1 研究背景及意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-11
- 1.3 研究內(nèi)容及章節(jié)安排11-14
- 1.3.1 研究內(nèi)容11-12
- 1.3.2 研究方法12
- 1.3.3 章節(jié)安排12-14
- 第2章 相關(guān)技術(shù)14-20
- 2.1 Hadoop技術(shù)簡介14-17
- 2.1.1 HDFS14-15
- 2.1.2 Map/Reduce15-17
- 2.2 網(wǎng)絡(luò)數(shù)據(jù)爬取17-18
- 2.2.1 網(wǎng)絡(luò)數(shù)據(jù)爬取工作原理17
- 2.2.2 網(wǎng)絡(luò)數(shù)據(jù)爬取基本結(jié)構(gòu)17-18
- 2.3 復(fù)雜網(wǎng)絡(luò)18-19
- 2.3.1 復(fù)雜網(wǎng)絡(luò)概述18
- 2.3.2 復(fù)雜網(wǎng)絡(luò)表示方式18-19
- 2.4 時間同步19-20
- 第3章 敏感信息爬取方案設(shè)計20-35
- 3.1 爬取結(jié)構(gòu)設(shè)計20-22
- 3.1.1 爬取基本流程設(shè)計20-21
- 3.1.2 爬取方案的框架設(shè)計21-22
- 3.2 各功能模塊設(shè)計22-33
- 3.2.1 Spider Driver模塊設(shè)計23-25
- 3.2.2 Trans XMLDriver模塊設(shè)計25-28
- 3.2.3 Analyzer Driver模塊設(shè)計28-30
- 3.2.4 Majorizater Driver模塊設(shè)計30-32
- 3.2.5 Synthesizer Driver模塊設(shè)計32-33
- 3.3 存儲結(jié)構(gòu)的實現(xiàn)33-35
- 第4章 復(fù)雜網(wǎng)絡(luò)模型構(gòu)建及時間同步算法選擇35-43
- 4.1 參數(shù)改進(jìn)及重定義35
- 4.2 復(fù)雜網(wǎng)絡(luò)模型構(gòu)建35-37
- 4.2.1 問題分析35-36
- 4.2.2 網(wǎng)絡(luò)模型特性36-37
- 4.3 復(fù)雜網(wǎng)絡(luò)中的時間同步需求分析37-38
- 4.3.1 時鐘漂移37-38
- 4.3.2 時鐘偏差38
- 4.4 時間同步方法的選擇38-43
- 4.4.1 RBS算法38-39
- 4.4.2 FTSP算法39
- 4.4.3 DMTS算法39-40
- 4.4.4 MINI-SYNC和TINY-SYNC算法40-41
- 4.4.5 TPSN算法41-43
- 第5章 算法研究與改進(jìn)43-48
- 5.1 TPSN算法改進(jìn)方法的選擇43-44
- 5.2 TPSN-LS算法44-48
- 第6章 仿真實驗與分析48-54
- 6.1 NS2仿真平臺48
- 6.2 TPSN-LS算法的實現(xiàn)48-51
- 6.2.1 協(xié)議添加48-50
- 6.2.2 算法的實現(xiàn)50-51
- 6.3 仿真結(jié)果與分析51-54
- 第7章 總結(jié)與展望54-55
- 參考文獻(xiàn)55-59
- 致謝59
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 趙斌;賀鵬;;網(wǎng)絡(luò)時間同步算法中時鐘精度優(yōu)化設(shè)計與實現(xiàn)[J];三峽大學(xué)學(xué)報(自然科學(xué)版);2008年02期
2 陶克,徐怡山,賀鵬;被動式時間同步算法的研究與軟件編制[J];三峽大學(xué)學(xué)報(自然科學(xué)版);2004年01期
3 方祥;傅聰;陳國良;;網(wǎng)絡(luò)時間同步算法及其實現(xiàn)[J];計算機工程與應(yīng)用;1992年03期
4 賀鵬,李菁,吳海濤;網(wǎng)絡(luò)時間同步算法研究與實現(xiàn)[J];計算機應(yīng)用;2003年02期
5 楊崇;;一種被動式時間同步算法的研究與設(shè)計[J];信息技術(shù);2006年10期
6 田俊峰;溫懷湘;溫玉;;一種新的建立在簇結(jié)構(gòu)上的同步點時間同步算法[J];小型微型計算機系統(tǒng);2010年03期
7 李秋靈;白焰;王仁書;;具有容錯性的洪泛時間同步算法研究[J];計算機仿真;2013年12期
8 黃成芳;何迪;;無線傳感器網(wǎng)絡(luò)延遲層次型時間同步算法[J];計算機仿真;2008年10期
9 汪付強;曾鵬;于海斌;;一種低開銷的雙向時間同步算法[J];儀器儀表學(xué)報;2011年06期
10 蓋旗濤;樊小平;蔡劏;王承新;;WSN時間同步算法研究[J];電子技術(shù);2010年07期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 譚晉;孫科;劉皓;;B3G MIMO-OFDM系統(tǒng)時間同步算法及FPGA實現(xiàn)[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(下冊)[C];2007年
2 徐林濵;雷霞;唐萬斌;;一種OFDM系統(tǒng)中基于PN序列的低復(fù)雜度時間同步算法[A];2006中國西部青年通信學(xué)術(shù)會議論文集[C];2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 吳杰;無線傳感器網(wǎng)絡(luò)時間同步算法研究[D];天津大學(xué);2015年
2 李立;無線傳感器網(wǎng)絡(luò)時間同步算法研究[D];清華大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李思慧;無線車輛檢測網(wǎng)絡(luò)路由協(xié)議與時間同步算法研究[D];長安大學(xué);2015年
2 嚴(yán)寒;MIMO-OFDM基帶數(shù)據(jù)傳輸系統(tǒng)的設(shè)計與實現(xiàn)[D];北京化工大學(xué);2015年
3 崔海偉;海洋傳感器網(wǎng)絡(luò)時間同步算法研究[D];青島科技大學(xué);2015年
4 張玉亮;多跳水下傳感器網(wǎng)絡(luò)時間同步算法研究[D];中國海洋大學(xué);2015年
5 閆玉萍;煤礦電網(wǎng)輸電線路故障檢測的WSN時間同步算法研究[D];中國礦業(yè)大學(xué);2016年
6 趙鵬;面向泛在協(xié)同環(huán)境的時間同步算法研究[D];南京郵電大學(xué);2016年
7 魏炬熠;無線傳感器網(wǎng)絡(luò)時間同步算法的研究[D];合肥工業(yè)大學(xué);2016年
8 代兵;Hadoop網(wǎng)頁爬取系統(tǒng)的時間同步算法研究[D];河北大學(xué);2016年
9 王施準(zhǔn);智能交通網(wǎng)絡(luò)中的無線時間同步算法的設(shè)計與仿真[D];北京郵電大學(xué);2011年
10 溫懷湘;一種新的建立在簇結(jié)構(gòu)上的同步點時間同步算法[D];河北大學(xué);2010年
,本文編號:1067252
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1067252.html