天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

特定網(wǎng)站主動發(fā)現(xiàn)與驗(yàn)證系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-04-16 20:09

  本文關(guān)鍵詞:特定網(wǎng)站主動發(fā)現(xiàn)與驗(yàn)證系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展以及網(wǎng)絡(luò)服務(wù)的不斷普及,網(wǎng)民對于網(wǎng)絡(luò)的依賴性逐漸加強(qiáng)。網(wǎng)絡(luò)技術(shù)的發(fā)展也導(dǎo)致各類特定網(wǎng)站的出現(xiàn),使得網(wǎng)民的經(jīng)濟(jì)財(cái)產(chǎn)受到損失。特定網(wǎng)站是指含有對社會穩(wěn)定、個(gè)體信息與隱私安全造成威脅的信息的網(wǎng)站,特定網(wǎng)站大多分布于境外,具有增長速度快、傳播途徑多的特點(diǎn)。對于這些特定網(wǎng)站信息用被動發(fā)現(xiàn)是遠(yuǎn)遠(yuǎn)不夠的,研究特定網(wǎng)站主動發(fā)現(xiàn)技術(shù)成為亟待解決的問題,因此,本文以此為重點(diǎn),查閱相關(guān)文獻(xiàn),對特定網(wǎng)站主動發(fā)現(xiàn)技術(shù)進(jìn)行了深入研究,提出了一種基于主動發(fā)現(xiàn)技術(shù)的特定網(wǎng)站探測和驗(yàn)證系統(tǒng)。論文針對主動發(fā)現(xiàn)覆蓋廣度以及準(zhǔn)確度問題,運(yùn)用元搜索發(fā)現(xiàn)技術(shù)、垂直搜索跟蹤技術(shù)提出了一種基于用戶白名單以及關(guān)鍵字的主動發(fā)現(xiàn)技術(shù),系統(tǒng)將通過元搜索技術(shù),利用搜索引擎模板,對白名單網(wǎng)站和關(guān)鍵字進(jìn)行處理,將關(guān)鍵字范圍擴(kuò)大,對新生成的關(guān)鍵字通過垂直搜索進(jìn)行專項(xiàng)跟蹤,利用專項(xiàng)搜索模板發(fā)現(xiàn)可疑的特定網(wǎng)站URL。針對主動發(fā)現(xiàn)技術(shù)提取的可疑URL,系統(tǒng)利用基于頁面Title比對與基于頁面結(jié)構(gòu)比對驗(yàn)證技術(shù)進(jìn)行網(wǎng)頁驗(yàn)證。論文通過頁面Title及結(jié)構(gòu)提取將網(wǎng)頁特征提取出來,頁面Title通過Title校驗(yàn)字符串切割提取出Title關(guān)鍵字進(jìn)行比對,系統(tǒng)通過頁面結(jié)構(gòu)生成DOM樹,通過DOM節(jié)點(diǎn)篩選算法提取出頁面VTree,利用頁面結(jié)構(gòu)比對算法計(jì)算出最終的結(jié)果。系統(tǒng)測試表明各模塊均能正常運(yùn)行,并且各算法均能達(dá)到相應(yīng)指標(biāo),平均每天發(fā)現(xiàn)可疑特定網(wǎng)站883條,平均通過驗(yàn)證確定特定網(wǎng)站57條,誤報(bào)率漏報(bào)率均不超過15%。
【關(guān)鍵詞】:主動發(fā)現(xiàn) 網(wǎng)頁結(jié)構(gòu) 節(jié)點(diǎn)篩選 網(wǎng)頁比對
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092
【目錄】:
  • 摘要4-5
  • ABSTRACT5-8
  • 第1章 緒論8-20
  • 1.1 課題研究背景和意義8
  • 1.2 網(wǎng)頁爬蟲相關(guān)介紹8-13
  • 1.2.1 通用網(wǎng)絡(luò)爬蟲9-10
  • 1.2.2 聚焦網(wǎng)絡(luò)爬蟲10-11
  • 1.2.3 增量式網(wǎng)絡(luò)爬蟲11-12
  • 1.2.4 深層網(wǎng)絡(luò)爬蟲12-13
  • 1.3 爬蟲及網(wǎng)頁內(nèi)容解析研究13-16
  • 1.4 網(wǎng)站相似度研究16-17
  • 1.5 本課題研究內(nèi)容與方法17-18
  • 1.6 本文工作內(nèi)容及組織結(jié)構(gòu)18-20
  • 第2章 主動發(fā)現(xiàn)技術(shù)研究20-31
  • 2.1 元搜索發(fā)現(xiàn)技術(shù)研究20-25
  • 2.1.1 整體技術(shù)設(shè)計(jì)20-21
  • 2.1.2 網(wǎng)頁內(nèi)容抽取模塊21
  • 2.1.3 網(wǎng)頁數(shù)據(jù)解析模塊21-23
  • 2.1.4 搜索任務(wù)解析模塊23-24
  • 2.1.5 URL去重模塊24-25
  • 2.1.6 元搜索發(fā)現(xiàn)技術(shù)案例25
  • 2.2 垂直搜索跟蹤技術(shù)研究25-29
  • 2.2.1 整體技術(shù)設(shè)計(jì)25-26
  • 2.2.2 網(wǎng)頁跳轉(zhuǎn)調(diào)度模塊26-27
  • 2.2.3 垂直搜索跟蹤技術(shù)案例27-29
  • 2.3 主動發(fā)現(xiàn)技術(shù)測試與分析29-30
  • 2.4 本章小結(jié)30-31
  • 第3章 網(wǎng)頁Title比對方法研究31-39
  • 3.1 網(wǎng)頁Title提取方法設(shè)計(jì)與實(shí)現(xiàn)31-33
  • 3.1.1 網(wǎng)頁Title解析31-32
  • 3.1.2 網(wǎng)頁Title驗(yàn)證32-33
  • 3.2 網(wǎng)頁Title比對方法設(shè)計(jì)與實(shí)現(xiàn)33-37
  • 3.2.1 網(wǎng)頁Title比對算法設(shè)計(jì)33-34
  • 3.2.2 網(wǎng)頁Title比對算法實(shí)現(xiàn)34-37
  • 3.3 網(wǎng)頁Title比對方法測試與分析37-38
  • 3.4 本章小結(jié)38-39
  • 第4章 網(wǎng)頁結(jié)構(gòu)比對方法研究39-53
  • 4.1 DOM樹節(jié)點(diǎn)篩選算法設(shè)計(jì)與實(shí)現(xiàn)39-44
  • 4.1.1 DOM樹節(jié)點(diǎn)篩選算法設(shè)計(jì)39-42
  • 4.1.2 DOM樹節(jié)點(diǎn)篩選算法實(shí)現(xiàn)42-44
  • 4.2 基于網(wǎng)頁VTree的網(wǎng)頁相似度比對算法設(shè)計(jì)與實(shí)現(xiàn)44-50
  • 4.2.1 基于網(wǎng)頁VTree的網(wǎng)頁相似度比對算法設(shè)計(jì)44-48
  • 4.2.2 基于網(wǎng)頁VTree的網(wǎng)頁相似度比對算法參數(shù)選取48-49
  • 4.2.3 基于網(wǎng)頁VTree的網(wǎng)頁相似度比對算法實(shí)現(xiàn)49-50
  • 4.3 網(wǎng)頁結(jié)構(gòu)比對算法測試與分析50-52
  • 4.3.1 DOM樹節(jié)點(diǎn)篩選算法測試與分析50-51
  • 4.3.2 基于網(wǎng)頁VTree的網(wǎng)頁相似度比對方法測試與分析51-52
  • 4.4 本章小結(jié)52-53
  • 第5章 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)53-64
  • 5.1 系統(tǒng)設(shè)計(jì)53-58
  • 5.1.1 系統(tǒng)整體設(shè)計(jì)53
  • 5.1.2 網(wǎng)頁特征生成模塊53-54
  • 5.1.3 元搜索發(fā)現(xiàn)模塊54-55
  • 5.1.4 垂直搜索跟蹤模塊55-56
  • 5.1.5 驗(yàn)證模塊56-58
  • 5.2 數(shù)據(jù)庫設(shè)計(jì)58-61
  • 5.3 系統(tǒng)整體測試案例61-63
  • 5.4 本章小結(jié)63-64
  • 結(jié)論64-65
  • 參考文獻(xiàn)65-69
  • 攻讀碩士學(xué)位期間發(fā)表的論文及其他成果69-71
  • 致謝71

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前3條

1 何忠秀;王霜;安禮成;;基于向量空間的網(wǎng)頁內(nèi)容相似度計(jì)算方法研究[J];計(jì)算機(jī)與現(xiàn)代化;2010年09期

2 吳鵬飛;孟祥增;劉俊曉;馬鳳娟;;網(wǎng)頁區(qū)域分割與識別技術(shù)[J];現(xiàn)代計(jì)算機(jī);2006年06期

3 陳大業(yè);劉佳;盧鳳暉;李丙輝;;基于Web的坐標(biāo)數(shù)據(jù)解析方法[J];郵電設(shè)計(jì)技術(shù);2015年05期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條

1 朱良峰;主題網(wǎng)絡(luò)爬蟲的研究與設(shè)計(jì)[D];南京理工大學(xué);2008年

2 張曉雷;面向Web挖掘的主題網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2012年

3 張大偉;基于動態(tài)概念圖的主題網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與分析[D];遼寧科技大學(xué);2013年


  本文關(guān)鍵詞:特定網(wǎng)站主動發(fā)現(xiàn)與驗(yàn)證系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。



本文編號:311571

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/311571.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2d820***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com