天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

互聯(lián)網(wǎng)主題信息調(diào)研與拓展系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2017-09-07 22:25

  本文關(guān)鍵詞:互聯(lián)網(wǎng)主題信息調(diào)研與拓展系統(tǒng)的設(shè)計與實現(xiàn)


  更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲 數(shù)據(jù)挖掘 關(guān)聯(lián)分析


【摘要】:互聯(lián)網(wǎng)大數(shù)據(jù)時代,人們的生活已經(jīng)離不開互聯(lián)網(wǎng),都難免留下痕跡,這些痕跡淹沒在龐大的數(shù)據(jù)海洋中,看似無從循跡。事實上,依靠科技的力量,只要方法得當(dāng),我們依然可以從海量數(shù)據(jù)中尋找到需要的信息。本課題來源于作者工作實踐,主要解決兩類問題,一是對于給定的主題信息,通過互聯(lián)網(wǎng),盡可能發(fā)現(xiàn)和收集與其相關(guān)的數(shù)據(jù),搭建數(shù)據(jù)庫予以保存;二是對于可疑線索,一方面同樣通過互聯(lián)網(wǎng)搜索盡可能多的相關(guān)信息,另一方面和已知特定目標(biāo)的信息庫進(jìn)行比對,力求發(fā)現(xiàn)可疑線索最終指向的幕后目標(biāo)。本課題研究的核心內(nèi)容包括三部分:一是設(shè)計一種高精度聚焦網(wǎng)絡(luò)爬蟲程序,根據(jù)不同線索類型提取數(shù)據(jù)特征,自動化分析數(shù)據(jù)源,盡可能排除無關(guān)數(shù)據(jù)的干擾,從海量網(wǎng)絡(luò)資源中獲取與可疑線索相關(guān)的敏感信息;二是針對可疑目標(biāo)的線索擴(kuò)展技術(shù)。該部分需緊密結(jié)合使用部門的工作實際,數(shù)據(jù)類型和維度標(biāo)準(zhǔn)由業(yè)務(wù)部門指定并可靈活添加、修改,并采用基于Whois、Nslookup、搜索引擎及網(wǎng)絡(luò)爬蟲等數(shù)據(jù),針對嫌疑線索進(jìn)行自動化智能擴(kuò)展;三是基于數(shù)據(jù)挖掘的多維信息分類與關(guān)聯(lián)分析技術(shù)。重點研究了如何挖掘海量數(shù)據(jù)之間蘊含的關(guān)聯(lián)規(guī)則,并通過關(guān)聯(lián)規(guī)則從海量數(shù)據(jù)中提取有用信息,發(fā)現(xiàn)新的線索成果。
【關(guān)鍵詞】:網(wǎng)絡(luò)爬蟲 數(shù)據(jù)挖掘 關(guān)聯(lián)分析
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.52;TP391.1
【目錄】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第一章 緒論10-13
  • 1.1 研究背景10
  • 1.2 研究意義10-11
  • 1.3 國內(nèi)外研究現(xiàn)狀11
  • 1.4 主要研究內(nèi)容11-12
  • 1.5 論文組織結(jié)構(gòu)12-13
  • 第二章 相關(guān)理論與技術(shù)13-31
  • 2.1 網(wǎng)絡(luò)爬蟲理論與技術(shù)13-24
  • 2.1.1 網(wǎng)絡(luò)爬蟲概念與原理13-14
  • 2.1.2 網(wǎng)頁采集策略14-15
  • 2.1.3 頁面消重技術(shù)15-17
  • 2.1.4 網(wǎng)絡(luò)爬蟲分類17-18
  • 2.1.5 分布式聚焦網(wǎng)絡(luò)爬蟲18-19
  • 2.1.6 網(wǎng)絡(luò)爬蟲數(shù)據(jù)存儲19-20
  • 2.1.7 開源網(wǎng)絡(luò)爬蟲框架20-24
  • 2.2 數(shù)據(jù)挖掘理論與技術(shù)24-30
  • 2.2.1 數(shù)據(jù)挖掘概念24-25
  • 2.2.2 數(shù)據(jù)挖掘的功能25-26
  • 2.2.3 數(shù)據(jù)挖掘步驟26
  • 2.2.4 數(shù)據(jù)挖掘的知識模式以及方法26-30
  • 2.3 本章小結(jié)30-31
  • 第三章 系統(tǒng)需求與總體設(shè)計31-39
  • 3.1 系統(tǒng)需求31-32
  • 3.1.1 用戶功能需求分析31-32
  • 3.1.2 系統(tǒng)性能需求分析32
  • 3.2 總體功能設(shè)計32-36
  • 3.3 系統(tǒng)體系架構(gòu)36-37
  • 3.4 用戶角色說明37-38
  • 3.5 運行環(huán)境38
  • 3.6 本章小結(jié)38-39
  • 第四章 系統(tǒng)實現(xiàn)39-64
  • 4.1 信息收集模塊39-49
  • 4.1.1 信息收集模塊設(shè)計40-41
  • 4.1.2 初始URL集合41
  • 4.1.3 頁面采集模塊41-43
  • 4.1.4 頁面解析模塊43-44
  • 4.1.5 基于PageRank算法的主題相關(guān)性計算模塊44-48
  • 4.1.6 工作特征信息48-49
  • 4.2 信息分析模塊49-61
  • 4.2.1 多維數(shù)據(jù)分類模塊51-53
  • 4.2.2 關(guān)聯(lián)關(guān)系分析子模塊:53-54
  • 4.2.3 數(shù)據(jù)清洗子模塊54-57
  • 4.2.4 數(shù)據(jù)并行分析與挖掘子模塊57-61
  • 4.2.5 模型構(gòu)建與智能學(xué)習(xí)子模塊61
  • 4.3 結(jié)果展示模塊61-63
  • 4.4 本章小結(jié)63-64
  • 第五章 系統(tǒng)應(yīng)用64-72
  • 5.1 系統(tǒng)登錄頁面64
  • 5.2 系統(tǒng)主頁面64-65
  • 5.3 域名信息查詢65
  • 5.4 IP信息查詢65-66
  • 5.5 網(wǎng)站地址信息收集66
  • 5.6 托管服務(wù)器信息收集66-67
  • 5.7 注冊會員信息收集67
  • 5.8 郵箱地址線索擴(kuò)展67-68
  • 5.9 案件分析68-69
  • 5.10 重點關(guān)注與事件告警69-70
  • 5.11 動態(tài)線索展示70
  • 5.12 應(yīng)用案例分析70-71
  • 5.13 本章小結(jié)71-72
  • 結(jié)論72-73
  • 參考文獻(xiàn)73-75
  • 致謝75-76
  • 答辯委員會對論文的評定意見逡逑76

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 王甜;;互聯(lián)網(wǎng)治理論壇第二次會議在巴西召開[J];互聯(lián)網(wǎng)天地;2007年12期

2 米丹寧;;被忽視的互聯(lián)網(wǎng)[J];信息方略;2008年16期

3 鄔賀銓;;互聯(lián)網(wǎng)發(fā)展面臨可擴(kuò)展性挑戰(zhàn)[J];世界電信;2010年08期

4 ;第七屆互聯(lián)網(wǎng)治理論壇舉行[J];計算機安全;2012年11期

5 彭曉光;霍紅萍;;互聯(lián)網(wǎng)資源對地域經(jīng)濟(jì)發(fā)展的影響研討[J];電子制作;2013年10期

6 潘應(yīng)和;淺議廣播電臺進(jìn)軍互聯(lián)網(wǎng)的新思路[J];當(dāng)代傳播;2000年06期

7 郭良;卜衛(wèi);;2000年中國北京、上海、廣州、成都、長沙互聯(lián)網(wǎng)使用狀況及影響的調(diào)查報告[J];Internet信息世界;2001年10期

8 曉齊;《中國互聯(lián)網(wǎng)發(fā)展報告》(2003-2004年卷)出版[J];信息網(wǎng)絡(luò)安全;2004年07期

9 黃永貴;;聽網(wǎng):用耳朵貼近互聯(lián)網(wǎng)[J];互聯(lián)網(wǎng)天地;2007年08期

10 ;手機上網(wǎng):互聯(lián)網(wǎng)時代的王道[J];中國新通信;2008年20期

中國重要會議論文全文數(shù)據(jù)庫 前3條

1 王東明;毛英軍;李志軍;;利用互聯(lián)網(wǎng)資源,了解國外醫(yī)療設(shè)備動態(tài)[A];中華醫(yī)學(xué)會醫(yī)學(xué)工程學(xué)分會第二次醫(yī)學(xué)影像設(shè)備應(yīng)用技術(shù)研討會論文集[C];2001年

2 宇纓;;互聯(lián)網(wǎng)高等教育教學(xué)資源的現(xiàn)狀及相關(guān)技術(shù)分析[A];中國高等教育學(xué)會教育信息化分會第十次學(xué)術(shù)年會論文集[C];2010年

3 郭劍鋒;蔡圣華;;互聯(lián)網(wǎng)資源在Web2.0中的自組織特性與管理模式分析[A];第十二屆中國管理科學(xué)學(xué)術(shù)年會論文集[C];2010年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 記者 張緒旺 藍(lán)朝暉;阿里聯(lián)手上汽布局互聯(lián)網(wǎng)汽車[N];北京商報;2014年

2 廖慶升;謝文:互聯(lián)網(wǎng)發(fā)展最大障礙是缺乏誠信和創(chuàng)新[N];通信信息報;2007年

3 記者 馮海波 通訊員 龔華萍;網(wǎng)速更快也更安全[N];廣東科技報;2008年

4 記者 姚睿;互聯(lián)網(wǎng)政策與資源工作委員會成立[N];計算機世界;2002年

5 ;中國互聯(lián)網(wǎng)協(xié)會譴責(zé)破壞行為[N];計算機世界;2003年

6 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC) 胡軍慶;下一代互聯(lián)網(wǎng)的機遇與挑戰(zhàn)[N];計算機世界;2004年

7 本報記者 王揚二;互聯(lián)網(wǎng)電視競爭:尋找“黑箱技術(shù)”[N];中國質(zhì)量報;2009年

8 記者 徐穎;新視科技助企業(yè)和校園實施互聯(lián)網(wǎng)資源訪問管理[N];北京科技報;2002年

9 本報記者 潘旭濤;互聯(lián)網(wǎng)未來:+-×÷[N];人民日報海外版;2014年

10 本報記者 傅嘉;A股大象螞蟻齊喊互聯(lián)網(wǎng)轉(zhuǎn)型[N];中國證券報;2014年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 朱啟貞;互聯(lián)網(wǎng)+時代下日照ZS集團(tuán)戰(zhàn)略問題分析及對策研究[D];青島科技大學(xué);2016年

2 方耀耀;基于移動互聯(lián)網(wǎng)的信息推送系統(tǒng)的研究與實現(xiàn)[D];北方工業(yè)大學(xué);2016年

3 顏臣;我國商業(yè)銀行互聯(lián)網(wǎng)金融發(fā)展策略研究[D];山東財經(jīng)大學(xué);2016年

4 焦慧娟;互聯(lián)網(wǎng)金融發(fā)展對商業(yè)銀行的影響研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2016年

5 朱英鎮(zhèn);互聯(lián)網(wǎng)主題信息調(diào)研與拓展系統(tǒng)的設(shè)計與實現(xiàn)[D];華南理工大學(xué);2016年

6 靳見美;大學(xué)生互聯(lián)網(wǎng)依賴對網(wǎng)絡(luò)惠顧意愿的影響研究[D];大連交通大學(xué);2013年

7 何波;武漢市互聯(lián)網(wǎng)與新農(nóng)村建設(shè)的實證研究[D];華中師范大學(xué);2015年

8 張凡;互聯(lián)網(wǎng)金融背景下我國中小銀行的發(fā)展對策研究[D];天津財經(jīng)大學(xué);2014年

9 劉冬林;河南農(nóng)民互聯(lián)網(wǎng)使用現(xiàn)狀調(diào)查研究[D];河南大學(xué);2013年

10 孫銘;互聯(lián)網(wǎng)輔助翻譯工具及其應(yīng)用研究[D];黑龍江大學(xué);2014年

,

本文編號:810237

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/810237.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶69fec***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com