互聯(lián)網(wǎng)主題信息調研與拓展系統(tǒng)的設計與實現(xiàn)
本文關鍵詞:互聯(lián)網(wǎng)主題信息調研與拓展系統(tǒng)的設計與實現(xiàn)
更多相關文章: 網(wǎng)絡爬蟲 數(shù)據(jù)挖掘 關聯(lián)分析
【摘要】:互聯(lián)網(wǎng)大數(shù)據(jù)時代,人們的生活已經離不開互聯(lián)網(wǎng),都難免留下痕跡,這些痕跡淹沒在龐大的數(shù)據(jù)海洋中,看似無從循跡。事實上,依靠科技的力量,只要方法得當,我們依然可以從海量數(shù)據(jù)中尋找到需要的信息。本課題來源于作者工作實踐,主要解決兩類問題,一是對于給定的主題信息,通過互聯(lián)網(wǎng),盡可能發(fā)現(xiàn)和收集與其相關的數(shù)據(jù),搭建數(shù)據(jù)庫予以保存;二是對于可疑線索,一方面同樣通過互聯(lián)網(wǎng)搜索盡可能多的相關信息,另一方面和已知特定目標的信息庫進行比對,力求發(fā)現(xiàn)可疑線索最終指向的幕后目標。本課題研究的核心內容包括三部分:一是設計一種高精度聚焦網(wǎng)絡爬蟲程序,根據(jù)不同線索類型提取數(shù)據(jù)特征,自動化分析數(shù)據(jù)源,盡可能排除無關數(shù)據(jù)的干擾,從海量網(wǎng)絡資源中獲取與可疑線索相關的敏感信息;二是針對可疑目標的線索擴展技術。該部分需緊密結合使用部門的工作實際,數(shù)據(jù)類型和維度標準由業(yè)務部門指定并可靈活添加、修改,并采用基于Whois、Nslookup、搜索引擎及網(wǎng)絡爬蟲等數(shù)據(jù),針對嫌疑線索進行自動化智能擴展;三是基于數(shù)據(jù)挖掘的多維信息分類與關聯(lián)分析技術。重點研究了如何挖掘海量數(shù)據(jù)之間蘊含的關聯(lián)規(guī)則,并通過關聯(lián)規(guī)則從海量數(shù)據(jù)中提取有用信息,發(fā)現(xiàn)新的線索成果。
【關鍵詞】:網(wǎng)絡爬蟲 數(shù)據(jù)挖掘 關聯(lián)分析
【學位授予單位】:華南理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.52;TP391.1
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 緒論10-13
- 1.1 研究背景10
- 1.2 研究意義10-11
- 1.3 國內外研究現(xiàn)狀11
- 1.4 主要研究內容11-12
- 1.5 論文組織結構12-13
- 第二章 相關理論與技術13-31
- 2.1 網(wǎng)絡爬蟲理論與技術13-24
- 2.1.1 網(wǎng)絡爬蟲概念與原理13-14
- 2.1.2 網(wǎng)頁采集策略14-15
- 2.1.3 頁面消重技術15-17
- 2.1.4 網(wǎng)絡爬蟲分類17-18
- 2.1.5 分布式聚焦網(wǎng)絡爬蟲18-19
- 2.1.6 網(wǎng)絡爬蟲數(shù)據(jù)存儲19-20
- 2.1.7 開源網(wǎng)絡爬蟲框架20-24
- 2.2 數(shù)據(jù)挖掘理論與技術24-30
- 2.2.1 數(shù)據(jù)挖掘概念24-25
- 2.2.2 數(shù)據(jù)挖掘的功能25-26
- 2.2.3 數(shù)據(jù)挖掘步驟26
- 2.2.4 數(shù)據(jù)挖掘的知識模式以及方法26-30
- 2.3 本章小結30-31
- 第三章 系統(tǒng)需求與總體設計31-39
- 3.1 系統(tǒng)需求31-32
- 3.1.1 用戶功能需求分析31-32
- 3.1.2 系統(tǒng)性能需求分析32
- 3.2 總體功能設計32-36
- 3.3 系統(tǒng)體系架構36-37
- 3.4 用戶角色說明37-38
- 3.5 運行環(huán)境38
- 3.6 本章小結38-39
- 第四章 系統(tǒng)實現(xiàn)39-64
- 4.1 信息收集模塊39-49
- 4.1.1 信息收集模塊設計40-41
- 4.1.2 初始URL集合41
- 4.1.3 頁面采集模塊41-43
- 4.1.4 頁面解析模塊43-44
- 4.1.5 基于PageRank算法的主題相關性計算模塊44-48
- 4.1.6 工作特征信息48-49
- 4.2 信息分析模塊49-61
- 4.2.1 多維數(shù)據(jù)分類模塊51-53
- 4.2.2 關聯(lián)關系分析子模塊:53-54
- 4.2.3 數(shù)據(jù)清洗子模塊54-57
- 4.2.4 數(shù)據(jù)并行分析與挖掘子模塊57-61
- 4.2.5 模型構建與智能學習子模塊61
- 4.3 結果展示模塊61-63
- 4.4 本章小結63-64
- 第五章 系統(tǒng)應用64-72
- 5.1 系統(tǒng)登錄頁面64
- 5.2 系統(tǒng)主頁面64-65
- 5.3 域名信息查詢65
- 5.4 IP信息查詢65-66
- 5.5 網(wǎng)站地址信息收集66
- 5.6 托管服務器信息收集66-67
- 5.7 注冊會員信息收集67
- 5.8 郵箱地址線索擴展67-68
- 5.9 案件分析68-69
- 5.10 重點關注與事件告警69-70
- 5.11 動態(tài)線索展示70
- 5.12 應用案例分析70-71
- 5.13 本章小結71-72
- 結論72-73
- 參考文獻73-75
- 致謝75-76
- 答辯委員會對論文的評定意見逡逑76
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王甜;;互聯(lián)網(wǎng)治理論壇第二次會議在巴西召開[J];互聯(lián)網(wǎng)天地;2007年12期
2 米丹寧;;被忽視的互聯(lián)網(wǎng)[J];信息方略;2008年16期
3 鄔賀銓;;互聯(lián)網(wǎng)發(fā)展面臨可擴展性挑戰(zhàn)[J];世界電信;2010年08期
4 ;第七屆互聯(lián)網(wǎng)治理論壇舉行[J];計算機安全;2012年11期
5 彭曉光;霍紅萍;;互聯(lián)網(wǎng)資源對地域經濟發(fā)展的影響研討[J];電子制作;2013年10期
6 潘應和;淺議廣播電臺進軍互聯(lián)網(wǎng)的新思路[J];當代傳播;2000年06期
7 郭良;卜衛(wèi);;2000年中國北京、上海、廣州、成都、長沙互聯(lián)網(wǎng)使用狀況及影響的調查報告[J];Internet信息世界;2001年10期
8 曉齊;《中國互聯(lián)網(wǎng)發(fā)展報告》(2003-2004年卷)出版[J];信息網(wǎng)絡安全;2004年07期
9 黃永貴;;聽網(wǎng):用耳朵貼近互聯(lián)網(wǎng)[J];互聯(lián)網(wǎng)天地;2007年08期
10 ;手機上網(wǎng):互聯(lián)網(wǎng)時代的王道[J];中國新通信;2008年20期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 王東明;毛英軍;李志軍;;利用互聯(lián)網(wǎng)資源,了解國外醫(yī)療設備動態(tài)[A];中華醫(yī)學會醫(yī)學工程學分會第二次醫(yī)學影像設備應用技術研討會論文集[C];2001年
2 宇纓;;互聯(lián)網(wǎng)高等教育教學資源的現(xiàn)狀及相關技術分析[A];中國高等教育學會教育信息化分會第十次學術年會論文集[C];2010年
3 郭劍鋒;蔡圣華;;互聯(lián)網(wǎng)資源在Web2.0中的自組織特性與管理模式分析[A];第十二屆中國管理科學學術年會論文集[C];2010年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 記者 張緒旺 藍朝暉;阿里聯(lián)手上汽布局互聯(lián)網(wǎng)汽車[N];北京商報;2014年
2 廖慶升;謝文:互聯(lián)網(wǎng)發(fā)展最大障礙是缺乏誠信和創(chuàng)新[N];通信信息報;2007年
3 記者 馮海波 通訊員 龔華萍;網(wǎng)速更快也更安全[N];廣東科技報;2008年
4 記者 姚睿;互聯(lián)網(wǎng)政策與資源工作委員會成立[N];計算機世界;2002年
5 ;中國互聯(lián)網(wǎng)協(xié)會譴責破壞行為[N];計算機世界;2003年
6 中國互聯(lián)網(wǎng)絡信息中心(CNNIC) 胡軍慶;下一代互聯(lián)網(wǎng)的機遇與挑戰(zhàn)[N];計算機世界;2004年
7 本報記者 王揚二;互聯(lián)網(wǎng)電視競爭:尋找“黑箱技術”[N];中國質量報;2009年
8 記者 徐穎;新視科技助企業(yè)和校園實施互聯(lián)網(wǎng)資源訪問管理[N];北京科技報;2002年
9 本報記者 潘旭濤;互聯(lián)網(wǎng)未來:+-×÷[N];人民日報海外版;2014年
10 本報記者 傅嘉;A股大象螞蟻齊喊互聯(lián)網(wǎng)轉型[N];中國證券報;2014年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 朱啟貞;互聯(lián)網(wǎng)+時代下日照ZS集團戰(zhàn)略問題分析及對策研究[D];青島科技大學;2016年
2 方耀耀;基于移動互聯(lián)網(wǎng)的信息推送系統(tǒng)的研究與實現(xiàn)[D];北方工業(yè)大學;2016年
3 顏臣;我國商業(yè)銀行互聯(lián)網(wǎng)金融發(fā)展策略研究[D];山東財經大學;2016年
4 焦慧娟;互聯(lián)網(wǎng)金融發(fā)展對商業(yè)銀行的影響研究[D];首都經濟貿易大學;2016年
5 朱英鎮(zhèn);互聯(lián)網(wǎng)主題信息調研與拓展系統(tǒng)的設計與實現(xiàn)[D];華南理工大學;2016年
6 靳見美;大學生互聯(lián)網(wǎng)依賴對網(wǎng)絡惠顧意愿的影響研究[D];大連交通大學;2013年
7 何波;武漢市互聯(lián)網(wǎng)與新農村建設的實證研究[D];華中師范大學;2015年
8 張凡;互聯(lián)網(wǎng)金融背景下我國中小銀行的發(fā)展對策研究[D];天津財經大學;2014年
9 劉冬林;河南農民互聯(lián)網(wǎng)使用現(xiàn)狀調查研究[D];河南大學;2013年
10 孫銘;互聯(lián)網(wǎng)輔助翻譯工具及其應用研究[D];黑龍江大學;2014年
,本文編號:810237
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/810237.html