互聯(lián)網(wǎng)主題信息調(diào)研與拓展系統(tǒng)的設(shè)計與實現(xiàn)
本文關(guān)鍵詞:互聯(lián)網(wǎng)主題信息調(diào)研與拓展系統(tǒng)的設(shè)計與實現(xiàn)
更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲 數(shù)據(jù)挖掘 關(guān)聯(lián)分析
【摘要】:互聯(lián)網(wǎng)大數(shù)據(jù)時代,人們的生活已經(jīng)離不開互聯(lián)網(wǎng),都難免留下痕跡,這些痕跡淹沒在龐大的數(shù)據(jù)海洋中,看似無從循跡。事實上,依靠科技的力量,只要方法得當(dāng),我們依然可以從海量數(shù)據(jù)中尋找到需要的信息。本課題來源于作者工作實踐,主要解決兩類問題,一是對于給定的主題信息,通過互聯(lián)網(wǎng),盡可能發(fā)現(xiàn)和收集與其相關(guān)的數(shù)據(jù),搭建數(shù)據(jù)庫予以保存;二是對于可疑線索,一方面同樣通過互聯(lián)網(wǎng)搜索盡可能多的相關(guān)信息,另一方面和已知特定目標(biāo)的信息庫進(jìn)行比對,力求發(fā)現(xiàn)可疑線索最終指向的幕后目標(biāo)。本課題研究的核心內(nèi)容包括三部分:一是設(shè)計一種高精度聚焦網(wǎng)絡(luò)爬蟲程序,根據(jù)不同線索類型提取數(shù)據(jù)特征,自動化分析數(shù)據(jù)源,盡可能排除無關(guān)數(shù)據(jù)的干擾,從海量網(wǎng)絡(luò)資源中獲取與可疑線索相關(guān)的敏感信息;二是針對可疑目標(biāo)的線索擴(kuò)展技術(shù)。該部分需緊密結(jié)合使用部門的工作實際,數(shù)據(jù)類型和維度標(biāo)準(zhǔn)由業(yè)務(wù)部門指定并可靈活添加、修改,并采用基于Whois、Nslookup、搜索引擎及網(wǎng)絡(luò)爬蟲等數(shù)據(jù),針對嫌疑線索進(jìn)行自動化智能擴(kuò)展;三是基于數(shù)據(jù)挖掘的多維信息分類與關(guān)聯(lián)分析技術(shù)。重點研究了如何挖掘海量數(shù)據(jù)之間蘊含的關(guān)聯(lián)規(guī)則,并通過關(guān)聯(lián)規(guī)則從海量數(shù)據(jù)中提取有用信息,發(fā)現(xiàn)新的線索成果。
【關(guān)鍵詞】:網(wǎng)絡(luò)爬蟲 數(shù)據(jù)挖掘 關(guān)聯(lián)分析
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.52;TP391.1
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 緒論10-13
- 1.1 研究背景10
- 1.2 研究意義10-11
- 1.3 國內(nèi)外研究現(xiàn)狀11
- 1.4 主要研究內(nèi)容11-12
- 1.5 論文組織結(jié)構(gòu)12-13
- 第二章 相關(guān)理論與技術(shù)13-31
- 2.1 網(wǎng)絡(luò)爬蟲理論與技術(shù)13-24
- 2.1.1 網(wǎng)絡(luò)爬蟲概念與原理13-14
- 2.1.2 網(wǎng)頁采集策略14-15
- 2.1.3 頁面消重技術(shù)15-17
- 2.1.4 網(wǎng)絡(luò)爬蟲分類17-18
- 2.1.5 分布式聚焦網(wǎng)絡(luò)爬蟲18-19
- 2.1.6 網(wǎng)絡(luò)爬蟲數(shù)據(jù)存儲19-20
- 2.1.7 開源網(wǎng)絡(luò)爬蟲框架20-24
- 2.2 數(shù)據(jù)挖掘理論與技術(shù)24-30
- 2.2.1 數(shù)據(jù)挖掘概念24-25
- 2.2.2 數(shù)據(jù)挖掘的功能25-26
- 2.2.3 數(shù)據(jù)挖掘步驟26
- 2.2.4 數(shù)據(jù)挖掘的知識模式以及方法26-30
- 2.3 本章小結(jié)30-31
- 第三章 系統(tǒng)需求與總體設(shè)計31-39
- 3.1 系統(tǒng)需求31-32
- 3.1.1 用戶功能需求分析31-32
- 3.1.2 系統(tǒng)性能需求分析32
- 3.2 總體功能設(shè)計32-36
- 3.3 系統(tǒng)體系架構(gòu)36-37
- 3.4 用戶角色說明37-38
- 3.5 運行環(huán)境38
- 3.6 本章小結(jié)38-39
- 第四章 系統(tǒng)實現(xiàn)39-64
- 4.1 信息收集模塊39-49
- 4.1.1 信息收集模塊設(shè)計40-41
- 4.1.2 初始URL集合41
- 4.1.3 頁面采集模塊41-43
- 4.1.4 頁面解析模塊43-44
- 4.1.5 基于PageRank算法的主題相關(guān)性計算模塊44-48
- 4.1.6 工作特征信息48-49
- 4.2 信息分析模塊49-61
- 4.2.1 多維數(shù)據(jù)分類模塊51-53
- 4.2.2 關(guān)聯(lián)關(guān)系分析子模塊:53-54
- 4.2.3 數(shù)據(jù)清洗子模塊54-57
- 4.2.4 數(shù)據(jù)并行分析與挖掘子模塊57-61
- 4.2.5 模型構(gòu)建與智能學(xué)習(xí)子模塊61
- 4.3 結(jié)果展示模塊61-63
- 4.4 本章小結(jié)63-64
- 第五章 系統(tǒng)應(yīng)用64-72
- 5.1 系統(tǒng)登錄頁面64
- 5.2 系統(tǒng)主頁面64-65
- 5.3 域名信息查詢65
- 5.4 IP信息查詢65-66
- 5.5 網(wǎng)站地址信息收集66
- 5.6 托管服務(wù)器信息收集66-67
- 5.7 注冊會員信息收集67
- 5.8 郵箱地址線索擴(kuò)展67-68
- 5.9 案件分析68-69
- 5.10 重點關(guān)注與事件告警69-70
- 5.11 動態(tài)線索展示70
- 5.12 應(yīng)用案例分析70-71
- 5.13 本章小結(jié)71-72
- 結(jié)論72-73
- 參考文獻(xiàn)73-75
- 致謝75-76
- 答辯委員會對論文的評定意見逡逑76
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王甜;;互聯(lián)網(wǎng)治理論壇第二次會議在巴西召開[J];互聯(lián)網(wǎng)天地;2007年12期
2 米丹寧;;被忽視的互聯(lián)網(wǎng)[J];信息方略;2008年16期
3 鄔賀銓;;互聯(lián)網(wǎng)發(fā)展面臨可擴(kuò)展性挑戰(zhàn)[J];世界電信;2010年08期
4 ;第七屆互聯(lián)網(wǎng)治理論壇舉行[J];計算機安全;2012年11期
5 彭曉光;霍紅萍;;互聯(lián)網(wǎng)資源對地域經(jīng)濟(jì)發(fā)展的影響研討[J];電子制作;2013年10期
6 潘應(yīng)和;淺議廣播電臺進(jìn)軍互聯(lián)網(wǎng)的新思路[J];當(dāng)代傳播;2000年06期
7 郭良;卜衛(wèi);;2000年中國北京、上海、廣州、成都、長沙互聯(lián)網(wǎng)使用狀況及影響的調(diào)查報告[J];Internet信息世界;2001年10期
8 曉齊;《中國互聯(lián)網(wǎng)發(fā)展報告》(2003-2004年卷)出版[J];信息網(wǎng)絡(luò)安全;2004年07期
9 黃永貴;;聽網(wǎng):用耳朵貼近互聯(lián)網(wǎng)[J];互聯(lián)網(wǎng)天地;2007年08期
10 ;手機上網(wǎng):互聯(lián)網(wǎng)時代的王道[J];中國新通信;2008年20期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 王東明;毛英軍;李志軍;;利用互聯(lián)網(wǎng)資源,了解國外醫(yī)療設(shè)備動態(tài)[A];中華醫(yī)學(xué)會醫(yī)學(xué)工程學(xué)分會第二次醫(yī)學(xué)影像設(shè)備應(yīng)用技術(shù)研討會論文集[C];2001年
2 宇纓;;互聯(lián)網(wǎng)高等教育教學(xué)資源的現(xiàn)狀及相關(guān)技術(shù)分析[A];中國高等教育學(xué)會教育信息化分會第十次學(xué)術(shù)年會論文集[C];2010年
3 郭劍鋒;蔡圣華;;互聯(lián)網(wǎng)資源在Web2.0中的自組織特性與管理模式分析[A];第十二屆中國管理科學(xué)學(xué)術(shù)年會論文集[C];2010年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 記者 張緒旺 藍(lán)朝暉;阿里聯(lián)手上汽布局互聯(lián)網(wǎng)汽車[N];北京商報;2014年
2 廖慶升;謝文:互聯(lián)網(wǎng)發(fā)展最大障礙是缺乏誠信和創(chuàng)新[N];通信信息報;2007年
3 記者 馮海波 通訊員 龔華萍;網(wǎng)速更快也更安全[N];廣東科技報;2008年
4 記者 姚睿;互聯(lián)網(wǎng)政策與資源工作委員會成立[N];計算機世界;2002年
5 ;中國互聯(lián)網(wǎng)協(xié)會譴責(zé)破壞行為[N];計算機世界;2003年
6 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC) 胡軍慶;下一代互聯(lián)網(wǎng)的機遇與挑戰(zhàn)[N];計算機世界;2004年
7 本報記者 王揚二;互聯(lián)網(wǎng)電視競爭:尋找“黑箱技術(shù)”[N];中國質(zhì)量報;2009年
8 記者 徐穎;新視科技助企業(yè)和校園實施互聯(lián)網(wǎng)資源訪問管理[N];北京科技報;2002年
9 本報記者 潘旭濤;互聯(lián)網(wǎng)未來:+-×÷[N];人民日報海外版;2014年
10 本報記者 傅嘉;A股大象螞蟻齊喊互聯(lián)網(wǎng)轉(zhuǎn)型[N];中國證券報;2014年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 朱啟貞;互聯(lián)網(wǎng)+時代下日照ZS集團(tuán)戰(zhàn)略問題分析及對策研究[D];青島科技大學(xué);2016年
2 方耀耀;基于移動互聯(lián)網(wǎng)的信息推送系統(tǒng)的研究與實現(xiàn)[D];北方工業(yè)大學(xué);2016年
3 顏臣;我國商業(yè)銀行互聯(lián)網(wǎng)金融發(fā)展策略研究[D];山東財經(jīng)大學(xué);2016年
4 焦慧娟;互聯(lián)網(wǎng)金融發(fā)展對商業(yè)銀行的影響研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2016年
5 朱英鎮(zhèn);互聯(lián)網(wǎng)主題信息調(diào)研與拓展系統(tǒng)的設(shè)計與實現(xiàn)[D];華南理工大學(xué);2016年
6 靳見美;大學(xué)生互聯(lián)網(wǎng)依賴對網(wǎng)絡(luò)惠顧意愿的影響研究[D];大連交通大學(xué);2013年
7 何波;武漢市互聯(lián)網(wǎng)與新農(nóng)村建設(shè)的實證研究[D];華中師范大學(xué);2015年
8 張凡;互聯(lián)網(wǎng)金融背景下我國中小銀行的發(fā)展對策研究[D];天津財經(jīng)大學(xué);2014年
9 劉冬林;河南農(nóng)民互聯(lián)網(wǎng)使用現(xiàn)狀調(diào)查研究[D];河南大學(xué);2013年
10 孫銘;互聯(lián)網(wǎng)輔助翻譯工具及其應(yīng)用研究[D];黑龍江大學(xué);2014年
,本文編號:810237
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/810237.html