海量網(wǎng)絡媒體信息采集及處理平臺設計實現(xiàn)
發(fā)布時間:2021-02-08 03:18
互聯(lián)網(wǎng)的蓬勃發(fā)展,使得網(wǎng)絡媒體中蘊含著海量的信息。社交網(wǎng)絡作為一種特殊的網(wǎng)絡,其中充斥著大量的人類活動的數(shù)據(jù)信息,具有很高的研究價值。但是,網(wǎng)絡媒體信息通常具有分散的特點,導致網(wǎng)絡媒體中的信息難以被直接利用。因此,對網(wǎng)絡媒體信息進行數(shù)據(jù)采集,是進行網(wǎng)絡媒體數(shù)據(jù)分析及數(shù)據(jù)挖掘的先決條件。海量網(wǎng)絡媒體信息采集是指通過網(wǎng)絡爬蟲或數(shù)據(jù)API接口提取等技術手段,達到獲取網(wǎng)絡中感興趣的數(shù)據(jù)的目的。不同于一般的網(wǎng)絡媒體信息采集,對社交網(wǎng)絡進行信息采集首先需要對社交網(wǎng)絡賬號進行登錄,因此確保社交賬號保持正常的狀態(tài)是社交網(wǎng)絡數(shù)據(jù)采集的前提,F(xiàn)有的針對社交網(wǎng)絡數(shù)據(jù)采集的研究中很少有關于賬號模擬的功能設計,無法確保賬號保持正常的狀態(tài),因此難以保證網(wǎng)絡媒體數(shù)據(jù)的穩(wěn)定獲取。另一反面,現(xiàn)有的網(wǎng)絡媒體數(shù)據(jù)采集大多基于單節(jié)點的設計實現(xiàn),難以滿足海量的數(shù)據(jù)需求。針對上述問題,本文以Twitter為數(shù)據(jù)采集對象,設計實現(xiàn)了海量網(wǎng)絡媒體信息采集及處理平臺,該系統(tǒng)在模擬社交網(wǎng)絡賬號登錄的基礎上,實現(xiàn)了社交媒體網(wǎng)絡信息的穩(wěn)定采集,主要工作概括為如下兩方面:(1)針對社交網(wǎng)絡賬號模擬問題,在提出基于Twitter平臺的社交網(wǎng)絡賬...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
推特API問題實例針對上述問題,本文系統(tǒng)采用通過模擬瀏覽器的方式獲取Twitter數(shù)據(jù),及對
電子科技大學碩士學位論文14務分配到相應的任務隊列中,然后各個執(zhí)行節(jié)點中的Workers分別取任務執(zhí)行。在本文設計實現(xiàn)的系統(tǒng)中,服務器端主要是對社交網(wǎng)絡賬號模擬子系統(tǒng)與網(wǎng)絡媒體信息爬取子系統(tǒng)的后端實現(xiàn)。(1)賬號模擬社交網(wǎng)絡賬號模擬是社交網(wǎng)絡數(shù)據(jù)采集的前提,只有擁有大量狀態(tài)正常的社交賬號才能訪問社交網(wǎng)站信息頁面,解析目標頁面元素。如果服務器端接收到了賬號模擬的任務,則系統(tǒng)自動調用賬號模擬的程序。具體內容及流程詳見第三章。(2)信息采集信息采集的后端實現(xiàn)是在接收到客戶端發(fā)送來的采集任務后,由系統(tǒng)任務通過分配策略自動將采集任務分發(fā)到各個采集隊列中。其中,每一臺采集計算機節(jié)點中監(jiān)聽一個任務隊列,各個采集節(jié)點自動從對應的任務隊列中取任務執(zhí)行。數(shù)據(jù)采集的實現(xiàn)將于第四章進行詳細說明。2.3.2客戶端為了便于用戶對于賬號模擬及數(shù)據(jù)采集的控制,同時實時了解任務執(zhí)行情況,本文系統(tǒng)設計實現(xiàn)了整體系統(tǒng)的客戶端?蛻舳说墓δ茉O計覆蓋了社交網(wǎng)絡賬號模擬子系統(tǒng)及網(wǎng)絡媒體信息爬取子系統(tǒng)的任務啟停控制及執(zhí)行情況的顯示等?蛻舳酥械捻撁媸褂昧薆ootstrap[36,37]框架進行構建,Bootstrap是目前比較常見的前端框架之一,具有簡潔靈活的特點,應用此框架能夠讓前端頁面開發(fā)更加快捷。圖2-7本文系統(tǒng)主界面本文系統(tǒng)中,客戶端主要包括主頁面、數(shù)據(jù)采集功能頁面及賬號模擬功能頁面三個部分。其中,系統(tǒng)的主頁面如圖2-7所示,為系統(tǒng)啟動后用戶進行訪問的首頁。該頁面主要用于實現(xiàn)用戶對于“賬號模擬”及“數(shù)據(jù)采集”具體功能的選擇,用戶可通過點擊相應的圖標進入具體的子系統(tǒng)控制頁面。數(shù)據(jù)采集部分與第四章“網(wǎng)絡媒體信息爬取子系統(tǒng)”相對應,系統(tǒng)用戶通過輸
榭齷虺魷值母怕氏災?嶸?!叭嘶?櫓ぁ蔽?詰鍬脊?討校?緱嫻?黿換ゴ?口,必須按照頁面指定的要求操作才能夠訪問Twitter系統(tǒng)頁面。不難發(fā)現(xiàn),如果一臺設備短時間內登錄大量Twitter賬號,會被檢測為疑似機器人賬號。3.2.3行為異常Twitter中,用戶可以向推特管理者舉報其它賬號為異常賬號,如圖3-1所示。推特管理者在審核舉報信息后,會對違反推特規(guī)則的賬號采取一系列的措施以限制其行為。推特規(guī)則禁止發(fā)布包括暴力、恐怖、性等內容的推文,一些研究通過對推文文本進行特征提取并運用機器學習等方法進行異常賬號檢測。圖3-1Twitter異常舉報示例
【參考文獻】:
期刊論文
[1]基于微博API的分布式抓取技術[J]. 陳舜華,王曉彤,郝志峰,蔡瑞初,肖曉軍,盧宇. 電信科學. 2013(08)
[2]基于Web的網(wǎng)絡爬蟲的設計與實現(xiàn)[J]. 徐遠超,劉江華,劉麗珍,關永. 微計算機信息. 2007(21)
[3]聚焦爬蟲技術研究綜述[J]. 周立柱,林玲. 計算機應用. 2005(09)
[4]基于瓶頸分析的優(yōu)先權調度算法研究[J]. 李黎,成曄,袁守華. 計算機集成制造系統(tǒng). 2005(02)
[5]基于并行組合模擬退火的全局優(yōu)化算法[J]. 孫小平,張雙虎. 西安理工大學學報. 2004(04)
碩士論文
[1]社交機器人檢測技術研究及實現(xiàn)[D]. 王雅晗.北京郵電大學 2019
[2]基于行為分析的社交網(wǎng)絡異常賬號的檢測[D]. 劉琛.北京交通大學 2017
[3]基于網(wǎng)絡爬蟲的網(wǎng)站信息采集技術研究[D]. 孫駿雄.大連海事大學 2014
本文編號:3023286
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
推特API問題實例針對上述問題,本文系統(tǒng)采用通過模擬瀏覽器的方式獲取Twitter數(shù)據(jù),及對
電子科技大學碩士學位論文14務分配到相應的任務隊列中,然后各個執(zhí)行節(jié)點中的Workers分別取任務執(zhí)行。在本文設計實現(xiàn)的系統(tǒng)中,服務器端主要是對社交網(wǎng)絡賬號模擬子系統(tǒng)與網(wǎng)絡媒體信息爬取子系統(tǒng)的后端實現(xiàn)。(1)賬號模擬社交網(wǎng)絡賬號模擬是社交網(wǎng)絡數(shù)據(jù)采集的前提,只有擁有大量狀態(tài)正常的社交賬號才能訪問社交網(wǎng)站信息頁面,解析目標頁面元素。如果服務器端接收到了賬號模擬的任務,則系統(tǒng)自動調用賬號模擬的程序。具體內容及流程詳見第三章。(2)信息采集信息采集的后端實現(xiàn)是在接收到客戶端發(fā)送來的采集任務后,由系統(tǒng)任務通過分配策略自動將采集任務分發(fā)到各個采集隊列中。其中,每一臺采集計算機節(jié)點中監(jiān)聽一個任務隊列,各個采集節(jié)點自動從對應的任務隊列中取任務執(zhí)行。數(shù)據(jù)采集的實現(xiàn)將于第四章進行詳細說明。2.3.2客戶端為了便于用戶對于賬號模擬及數(shù)據(jù)采集的控制,同時實時了解任務執(zhí)行情況,本文系統(tǒng)設計實現(xiàn)了整體系統(tǒng)的客戶端?蛻舳说墓δ茉O計覆蓋了社交網(wǎng)絡賬號模擬子系統(tǒng)及網(wǎng)絡媒體信息爬取子系統(tǒng)的任務啟停控制及執(zhí)行情況的顯示等?蛻舳酥械捻撁媸褂昧薆ootstrap[36,37]框架進行構建,Bootstrap是目前比較常見的前端框架之一,具有簡潔靈活的特點,應用此框架能夠讓前端頁面開發(fā)更加快捷。圖2-7本文系統(tǒng)主界面本文系統(tǒng)中,客戶端主要包括主頁面、數(shù)據(jù)采集功能頁面及賬號模擬功能頁面三個部分。其中,系統(tǒng)的主頁面如圖2-7所示,為系統(tǒng)啟動后用戶進行訪問的首頁。該頁面主要用于實現(xiàn)用戶對于“賬號模擬”及“數(shù)據(jù)采集”具體功能的選擇,用戶可通過點擊相應的圖標進入具體的子系統(tǒng)控制頁面。數(shù)據(jù)采集部分與第四章“網(wǎng)絡媒體信息爬取子系統(tǒng)”相對應,系統(tǒng)用戶通過輸
榭齷虺魷值母怕氏災?嶸?!叭嘶?櫓ぁ蔽?詰鍬脊?討校?緱嫻?黿換ゴ?口,必須按照頁面指定的要求操作才能夠訪問Twitter系統(tǒng)頁面。不難發(fā)現(xiàn),如果一臺設備短時間內登錄大量Twitter賬號,會被檢測為疑似機器人賬號。3.2.3行為異常Twitter中,用戶可以向推特管理者舉報其它賬號為異常賬號,如圖3-1所示。推特管理者在審核舉報信息后,會對違反推特規(guī)則的賬號采取一系列的措施以限制其行為。推特規(guī)則禁止發(fā)布包括暴力、恐怖、性等內容的推文,一些研究通過對推文文本進行特征提取并運用機器學習等方法進行異常賬號檢測。圖3-1Twitter異常舉報示例
【參考文獻】:
期刊論文
[1]基于微博API的分布式抓取技術[J]. 陳舜華,王曉彤,郝志峰,蔡瑞初,肖曉軍,盧宇. 電信科學. 2013(08)
[2]基于Web的網(wǎng)絡爬蟲的設計與實現(xiàn)[J]. 徐遠超,劉江華,劉麗珍,關永. 微計算機信息. 2007(21)
[3]聚焦爬蟲技術研究綜述[J]. 周立柱,林玲. 計算機應用. 2005(09)
[4]基于瓶頸分析的優(yōu)先權調度算法研究[J]. 李黎,成曄,袁守華. 計算機集成制造系統(tǒng). 2005(02)
[5]基于并行組合模擬退火的全局優(yōu)化算法[J]. 孫小平,張雙虎. 西安理工大學學報. 2004(04)
碩士論文
[1]社交機器人檢測技術研究及實現(xiàn)[D]. 王雅晗.北京郵電大學 2019
[2]基于行為分析的社交網(wǎng)絡異常賬號的檢測[D]. 劉琛.北京交通大學 2017
[3]基于網(wǎng)絡爬蟲的網(wǎng)站信息采集技術研究[D]. 孫駿雄.大連海事大學 2014
本文編號:3023286
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3023286.html
最近更新
教材專著