海量網(wǎng)絡(luò)媒體信息采集及處理平臺設(shè)計實(shí)現(xiàn)
發(fā)布時間:2021-02-08 03:18
互聯(lián)網(wǎng)的蓬勃發(fā)展,使得網(wǎng)絡(luò)媒體中蘊(yùn)含著海量的信息。社交網(wǎng)絡(luò)作為一種特殊的網(wǎng)絡(luò),其中充斥著大量的人類活動的數(shù)據(jù)信息,具有很高的研究價值。但是,網(wǎng)絡(luò)媒體信息通常具有分散的特點(diǎn),導(dǎo)致網(wǎng)絡(luò)媒體中的信息難以被直接利用。因此,對網(wǎng)絡(luò)媒體信息進(jìn)行數(shù)據(jù)采集,是進(jìn)行網(wǎng)絡(luò)媒體數(shù)據(jù)分析及數(shù)據(jù)挖掘的先決條件。海量網(wǎng)絡(luò)媒體信息采集是指通過網(wǎng)絡(luò)爬蟲或數(shù)據(jù)API接口提取等技術(shù)手段,達(dá)到獲取網(wǎng)絡(luò)中感興趣的數(shù)據(jù)的目的。不同于一般的網(wǎng)絡(luò)媒體信息采集,對社交網(wǎng)絡(luò)進(jìn)行信息采集首先需要對社交網(wǎng)絡(luò)賬號進(jìn)行登錄,因此確保社交賬號保持正常的狀態(tài)是社交網(wǎng)絡(luò)數(shù)據(jù)采集的前提,F(xiàn)有的針對社交網(wǎng)絡(luò)數(shù)據(jù)采集的研究中很少有關(guān)于賬號模擬的功能設(shè)計,無法確保賬號保持正常的狀態(tài),因此難以保證網(wǎng)絡(luò)媒體數(shù)據(jù)的穩(wěn)定獲取。另一反面,現(xiàn)有的網(wǎng)絡(luò)媒體數(shù)據(jù)采集大多基于單節(jié)點(diǎn)的設(shè)計實(shí)現(xiàn),難以滿足海量的數(shù)據(jù)需求。針對上述問題,本文以Twitter為數(shù)據(jù)采集對象,設(shè)計實(shí)現(xiàn)了海量網(wǎng)絡(luò)媒體信息采集及處理平臺,該系統(tǒng)在模擬社交網(wǎng)絡(luò)賬號登錄的基礎(chǔ)上,實(shí)現(xiàn)了社交媒體網(wǎng)絡(luò)信息的穩(wěn)定采集,主要工作概括為如下兩方面:(1)針對社交網(wǎng)絡(luò)賬號模擬問題,在提出基于Twitter平臺的社交網(wǎng)絡(luò)賬...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【部分圖文】:
推特API問題實(shí)例針對上述問題,本文系統(tǒng)采用通過模擬瀏覽器的方式獲取Twitter數(shù)據(jù),及對
電子科技大學(xué)碩士學(xué)位論文14務(wù)分配到相應(yīng)的任務(wù)隊(duì)列中,然后各個執(zhí)行節(jié)點(diǎn)中的Workers分別取任務(wù)執(zhí)行。在本文設(shè)計實(shí)現(xiàn)的系統(tǒng)中,服務(wù)器端主要是對社交網(wǎng)絡(luò)賬號模擬子系統(tǒng)與網(wǎng)絡(luò)媒體信息爬取子系統(tǒng)的后端實(shí)現(xiàn)。(1)賬號模擬社交網(wǎng)絡(luò)賬號模擬是社交網(wǎng)絡(luò)數(shù)據(jù)采集的前提,只有擁有大量狀態(tài)正常的社交賬號才能訪問社交網(wǎng)站信息頁面,解析目標(biāo)頁面元素。如果服務(wù)器端接收到了賬號模擬的任務(wù),則系統(tǒng)自動調(diào)用賬號模擬的程序。具體內(nèi)容及流程詳見第三章。(2)信息采集信息采集的后端實(shí)現(xiàn)是在接收到客戶端發(fā)送來的采集任務(wù)后,由系統(tǒng)任務(wù)通過分配策略自動將采集任務(wù)分發(fā)到各個采集隊(duì)列中。其中,每一臺采集計算機(jī)節(jié)點(diǎn)中監(jiān)聽一個任務(wù)隊(duì)列,各個采集節(jié)點(diǎn)自動從對應(yīng)的任務(wù)隊(duì)列中取任務(wù)執(zhí)行。數(shù)據(jù)采集的實(shí)現(xiàn)將于第四章進(jìn)行詳細(xì)說明。2.3.2客戶端為了便于用戶對于賬號模擬及數(shù)據(jù)采集的控制,同時實(shí)時了解任務(wù)執(zhí)行情況,本文系統(tǒng)設(shè)計實(shí)現(xiàn)了整體系統(tǒng)的客戶端?蛻舳说墓δ茉O(shè)計覆蓋了社交網(wǎng)絡(luò)賬號模擬子系統(tǒng)及網(wǎng)絡(luò)媒體信息爬取子系統(tǒng)的任務(wù)啟?刂萍皥(zhí)行情況的顯示等?蛻舳酥械捻撁媸褂昧薆ootstrap[36,37]框架進(jìn)行構(gòu)建,Bootstrap是目前比較常見的前端框架之一,具有簡潔靈活的特點(diǎn),應(yīng)用此框架能夠讓前端頁面開發(fā)更加快捷。圖2-7本文系統(tǒng)主界面本文系統(tǒng)中,客戶端主要包括主頁面、數(shù)據(jù)采集功能頁面及賬號模擬功能頁面三個部分。其中,系統(tǒng)的主頁面如圖2-7所示,為系統(tǒng)啟動后用戶進(jìn)行訪問的首頁。該頁面主要用于實(shí)現(xiàn)用戶對于“賬號模擬”及“數(shù)據(jù)采集”具體功能的選擇,用戶可通過點(diǎn)擊相應(yīng)的圖標(biāo)進(jìn)入具體的子系統(tǒng)控制頁面。數(shù)據(jù)采集部分與第四章“網(wǎng)絡(luò)媒體信息爬取子系統(tǒng)”相對應(yīng),系統(tǒng)用戶通過輸
榭齷虺魷值母怕氏災(zāi)?嶸?!叭嘶?櫓ぁ蔽?詰鍬脊?討校?緱嫻?黿換ゴ?口,必須按照頁面指定的要求操作才能夠訪問Twitter系統(tǒng)頁面。不難發(fā)現(xiàn),如果一臺設(shè)備短時間內(nèi)登錄大量Twitter賬號,會被檢測為疑似機(jī)器人賬號。3.2.3行為異常Twitter中,用戶可以向推特管理者舉報其它賬號為異常賬號,如圖3-1所示。推特管理者在審核舉報信息后,會對違反推特規(guī)則的賬號采取一系列的措施以限制其行為。推特規(guī)則禁止發(fā)布包括暴力、恐怖、性等內(nèi)容的推文,一些研究通過對推文文本進(jìn)行特征提取并運(yùn)用機(jī)器學(xué)習(xí)等方法進(jìn)行異常賬號檢測。圖3-1Twitter異常舉報示例
【參考文獻(xiàn)】:
期刊論文
[1]基于微博API的分布式抓取技術(shù)[J]. 陳舜華,王曉彤,郝志峰,蔡瑞初,肖曉軍,盧宇. 電信科學(xué). 2013(08)
[2]基于Web的網(wǎng)絡(luò)爬蟲的設(shè)計與實(shí)現(xiàn)[J]. 徐遠(yuǎn)超,劉江華,劉麗珍,關(guān)永. 微計算機(jī)信息. 2007(21)
[3]聚焦爬蟲技術(shù)研究綜述[J]. 周立柱,林玲. 計算機(jī)應(yīng)用. 2005(09)
[4]基于瓶頸分析的優(yōu)先權(quán)調(diào)度算法研究[J]. 李黎,成曄,袁守華. 計算機(jī)集成制造系統(tǒng). 2005(02)
[5]基于并行組合模擬退火的全局優(yōu)化算法[J]. 孫小平,張雙虎. 西安理工大學(xué)學(xué)報. 2004(04)
碩士論文
[1]社交機(jī)器人檢測技術(shù)研究及實(shí)現(xiàn)[D]. 王雅晗.北京郵電大學(xué) 2019
[2]基于行為分析的社交網(wǎng)絡(luò)異常賬號的檢測[D]. 劉琛.北京交通大學(xué) 2017
[3]基于網(wǎng)絡(luò)爬蟲的網(wǎng)站信息采集技術(shù)研究[D]. 孫駿雄.大連海事大學(xué) 2014
本文編號:3023286
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【部分圖文】:
推特API問題實(shí)例針對上述問題,本文系統(tǒng)采用通過模擬瀏覽器的方式獲取Twitter數(shù)據(jù),及對
電子科技大學(xué)碩士學(xué)位論文14務(wù)分配到相應(yīng)的任務(wù)隊(duì)列中,然后各個執(zhí)行節(jié)點(diǎn)中的Workers分別取任務(wù)執(zhí)行。在本文設(shè)計實(shí)現(xiàn)的系統(tǒng)中,服務(wù)器端主要是對社交網(wǎng)絡(luò)賬號模擬子系統(tǒng)與網(wǎng)絡(luò)媒體信息爬取子系統(tǒng)的后端實(shí)現(xiàn)。(1)賬號模擬社交網(wǎng)絡(luò)賬號模擬是社交網(wǎng)絡(luò)數(shù)據(jù)采集的前提,只有擁有大量狀態(tài)正常的社交賬號才能訪問社交網(wǎng)站信息頁面,解析目標(biāo)頁面元素。如果服務(wù)器端接收到了賬號模擬的任務(wù),則系統(tǒng)自動調(diào)用賬號模擬的程序。具體內(nèi)容及流程詳見第三章。(2)信息采集信息采集的后端實(shí)現(xiàn)是在接收到客戶端發(fā)送來的采集任務(wù)后,由系統(tǒng)任務(wù)通過分配策略自動將采集任務(wù)分發(fā)到各個采集隊(duì)列中。其中,每一臺采集計算機(jī)節(jié)點(diǎn)中監(jiān)聽一個任務(wù)隊(duì)列,各個采集節(jié)點(diǎn)自動從對應(yīng)的任務(wù)隊(duì)列中取任務(wù)執(zhí)行。數(shù)據(jù)采集的實(shí)現(xiàn)將于第四章進(jìn)行詳細(xì)說明。2.3.2客戶端為了便于用戶對于賬號模擬及數(shù)據(jù)采集的控制,同時實(shí)時了解任務(wù)執(zhí)行情況,本文系統(tǒng)設(shè)計實(shí)現(xiàn)了整體系統(tǒng)的客戶端?蛻舳说墓δ茉O(shè)計覆蓋了社交網(wǎng)絡(luò)賬號模擬子系統(tǒng)及網(wǎng)絡(luò)媒體信息爬取子系統(tǒng)的任務(wù)啟?刂萍皥(zhí)行情況的顯示等?蛻舳酥械捻撁媸褂昧薆ootstrap[36,37]框架進(jìn)行構(gòu)建,Bootstrap是目前比較常見的前端框架之一,具有簡潔靈活的特點(diǎn),應(yīng)用此框架能夠讓前端頁面開發(fā)更加快捷。圖2-7本文系統(tǒng)主界面本文系統(tǒng)中,客戶端主要包括主頁面、數(shù)據(jù)采集功能頁面及賬號模擬功能頁面三個部分。其中,系統(tǒng)的主頁面如圖2-7所示,為系統(tǒng)啟動后用戶進(jìn)行訪問的首頁。該頁面主要用于實(shí)現(xiàn)用戶對于“賬號模擬”及“數(shù)據(jù)采集”具體功能的選擇,用戶可通過點(diǎn)擊相應(yīng)的圖標(biāo)進(jìn)入具體的子系統(tǒng)控制頁面。數(shù)據(jù)采集部分與第四章“網(wǎng)絡(luò)媒體信息爬取子系統(tǒng)”相對應(yīng),系統(tǒng)用戶通過輸
榭齷虺魷值母怕氏災(zāi)?嶸?!叭嘶?櫓ぁ蔽?詰鍬脊?討校?緱嫻?黿換ゴ?口,必須按照頁面指定的要求操作才能夠訪問Twitter系統(tǒng)頁面。不難發(fā)現(xiàn),如果一臺設(shè)備短時間內(nèi)登錄大量Twitter賬號,會被檢測為疑似機(jī)器人賬號。3.2.3行為異常Twitter中,用戶可以向推特管理者舉報其它賬號為異常賬號,如圖3-1所示。推特管理者在審核舉報信息后,會對違反推特規(guī)則的賬號采取一系列的措施以限制其行為。推特規(guī)則禁止發(fā)布包括暴力、恐怖、性等內(nèi)容的推文,一些研究通過對推文文本進(jìn)行特征提取并運(yùn)用機(jī)器學(xué)習(xí)等方法進(jìn)行異常賬號檢測。圖3-1Twitter異常舉報示例
【參考文獻(xiàn)】:
期刊論文
[1]基于微博API的分布式抓取技術(shù)[J]. 陳舜華,王曉彤,郝志峰,蔡瑞初,肖曉軍,盧宇. 電信科學(xué). 2013(08)
[2]基于Web的網(wǎng)絡(luò)爬蟲的設(shè)計與實(shí)現(xiàn)[J]. 徐遠(yuǎn)超,劉江華,劉麗珍,關(guān)永. 微計算機(jī)信息. 2007(21)
[3]聚焦爬蟲技術(shù)研究綜述[J]. 周立柱,林玲. 計算機(jī)應(yīng)用. 2005(09)
[4]基于瓶頸分析的優(yōu)先權(quán)調(diào)度算法研究[J]. 李黎,成曄,袁守華. 計算機(jī)集成制造系統(tǒng). 2005(02)
[5]基于并行組合模擬退火的全局優(yōu)化算法[J]. 孫小平,張雙虎. 西安理工大學(xué)學(xué)報. 2004(04)
碩士論文
[1]社交機(jī)器人檢測技術(shù)研究及實(shí)現(xiàn)[D]. 王雅晗.北京郵電大學(xué) 2019
[2]基于行為分析的社交網(wǎng)絡(luò)異常賬號的檢測[D]. 劉琛.北京交通大學(xué) 2017
[3]基于網(wǎng)絡(luò)爬蟲的網(wǎng)站信息采集技術(shù)研究[D]. 孫駿雄.大連海事大學(xué) 2014
本文編號:3023286
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3023286.html
最近更新
教材專著