天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于頻繁子圖模式挖掘的群體性抗議事件檢測(cè)與預(yù)測(cè)技術(shù)研究

發(fā)布時(shí)間:2020-06-05 19:18
【摘要】:群體性抗議事件是指一定社會(huì)群體,為表達(dá)對(duì)政府、政治人物或某些大型組織(如企業(yè))的政策、規(guī)定或行為的反對(duì)意見,在特定時(shí)間地點(diǎn)預(yù)謀性或自發(fā)性聚集,并以游行、靜坐、罷工、罷課、罷市、占領(lǐng)等形式開展的抗議活動(dòng)。鑒于群體性抗議事件頻繁出現(xiàn)的案例、高昂的社會(huì)成本,全球各個(gè)國(guó)家政府機(jī)構(gòu)都十分重視對(duì)這類公共安全事件管控與決策能力的提升,并且投入了大量人力物力研究和把握這類事件的內(nèi)在演變機(jī)理和早期檢測(cè)與預(yù)警機(jī)制。2013年以來,全球整合新聞事件數(shù)據(jù)庫(kù)GDELT宣布正式對(duì)全球開放,其自動(dòng)編碼入庫(kù)了從1979年至今全球新聞資訊、電視廣播、報(bào)紙甚至學(xué)術(shù)論文中提到的所有沖突與調(diào)解事件數(shù)據(jù),監(jiān)測(cè)了幾乎全球每個(gè)國(guó)家,涵蓋100多種語(yǔ)言,為基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方法研究群體性抗議事件提供了豐富的數(shù)據(jù)基礎(chǔ)。本文基于GDELT開源大數(shù)據(jù),研究基于頻繁子圖模式挖掘的群體性抗議事件檢測(cè)與預(yù)測(cè)技術(shù),主要進(jìn)行了以下四個(gè)方面的研究工作。第一,構(gòu)建了基于Hadoop+Hive+Spark SQL大數(shù)據(jù)架構(gòu)的GDELT大數(shù)據(jù)倉(cāng)庫(kù)。GDELT作為目前世界上最大的沖突與調(diào)解事件數(shù)據(jù)源,目前其全表原始數(shù)據(jù)記錄數(shù)已超過20億條,數(shù)據(jù)規(guī)模達(dá)到7.5TB,如何采集、存儲(chǔ)、查詢這些數(shù)據(jù)是最基礎(chǔ)的工作。本文首先對(duì)GDELT的數(shù)據(jù)進(jìn)行了實(shí)時(shí)采集并存儲(chǔ)到HDFS分布式文件存儲(chǔ)系統(tǒng)中,接著利用Hive完成原始數(shù)據(jù)的高性能ETL(抽取、轉(zhuǎn)換、加載),將GDELT數(shù)據(jù)加載到Hive數(shù)據(jù)倉(cāng)庫(kù)中;考慮到Hive數(shù)據(jù)倉(cāng)庫(kù)的“惰性計(jì)算”特性使得其實(shí)時(shí)查詢效果不好,進(jìn)一步利用Spark SQL內(nèi)存計(jì)算引擎外掛GDELT數(shù)據(jù)倉(cāng)庫(kù),并通過ThriftServer提供統(tǒng)一的訪問接口,大大增強(qiáng)了GDELT大數(shù)據(jù)倉(cāng)庫(kù)的實(shí)用性。第二,提出了兩個(gè)大規(guī)模頻繁子圖并行挖掘算法:面向圖集的PTrGraM算法和面向單個(gè)大圖的SSiGraM算法。本文采用頻繁子圖挖掘方法從GDELT大數(shù)據(jù)中發(fā)掘特征模式,而目前頻繁子圖挖掘算法均是單機(jī)串行執(zhí)行,無法有效滿足大規(guī)模輸入圖及低閾值模式挖掘的需求,因此提出并行化挖掘頻繁子圖?紤]到面向圖集的頻繁子圖挖掘算法其復(fù)雜度相對(duì)較低,提出了基于單機(jī)多線程的圖集上頻繁子圖并行挖掘算法PTrGraM;面向單個(gè)大圖的頻繁子圖挖掘復(fù)雜性更高,考慮在多臺(tái)計(jì)算機(jī)上進(jìn)行分布式挖掘,進(jìn)而提出了基于Spark計(jì)算框架的單個(gè)大圖上頻繁子圖分布式挖掘算法SSiGraM,算法實(shí)現(xiàn)子圖分布式擴(kuò)展和支持度分布式計(jì)算并引入了三種優(yōu)化策略,最后在不同密度的四個(gè)大圖上驗(yàn)證了該算法的性能。第三,提出了基于頻繁子圖特征工程的群體性抗議事件檢測(cè)方法。針對(duì)目前基于啟發(fā)式的特征選擇策略在可區(qū)分性和可解釋性方面的不足,提出使用面向圖集的頻繁子圖來對(duì)群體性抗議事件中的參與主體交互模式進(jìn)行描述,并且提出了一種頻繁子圖特征區(qū)分能力度量指標(biāo)ISDP,最后使用強(qiáng)分類器SVM和集成學(xué)習(xí)分類器Adaboost、GradientBoosting三種分類器進(jìn)行調(diào)優(yōu)學(xué)習(xí)子圖特征,訓(xùn)練事件檢測(cè)模型。實(shí)驗(yàn)聚焦歷史上權(quán)威報(bào)道過的造成重大影響的群體性抗議事件,在“占中”和“占領(lǐng)華爾街”兩個(gè)數(shù)據(jù)集上驗(yàn)證了檢測(cè)模型的有效性。第四,提出了基于隱式半馬爾科夫模型(HSMM)的群體性抗議事件預(yù)測(cè)框架。針對(duì)群體性抗議事件的多階段演化特性,提出了一種基于隱式半馬爾科夫模型的群體性抗議事件預(yù)測(cè)框架,包含四個(gè)主要步驟:Ground-Truth抽取、BoEAG特征抽取、HSMM模型訓(xùn)練和序列分類在線測(cè)試。通過該預(yù)測(cè)框架,可以針對(duì)某個(gè)國(guó)家或地區(qū),從GDELT數(shù)據(jù)中自動(dòng)抽取其歷史上發(fā)生的大量群體性抗議的事件關(guān)聯(lián)圖詞袋特征BoEAG,并利用HSMM模型學(xué)習(xí)其發(fā)展演化的規(guī)律,最后通過貝葉斯決策序列分類預(yù)測(cè)將來某個(gè)時(shí)間段事件發(fā)生的可能性。在實(shí)驗(yàn)部分,結(jié)合東南亞五個(gè)國(guó)家:泰國(guó)、印尼、馬來西亞、菲律賓和柬埔寨的測(cè)試數(shù)據(jù)集,比較了HSMM模型、HMM模型、Logistic回歸和Baseline四種方法在群體性抗議事件預(yù)測(cè)任務(wù)中的有效性。綜上所述,本文針對(duì)群體性抗議事件檢測(cè)與預(yù)測(cè)這一問題,基于全球整合新聞事件數(shù)據(jù)庫(kù),首先構(gòu)建可靠易用的大數(shù)據(jù)倉(cāng)庫(kù),然后從中挖掘頻繁子圖特征模式,最后基于特征學(xué)習(xí)訓(xùn)練群體性抗議事件檢測(cè)模型與預(yù)測(cè)模型,實(shí)現(xiàn)了開源大數(shù)據(jù)全鏈條的數(shù)據(jù)ETL、特征挖掘與分析應(yīng)用,為基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)相關(guān)方法分析使用GDELT數(shù)據(jù)乃至其他大數(shù)據(jù)源提供了一種可行方案,具有重要的理論意義與應(yīng)用價(jià)值。
【學(xué)位授予單位】:國(guó)防科技大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP311.13;D631.43

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 苑春佼;;《吉祥多子圖》臨摹[J];大眾文藝;2018年10期

2 魯宗貴;;吉祥多子圖頁(yè)[J];中國(guó)書畫;2018年09期

3 印安濤;錢鋼;施歡歡;;在復(fù)雜網(wǎng)絡(luò)中查找k個(gè)有限重疊的密集子圖[J];計(jì)算機(jī)應(yīng)用與軟件;2016年12期

4 魯宗貴;;吉祥多子圖[J];文藝研究;2017年03期

5 梁瑤;;吉祥多子圖[J];美與時(shí)代(中);2017年06期

6 魯宗貴;;《吉祥多子圖》[J];老年教育(書畫藝術(shù));2016年01期

7 王苗苗;;《吉祥多子圖》[J];明日風(fēng)尚;2016年08期

8 周姍;;《吉祥多子圖》[J];參花(上);2016年06期

9 楊利民;圖K_n~k和C_n~t的理想子圖的計(jì)數(shù)[J];大理師專學(xué)報(bào)(自然科學(xué)版);1995年01期

10 陳賜平;;帶虧數(shù)的[1,n]-子圖[J];北京農(nóng)業(yè)工程大學(xué)學(xué)報(bào);1987年03期

相關(guān)會(huì)議論文 前9條

1 劉桂珍;徐周波;;最大公共子圖問題的約束符號(hào)求解技術(shù)[A];廣西計(jì)算機(jī)學(xué)會(huì)2016年學(xué)術(shù)年會(huì)論文集[C];2016年

2 徐以凡;;層分解和子圖識(shí)別問題[A];2001年全國(guó)數(shù)學(xué)規(guī)劃及運(yùn)籌研討會(huì)論文集[C];2001年

3 吳衛(wèi)江;李國(guó)和;;Apriori算法思想在頻繁子圖挖掘中應(yīng)用的研究[A];第六屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集(2)[C];2008年

4 陶劍文;丁佩芬;趙杰煜;;csgIndex:一種可擴(kuò)展的對(duì)比子圖索引模型[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年

5 陳榮斯;;非正則冠狀系統(tǒng)[A];面向21世紀(jì)的科技進(jìn)步與社會(huì)經(jīng)濟(jì)發(fā)展(上冊(cè))[C];1999年

6 吳穎華;周皓峰;袁晴晴;洪銘勝;汪衛(wèi);施伯樂;;Topology:一個(gè)快速的頻繁連通子圖的挖掘算法[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年

7 韓璐;王朝坤;阮文靜;歐曉平;仇萍;;基于MapReduce的不確定子圖查詢處理[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年

8 周楊;王峰;;FSM——基于子圖同構(gòu)和結(jié)構(gòu)同構(gòu)的頻繁子圖挖掘算法[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年

9 張麗麗;殷兆麟;張愛娟;王竹曉;;以結(jié)點(diǎn)為中心的WordNet子圖的可視化[A];2006年全國(guó)開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集(二)[C];2006年

相關(guān)重要報(bào)紙文章 前1條

1 王圣立;“五子圖”罐再現(xiàn)成化風(fēng)彩[N];中國(guó)商報(bào);2003年

相關(guān)博士學(xué)位論文 前10條

1 喬鳳才;基于頻繁子圖模式挖掘的群體性抗議事件檢測(cè)與預(yù)測(cè)技術(shù)研究[D];國(guó)防科技大學(xué);2018年

2 買吐肉孜·買司地克(Metrose Metsidik);帶子圖及其部分對(duì)偶若干性質(zhì)的刻畫[D];廈門大學(xué);2017年

3 藺厚元;禁用子圖與圖的哈密爾頓性[D];華中師范大學(xué);2012年

4 李斌龍;重子圖條件下圖的Hamilton性及相關(guān)問題[D];西北工業(yè)大學(xué);2016年

5 毛玲;基于層次因子圖的心電圖自動(dòng)診斷方法研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2009年

6 崔慶;Tutte子圖方法及其應(yīng)用[D];南開大學(xué);2009年

7 鄒磊;圖數(shù)據(jù)庫(kù)中的子圖查詢算法研究[D];華中科技大學(xué);2009年

8 崔耀祖;基于復(fù)雜網(wǎng)絡(luò)邊的密度探索社團(tuán)結(jié)構(gòu)算法研究[D];大連理工大學(xué);2016年

9 吳云建;一致星因子圖與籠的連通性[D];南開大學(xué);2009年

10 馬登舉;曲面的極小禁用子圖與圖的虧格[D];華東師范大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 王廣香;基于頻繁結(jié)構(gòu)的大規(guī)模動(dòng)態(tài)圖子圖查詢方法研究[D];遼寧大學(xué);2019年

2 賈春杰;大規(guī)模動(dòng)態(tài)標(biāo)簽圖Top-K興趣子圖查詢方法研究[D];遼寧大學(xué);2019年

3 李榮榮;分布式環(huán)境下大規(guī)模圖數(shù)據(jù)的密集子圖發(fā)現(xiàn)方法研究[D];北京交通大學(xué);2019年

4 黃睿智;不確定圖下的稠密子圖挖掘研究[D];浙江工業(yè)大學(xué);2018年

5 黃子揚(yáng);圖在點(diǎn)度數(shù)限制下的大導(dǎo)出子圖[D];中國(guó)科學(xué)技術(shù)大學(xué);2019年

6 竇建凱;單圖中子圖大小相關(guān)的近似頻繁子圖挖掘[D];華東師范大學(xué);2019年

7 閆靚;穩(wěn)定頻繁子圖挖掘算法研究[D];遼寧大學(xué);2018年

8 劉鐘凌;頂點(diǎn)加權(quán)圖的最密集子圖算法設(shè)計(jì)與實(shí)現(xiàn)[D];廣州大學(xué);2018年

9 鄒艷梅;關(guān)于圖的Hamilton性的禁用子圖條件[D];華東師范大學(xué);2018年

10 姜麗雁;大規(guī)模動(dòng)態(tài)有向標(biāo)簽圖子圖查詢方法研究[D];遼寧大學(xué);2018年

,

本文編號(hào):2698493

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2698493.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ddd1a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com