基于地理坐標(biāo)的微博事件檢測(cè)與分析研究
本文關(guān)鍵詞:基于地理坐標(biāo)的微博事件檢測(cè)與分析研究
更多相關(guān)文章: 微博 事件檢測(cè) 可視化分析 地理坐標(biāo)分析 信息檢索
【摘要】:隨著計(jì)算機(jī)網(wǎng)絡(luò)和web2.0技術(shù)的深入發(fā)展和應(yīng)用,微博改變了傳統(tǒng)的社交網(wǎng)絡(luò)形式,并迅速在社會(huì)上流行起來(lái)。用戶不僅可以在微博平臺(tái)上及時(shí)接觸熱點(diǎn)社會(huì)信息,并且可以通過(guò)對(duì)微博內(nèi)容的分享和轉(zhuǎn)發(fā)提升相關(guān)資訊的傳播范圍和影響力。微博具有的獨(dú)特社交網(wǎng)絡(luò)形式極大地方便了人們進(jìn)行信息的獲取、傳播與分享。移動(dòng)智能設(shè)備和無(wú)線網(wǎng)絡(luò)技術(shù)的全面發(fā)展,讓人們可以將現(xiàn)實(shí)世界中發(fā)生的社會(huì)事件“隨時(shí)隨地”的發(fā)布到微博平臺(tái)上。社會(huì)性的重大事件往往首先會(huì)在微博內(nèi)容中反映出來(lái),從而引發(fā)大量用戶的關(guān)注并產(chǎn)生巨大的影響力。因此,微博事件檢測(cè)的意義深遠(yuǎn),也是當(dāng)前微博研究的熱點(diǎn)之一。本文的研究目標(biāo)在于利用數(shù)據(jù)挖掘算法,從內(nèi)容繁雜、海量短小的微博數(shù)據(jù)中檢測(cè)出有意義的事件信息,幫助用戶在有限的時(shí)間范圍內(nèi)獲取更多有價(jià)值的事件資訊,協(xié)助相關(guān)政府部門(mén)進(jìn)行微博輿情管控和社會(huì)行政決策。首先,針對(duì)國(guó)內(nèi)具有代表性的微博網(wǎng)站,通過(guò)使用微博網(wǎng)絡(luò)開(kāi)放接口收集帶有地理坐標(biāo)的微博數(shù)據(jù);其次,將這些數(shù)據(jù)作為訓(xùn)練樣本,使用K-means、KNN和決策樹(shù)三種數(shù)據(jù)挖掘算法,根據(jù)微博數(shù)據(jù)的發(fā)布數(shù)、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)、用戶活躍度和移動(dòng)強(qiáng)度五個(gè)指標(biāo)來(lái)構(gòu)建微博的地理規(guī)律性特征;最后,將日常地區(qū)性的微博數(shù)據(jù)特征與該地區(qū)微博特征的地理規(guī)律性進(jìn)行比較,從而檢測(cè)出該區(qū)域是否有事件發(fā)生。本文在運(yùn)用K-means、KNN和決策樹(shù)數(shù)據(jù)挖掘算法對(duì)微博數(shù)據(jù)分析的基礎(chǔ)之上,提出了基于地理坐標(biāo)的微博事件檢測(cè)框架,并且運(yùn)用R語(yǔ)言對(duì)微博事件的發(fā)展趨勢(shì)進(jìn)行了可視化分析。利用微博事件檢測(cè)框架檢測(cè)出的事件信息具有較大的參考價(jià)值,尤其是微博用戶對(duì)該事件的情感和該事件的發(fā)展趨勢(shì)都值得我們分析和思考,為以后應(yīng)對(duì)類似的事件提供借鑒。因此,本文將信息檢索的相關(guān)理論和技術(shù)引入到了微博事件的組織和管理中。為了用戶便于檢索已檢測(cè)出的微博事件,本文在開(kāi)源搜索引擎Lucene的基礎(chǔ)之上,同時(shí)結(jié)合mmseg中文分詞技術(shù)和jsp動(dòng)態(tài)網(wǎng)頁(yè)技術(shù),實(shí)現(xiàn)了微博事件檢索系統(tǒng),幫助用戶了解過(guò)往微博事件的內(nèi)容和發(fā)展趨勢(shì)。最后通過(guò)實(shí)驗(yàn)分析微博事件檢測(cè)框架的可行性,并且結(jié)合“沙塵暴”事件的具體案例,實(shí)現(xiàn)微博事件的精確檢索。
【關(guān)鍵詞】:微博 事件檢測(cè) 可視化分析 地理坐標(biāo)分析 信息檢索
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1;G206
【目錄】:
- 摘要6-7
- Abstract7-11
- 1 引言11-17
- 1.1 研究背景及意義11-13
- 1.1.1 研究背景11-12
- 1.1.2 研究意義12-13
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀13-15
- 1.3 研究?jī)?nèi)容與方法15-17
- 2 微博地理數(shù)據(jù)的采集、檢測(cè)及相關(guān)技術(shù)綜述17-25
- 2.1 微博地理數(shù)據(jù)的采集方法17-18
- 2.1.1 網(wǎng)絡(luò)爬蟲(chóng)抓取17-18
- 2.1.2 基于開(kāi)放API的微博數(shù)據(jù)獲取18
- 2.2 微博開(kāi)放平臺(tái)18-22
- 2.2.1 開(kāi)放平臺(tái)的概念18-19
- 2.2.2 OAuth2.0授權(quán)19-22
- 2.3 微博事件檢測(cè)算法22-23
- 2.4 Lucene&Solr和R語(yǔ)言23-25
- 2.4.1 Lucene&Solr介紹23-24
- 2.4.2 R語(yǔ)言24-25
- 3 微博特征地理規(guī)律性構(gòu)建過(guò)程和指標(biāo)25-42
- 3.1 微博數(shù)據(jù)獲取及預(yù)處理25-30
- 3.1.1 微博數(shù)據(jù)獲取25-29
- 3.1.2 微博數(shù)據(jù)預(yù)處理29-30
- 3.2 微博地理規(guī)律性構(gòu)建指標(biāo)30-34
- 3.2.1 微博發(fā)布數(shù)量31
- 3.2.2 微博評(píng)論數(shù)量31-32
- 3.2.3 微博轉(zhuǎn)發(fā)數(shù)量32-33
- 3.2.4 微博用戶活躍度33
- 3.2.5 微博用戶移動(dòng)強(qiáng)度33-34
- 3.3 微博數(shù)據(jù)庫(kù)設(shè)計(jì)34-35
- 3.4 微博的時(shí)空分布特征35-38
- 3.4.1 微博的時(shí)間分布特征35-37
- 3.4.2 微博的空間分布特征37-38
- 3.5 微博地理規(guī)律性的構(gòu)建38-42
- 3.5.1 微博數(shù)據(jù)的邊界劃分38-39
- 3.5.2 微博地理規(guī)律性指標(biāo)的抽取39
- 3.5.3 微博地理規(guī)律性的構(gòu)建39-42
- 4 微博事件檢測(cè)框架42-48
- 4.1 微博事件的摘要抽取42-43
- 4.2 微博事件檢測(cè)的流程43-45
- 4.3 微博事件的分類45
- 4.4 微博事件發(fā)展趨勢(shì)分析45-47
- 4.5 微博事件檢索47-48
- 5 實(shí)驗(yàn)數(shù)據(jù)與結(jié)果分析48-56
- 5.1 數(shù)據(jù)分析48-52
- 5.2 結(jié)果分析52-54
- 5.3 北京“沙塵暴”事件檢索54-56
- 6 總結(jié)與展望56-58
- 6.1 總結(jié)56-57
- 6.2 展望57-58
- 參考文獻(xiàn)58-62
- 附錄62-66
- 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文66-67
- 致謝67
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 賴勝?gòu)?qiáng);;影響用戶微博信息轉(zhuǎn)發(fā)的因素研究[J];圖書(shū)館工作與研究;2015年08期
2 陳卓群;王平;;面向中文微博摘錄式摘要方法研究[J];情報(bào)科學(xué);2015年03期
3 胡瓏瑛;董靖巍;;微博用戶轉(zhuǎn)發(fā)動(dòng)機(jī)實(shí)證分析[J];中國(guó)軟科學(xué);2015年02期
4 李天龍;李明德;張宏邦;;微博輿情生成機(jī)制研究[J];情報(bào)雜志;2014年09期
5 亓峰;劉昆;張超;王德原;;圓和維諾圖相交模擬基站覆蓋算法[J];北京郵電大學(xué)學(xué)報(bào);2014年S1期
6 孫青云;王俊峰;趙宗渠;高夢(mèng)超;;一種基于模擬登錄的微博數(shù)據(jù)采集方案[J];計(jì)算機(jī)技術(shù)與發(fā)展;2014年03期
7 遲呈英;李紅;;基于改進(jìn)TF* PDF算法的網(wǎng)絡(luò)新聞熱點(diǎn)話題檢測(cè)和跟蹤[J];計(jì)算機(jī)應(yīng)用與軟件;2013年12期
8 馮永;韓楠;賈東風(fēng);;云計(jì)算環(huán)境下基于代表點(diǎn)增量層次密度聚類的微博事件檢測(cè)及跟蹤[J];計(jì)算機(jī)應(yīng)用;2013年12期
9 陳吉榮;樂(lè)嘉錦;;基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J];計(jì)算機(jī)工程與科學(xué);2013年10期
10 楊霞;吳東偉;;R語(yǔ)言在大數(shù)據(jù)處理中的應(yīng)用[J];科技資訊;2013年23期
,本文編號(hào):890239
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/890239.html