【摘要】:準(zhǔn)確、及時(shí)的災(zāi)害信息收集,在減少災(zāi)害風(fēng)險(xiǎn)具有重要的意義。微博作為一種新型的社會(huì)化媒體,提供隨時(shí)隨地分享信息的渠道,在災(zāi)害信息傳播中發(fā)揮重要的作用。微博基于社會(huì)網(wǎng)絡(luò)的信息傳播方式,實(shí)現(xiàn)了信息的高效聚合,然而由于微博信息發(fā)布便捷、用戶(hù)門(mén)檻低,導(dǎo)致信息過(guò)載、碎片化及可信度低等問(wèn)題,如何從海量微博信息中挖掘有意義的信息成為本文研究的重點(diǎn)。本文基于關(guān)鍵詞抽取技術(shù),探索微博災(zāi)害信息聚合方法,同時(shí)結(jié)合實(shí)驗(yàn)室采集微博語(yǔ)料,對(duì)聚合方法進(jìn)行評(píng)價(jià)。 本文通過(guò)構(gòu)建主題特征詞庫(kù),對(duì)微博文本進(jìn)行標(biāo)注,計(jì)算TF-IDF(Term Frequency-Inverse Document Frequency)權(quán)重,排序產(chǎn)生關(guān)鍵詞列表,采用向量空間模型文本表示,結(jié)合TF-IDF權(quán)重進(jìn)行文本聚類(lèi),獲得主題微博集。分別對(duì)微博文本中包含的災(zāi)害特征項(xiàng)及地名特征項(xiàng)進(jìn)行抽取,獲得災(zāi)害關(guān)鍵詞及地名關(guān)鍵詞,進(jìn)一步對(duì)包含地名關(guān)鍵詞的微博文本進(jìn)行空間統(tǒng)計(jì)及地圖匹配,產(chǎn)生熱點(diǎn)事件地圖。由于微博文本存在多地名、地名尺度不一致等問(wèn)題,通過(guò)構(gòu)建分級(jí)地名詞庫(kù),對(duì)不同尺度地名進(jìn)行分級(jí)標(biāo)注,篩選TF-IDF權(quán)重大、尺度小的地名作為文本對(duì)應(yīng)地名,結(jié)合地理編碼,實(shí)現(xiàn)災(zāi)害信息的空間聚合。 實(shí)驗(yàn)室采集2012年9月15日至10月2日期間微博語(yǔ)料進(jìn)行臺(tái)風(fēng)災(zāi)害信息聚合,聚合結(jié)果顯示:(1)認(rèn)證微博(如中央氣象臺(tái)、新浪天氣等),能夠跟蹤報(bào)道災(zāi)害過(guò)程,消息有效性高,基于災(zāi)害關(guān)鍵詞聚合,查準(zhǔn)率為0.974,查全率為1,基于地名關(guān)鍵詞聚合,查準(zhǔn)率為1,查全率為0.851;(2)普通微博(隨機(jī)用戶(hù)),分布較廣,能夠有效的彌補(bǔ)認(rèn)證微博、新聞專(zhuān)題報(bào)道覆蓋盲點(diǎn),在熱點(diǎn)事件發(fā)現(xiàn)具有重要的價(jià)值,基于災(zāi)害關(guān)鍵詞信息聚合,文檔權(quán)重前10%,查準(zhǔn)率較高為0.855,但查全率較低為0.276,隨著抽取區(qū)間的擴(kuò)大,查準(zhǔn)率降低;基于地名關(guān)鍵詞信息聚合,查準(zhǔn)率為0.850,查全率為0.665,可見(jiàn)有效的災(zāi)害信息通常攜帶地名。 綜合上述方法,在具體應(yīng)用環(huán)境中構(gòu)建在線微博災(zāi)害主題聚合原型系統(tǒng),用戶(hù)輸入主題關(guān)鍵詞,產(chǎn)生災(zāi)害關(guān)鍵詞列表,用于災(zāi)害鏈發(fā)現(xiàn)及災(zāi)害信息檢索;同時(shí)產(chǎn)生災(zāi)害熱點(diǎn)事件地圖,用于快速識(shí)別災(zāi)害發(fā)生地。
【學(xué)位授予單位】:福建師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類(lèi)號(hào)】:X4
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 周炎濤;唐劍波;王家琴;;基于信息熵的改進(jìn)TFIDF特征選擇算法[J];計(jì)算機(jī)工程與應(yīng)用;2007年35期
2 張玉芳;彭時(shí)名;呂佳;;基于文本分類(lèi)TFIDF方法的改進(jìn)與應(yīng)用[J];計(jì)算機(jī)工程;2006年19期
3 文坤梅;盧正鼎;葉衛(wèi)國(guó);;Web-MIND:基于特定主題的Web信息挖掘系統(tǒng)[J];計(jì)算機(jī)工程與科學(xué);2007年06期
4 索紅光;劉玉樹(shù);曹淑英;;一種基于詞匯鏈的關(guān)鍵詞抽取方法[J];中文信息學(xué)報(bào);2006年06期
5 沈志斌;白清源;;文本分類(lèi)中特征權(quán)重算法的改進(jìn)[J];南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版);2008年04期
6 王鋒;;災(zāi)難性事件中的“微”力量——青海玉樹(shù)地震中微博應(yīng)用探析[J];新聞世界;2010年S2期
7 徐文海;溫有奎;;一種基于TFIDF方法的中文關(guān)鍵詞抽取算法[J];情報(bào)理論與實(shí)踐;2008年02期
8 許曉昕;李安貴;;一種基于TFIDF的網(wǎng)絡(luò)聊天關(guān)鍵詞提取算法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2006年03期
相關(guān)會(huì)議論文 前1條
1 秦鵬;李恒訓(xùn);張華平;劉金剛;;基于關(guān)鍵詞提取的搜索結(jié)果聚類(lèi)研究[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
相關(guān)碩士學(xué)位論文 前1條
1 周建芳;RSS技術(shù)在圖書(shū)館網(wǎng)絡(luò)信息服務(wù)中的應(yīng)用研究[D];四川大學(xué);2006年
,
本文編號(hào):
2555613
本文鏈接:http://sikaile.net/kejilunwen/anquangongcheng/2555613.html