基于微博的數(shù)據(jù)獲取與過(guò)濾技術(shù)研究
本文關(guān)鍵詞:基于微博的數(shù)據(jù)獲取與過(guò)濾技術(shù)研究
更多相關(guān)文章: 數(shù)據(jù)獲取 關(guān)注-分組 過(guò)濾
【摘要】:隨著社交網(wǎng)絡(luò)平臺(tái)的快速發(fā)展,人們?cè)絹?lái)越依賴(lài)像微博、微信等互聯(lián)網(wǎng)社交平臺(tái)的信息傳遞與情感表達(dá),同時(shí)各式各樣的社會(huì)問(wèn)題也逐漸通過(guò)網(wǎng)絡(luò)平臺(tái)輿論的推動(dòng)迅速暴露并傳播蔓延,從而爆發(fā)成為熱點(diǎn)。近年來(lái)新浪微博平臺(tái)憑借其消息實(shí)時(shí)性、傳播裂變性而逐漸成為國(guó)內(nèi)大事件擴(kuò)散和網(wǎng)絡(luò)輿論爆發(fā)的重要平臺(tái)。微博中的意見(jiàn)領(lǐng)袖,作為微博平臺(tái)輿論點(diǎn)的關(guān)鍵,由于其知名度高,粉絲數(shù)量龐大,在公眾輿論事件中其名人效應(yīng)也會(huì)被放大,輿論影響力隨之增大,他們發(fā)布或轉(zhuǎn)發(fā)的微博更容易導(dǎo)致輿論討論的高潮,進(jìn)而形成微博熱門(mén)話(huà)題。所以實(shí)時(shí)獲取意見(jiàn)領(lǐng)袖的微博數(shù)據(jù)既是話(huà)題聚類(lèi)分析的數(shù)據(jù)保障,也是輿情分析的重要方法之一。目前對(duì)于微博意見(jiàn)領(lǐng)袖的數(shù)據(jù)獲取方法主要有兩種,一種是基于微博開(kāi)放平臺(tái)API,該方法可以方便快速地批量獲取意見(jiàn)領(lǐng)袖的微博信息,但是接口限定了采集速率;另一種方法是采用定向網(wǎng)絡(luò)爬蟲(chóng),該方法可以獲得比較完整的數(shù)據(jù),但是頻繁訪(fǎng)問(wèn)大量意見(jiàn)領(lǐng)袖,面臨賬號(hào)被封的危險(xiǎn)。本文分析了微博數(shù)據(jù)抓取的研究現(xiàn)狀與背景,在此基礎(chǔ)上提出一種新的數(shù)據(jù)抓取方式:基于關(guān)注-分組模式的數(shù)據(jù)采集方案,利用微博的工作特點(diǎn),實(shí)時(shí)定向接收意見(jiàn)領(lǐng)袖推送的消息列表進(jìn)而實(shí)現(xiàn)對(duì)意見(jiàn)領(lǐng)袖數(shù)據(jù)的抓取。將基于此方法抓取到的微博數(shù)據(jù)采用SVM的分類(lèi)算法進(jìn)行二分類(lèi),剔除娛樂(lè)類(lèi)信息,保留社會(huì)類(lèi)微博數(shù)據(jù),進(jìn)而實(shí)現(xiàn)微博數(shù)據(jù)的初步過(guò)濾,本文基于此設(shè)計(jì)思想實(shí)現(xiàn)了基于微博的數(shù)據(jù)獲取與初步過(guò)濾系統(tǒng)。本文最后對(duì)基于API、基于定向網(wǎng)絡(luò)爬蟲(chóng)與基于關(guān)注-分組模式的三種數(shù)據(jù)獲取方法進(jìn)行了實(shí)驗(yàn)分析與對(duì)比,實(shí)驗(yàn)結(jié)果表明本文提出的基于關(guān)注-分組模式的數(shù)據(jù)獲取方法較傳統(tǒng)方法具有較好的性能,既能保證數(shù)據(jù)的實(shí)時(shí)性,又能保證數(shù)據(jù)的完整性。同時(shí)采用基于SVM的分類(lèi)算法進(jìn)行數(shù)據(jù)初步過(guò)濾,也能達(dá)到較好的預(yù)期分類(lèi)效果,整個(gè)系統(tǒng)設(shè)計(jì)能夠達(dá)到為微博輿情分析提供全面準(zhǔn)確的數(shù)據(jù)支持。
【學(xué)位授予單位】:中國(guó)地質(zhì)大學(xué)(北京)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP393.092
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 夏松江;1024至65536道核譜數(shù)據(jù)獲取與處理系統(tǒng)[J];核電子學(xué)與探測(cè)技術(shù);1987年05期
2 張獻(xiàn)州;鐵路地理信息系統(tǒng)數(shù)據(jù)獲取技術(shù)[J];鐵路計(jì)算機(jī)應(yīng)用;2001年08期
3 薛輝,孫如霞,尹春勇;網(wǎng)絡(luò)數(shù)據(jù)獲取方法淺析[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2005年08期
4 趙沁平;;自然現(xiàn)象的數(shù)據(jù)獲取與模擬[J];中國(guó)科學(xué):信息科學(xué);2011年04期
5 周新志,白榮生,溫良弼,,黃艷文;一種計(jì)算機(jī)多道脈沖分析系統(tǒng)中的數(shù)據(jù)獲取接口[J];核電子學(xué)與探測(cè)技術(shù);1996年04期
6 芮小平,楊崇俊,王盼成;3維城市模型中的數(shù)據(jù)獲取和組織方案研究[J];地理學(xué)與國(guó)土研究;2002年02期
7 王紀(jì)海;基于蘋(píng)果-Ⅱ微機(jī)的數(shù)據(jù)獲取與處理系統(tǒng)[J];中國(guó)核科技報(bào)告;1988年S2期
8 賈向軍 ,王效忠 ,許小明;中子多重性測(cè)量數(shù)據(jù)獲取軟件的開(kāi)發(fā)[J];中國(guó)原子能科學(xué)研究院年報(bào);2001年00期
9 張英;互聯(lián)網(wǎng)下的數(shù)據(jù)獲取和Web獲取[J];教育信息化;2004年06期
10 吳劍峰,許祖潤(rùn),吳世英;多功能網(wǎng)絡(luò)化核數(shù)據(jù)獲取和處理系統(tǒng)[J];核電子學(xué)與探測(cè)技術(shù);2005年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前6條
1 王博亮;張業(yè);王嘉遜;謝杰鎮(zhèn);方青;吳世輝;;中國(guó)數(shù)字人虛擬眼的數(shù)據(jù)獲取與研究進(jìn)展[A];人體斷面數(shù)據(jù)獲取與圖像處理研討會(huì)論文匯編[C];2005年
2 張建國(guó);;日本衛(wèi)星JERS-1數(shù)據(jù)獲取技術(shù)系統(tǒng)[A];空間探測(cè)的今天和未來(lái)——中國(guó)空間科學(xué)學(xué)會(huì)空間探測(cè)專(zhuān)業(yè)委員會(huì)第七次學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];1994年
3 駱云飛;王書(shū)民;;機(jī)載LiDAR系統(tǒng)在道路勘測(cè)中的數(shù)據(jù)獲取及應(yīng)用[A];第四屆“測(cè)繪科學(xué)前沿技術(shù)論壇”論文精選[C];2012年
4 劉廣棟;安琪;劉樹(shù)彬;;外熱式等離子體實(shí)驗(yàn)裝置數(shù)據(jù)獲取和處理系統(tǒng)[A];第十三屆全國(guó)核電子學(xué)與核探測(cè)技術(shù)學(xué)術(shù)年會(huì)論文集(下冊(cè))[C];2006年
5 楊文靜;房宗良;李莉;胡潔微;文其林;;基于LabVIEW的譜數(shù)據(jù)獲取軟件設(shè)計(jì)[A];第十五屆全國(guó)核電子學(xué)與核探測(cè)技術(shù)學(xué)術(shù)年會(huì)論文集[C];2010年
6 林金鋅;朱節(jié)清;顧連學(xué);樂(lè)安全;;XYH-86小面積X熒光涂層測(cè)厚儀的數(shù)據(jù)獲取和處理[A];第五次全國(guó)核電子學(xué)與核探測(cè)器學(xué)術(shù)會(huì)議論文集(下)[C];1990年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前4條
1 范京生;從數(shù)據(jù)獲取與更新到智慧服務(wù)[N];中國(guó)測(cè)繪報(bào);2011年
2 國(guó)家測(cè)繪地理信息局重慶測(cè)繪院 王冬濱;關(guān)于開(kāi)展地理國(guó)情監(jiān)測(cè)工作的幾點(diǎn)思考[N];中國(guó)測(cè)繪報(bào);2011年
3 記者 祝桂峰 通訊員 張榮;構(gòu)建“智慧廣州”又添新技術(shù)[N];中國(guó)礦業(yè)報(bào);2012年
4 童國(guó)慶;系統(tǒng)控制和數(shù)據(jù)獲取技術(shù)在美國(guó)哥倫比亞灌區(qū)的應(yīng)用[N];中國(guó)水利報(bào);2007年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 閆中敏;Deep Web數(shù)據(jù)獲取問(wèn)題研究[D];山東大學(xué);2010年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 亞森·伊斯馬伊力;跨語(yǔ)言社會(huì)輿情分析的數(shù)據(jù)獲取技術(shù)研究[D];新疆大學(xué);2015年
2 陳加洋;基于FPGA硬件算法的核能譜數(shù)據(jù)獲取研究[D];蘭州大學(xué);2016年
3 譚文斌;基于電商平臺(tái)的產(chǎn)品評(píng)論大數(shù)據(jù)獲取及應(yīng)用[D];貴州師范大學(xué);2016年
4 李北格;基于微博的數(shù)據(jù)獲取與過(guò)濾技術(shù)研究[D];中國(guó)地質(zhì)大學(xué)(北京);2016年
5 袁學(xué)東;團(tuán)簇特性研究中的多通道實(shí)時(shí)數(shù)據(jù)獲取和調(diào)控[D];四川大學(xué);2000年
6 吳劍峰;網(wǎng)絡(luò)化、多功能核數(shù)據(jù)獲取和處理系統(tǒng)[D];四川大學(xué);2002年
7 趙東旭;氣體中子探測(cè)器數(shù)據(jù)獲取與分析軟件研制[D];長(zhǎng)沙理工大學(xué);2010年
8 卓林;增量式Deep Web數(shù)據(jù)獲取技術(shù)研究[D];蘇州大學(xué);2011年
9 郭建兵;面向特定領(lǐng)域的Deep Web數(shù)據(jù)獲取技術(shù)研究[D];蘇州大學(xué);2012年
10 張哲冰;基于C2C網(wǎng)站信譽(yù)研究的網(wǎng)絡(luò)數(shù)據(jù)獲取與實(shí)現(xiàn)[D];蘭州大學(xué);2008年
本文編號(hào):1264060
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1264060.html