天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

推特中的非特定事件檢測方法研究

發(fā)布時間:2018-04-28 22:27

  本文選題:短文本 + 語義相似度 ; 參考:《電子科技大學(xué)》2017年碩士論文


【摘要】:社交網(wǎng)絡(luò)的興起和發(fā)展帶給人們生活極大的便利和變化。社交網(wǎng)絡(luò)網(wǎng)站一般擁有百萬以上的注冊用戶,全球范圍內(nèi)著名的社交網(wǎng)絡(luò)網(wǎng)站有臉書(FaceBook)、推特(Twitter)、微博等。社交網(wǎng)絡(luò)中傳播著大量有用信息,而且推特等社交網(wǎng)站對一般用戶開放了API以方便獲取數(shù)據(jù),這些因素使得近年來基于推特的數(shù)據(jù)挖掘研究迅速增加。事件檢測是其中的一個熱門研究,可分為特定事件檢測和非特定事件檢測。本文基于推特平臺以英語文本為研究對象,以非特定事件檢測為研究課題。重點研究了短文本語義相似度計算方法、非特定事件檢測方法和在線非特定事件檢測系統(tǒng)實現(xiàn)。本文主要在以下幾個方面進(jìn)行研究和創(chuàng)新:(1)提出基于知識和語料庫結(jié)合的短文本相似度計算方法。該方法基于改進(jìn)詞語語義相似度計算方法和一般短文本語義相似度計算方法。改進(jìn)詞語相似度方法通過一種選取融合的策略結(jié)合兩種詞語語義相似度,結(jié)合兩種方法的優(yōu)點以彌補(bǔ)單個方法的不足,發(fā)現(xiàn)更多文本中詞語的語義聯(lián)系,提升相似度的準(zhǔn)確性。本文使用大量測試語料集對多種算法進(jìn)行對比測試分析,改進(jìn)方法在詞語相似度和短文本相似度結(jié)果上比其他方法更貼近人工標(biāo)記結(jié)果。(2)提出基于文本增量聚類的非特定事件檢測方法。主要改進(jìn)了事件檢測中的增量短文本聚類方法,改進(jìn)方法是一種包含了貪婪聚類、重聚類、合并類、類刪減和可選的語義相似度計算的方法。它針對現(xiàn)有聚類算法缺乏語義相似性計算、增量聚類的順序影響性和聚合效果差的問題進(jìn)行改進(jìn)。此外提出一種基于聚類結(jié)果特征的事件識別方法。在真實推文數(shù)據(jù)測試中改進(jìn)聚類方法比原方法在聚類效果和順序影響方面有較大提升,事件檢測方法的召回率和準(zhǔn)確性也滿足應(yīng)用需求。(3)設(shè)計實現(xiàn)了基于推特的非特定事件檢測系統(tǒng)。本文對非特定事件檢測系統(tǒng)進(jìn)行了編程實現(xiàn),主要包括語義相似度計算、非特定事件檢測、文本預(yù)處理和圖形界面。該系統(tǒng)為了處理社交網(wǎng)絡(luò)的大量數(shù)據(jù)信息,針對各個模塊分別提出了優(yōu)化方法。在使用真實推文對系統(tǒng)進(jìn)行的功能測試和優(yōu)化性能對比測試中,該系統(tǒng)功能正常,優(yōu)化方法使模塊性能有較大提升,使系統(tǒng)能滿足在線事件檢測的要求。
[Abstract]:The rise and development of social network bring great convenience and change to people's life. Social networking sites typically have more than one million registered users, while world-renowned social networking sites include Facebook Facebook, Twitter, Weibo and others. Social networks spread a lot of useful information, and social networking sites such as Twitter open API to average users for easy access to data. These factors have led to the rapid increase of data mining research based on Twitter in recent years. Event detection is one of the most popular researches, which can be divided into specific event detection and non-specific event detection. Based on Twitter platform, this thesis focuses on English text and non-specific event detection. This paper focuses on the semantic similarity calculation method of short text text, the method of non-specific event detection and the realization of on-line non-specific event detection system. In this paper, we mainly research and innovate in the following aspects: 1) propose a method for calculating the similarity of short text texts based on the combination of knowledge and corpus. This method is based on the improved semantic similarity calculation method and the general text text semantic similarity calculation method. The improved word similarity method combines the semantic similarity of two words with a strategy of selection and fusion, combines the advantages of the two methods to make up for the shortcomings of a single method, finds more semantic links of words in the text, and improves the accuracy of the similarity degree. In this paper, we use a large number of test corpus to compare and analyze many algorithms. The improved method is closer to the result of manual marking than other methods in terms of word similarity and text similarity.) an independent event detection method based on incremental text clustering is proposed. This paper mainly improves the incremental short text clustering method in event detection. The improved method includes greedy clustering, reclustering, merging classes, class deletion and alternative semantic similarity calculation. It improves on the lack of semantic similarity calculation in existing clustering algorithms, the order influence of incremental clustering and the poor aggregation effect. In addition, an event recognition method based on clustering result features is proposed. The improved clustering method is better than the original method in clustering effect and sequence effect in real tweet data testing. The recall rate and accuracy of event detection method also meet the requirement of application. In this paper, the implementation of non-specific event detection system is carried out, including semantic similarity calculation, non-specific event detection, text preprocessing and graphical interface. In order to deal with a lot of data information of social network, the system proposes optimization methods for each module. In the function test and performance contrast test of the system with real tweet, the system has normal function, and the optimization method can improve the performance of the module greatly, so that the system can meet the requirements of online event detection.
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP393.09;TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 趙曉芳;劉智勇;;基于支持向量數(shù)據(jù)描述的高速公路事件檢測[J];計算機(jī)技術(shù)與發(fā)展;2008年12期

2 洪宇;張宇;范基禮;劉挺;李生;;基于子話題分治匹配的新事件檢測[J];計算機(jī)學(xué)報;2008年04期

3 史新宏,蔡伯根;高速公路自動事件檢測算法[J];交通運(yùn)輸系統(tǒng)工程與信息;2001年04期

4 周林英;朱斌;趙忠杰;;基于支持向量機(jī)的高速公路事件檢測算法[J];系統(tǒng)仿真技術(shù);2010年03期

5 陳艷艷;田啟華;;公交調(diào)度系統(tǒng)事件檢測算法研究[J];北京工業(yè)大學(xué)學(xué)報;2011年12期

6 郝艷哲;;京秦高速公路視頻事件檢測系統(tǒng)應(yīng)用[J];中國交通信息化;2013年04期

7 王闖舟;;提升事件檢測的商業(yè)價值[J];軟件世界;2007年20期

8 王彩琴;;基于智能分析的高速公路事件檢測系統(tǒng)的研究與開發(fā)[J];浙江統(tǒng)計;2007年11期

9 王穎穎;張峗;胡乃靜;;在線新事件檢測系統(tǒng)中的性能提升策略[J];計算機(jī)工程;2008年15期

10 倉玉;洪宇;姚建民;朱巧明;;基于時序話題模型的新事件檢測[J];智能計算機(jī)與應(yīng)用;2011年03期

相關(guān)會議論文 前10條

1 洪宇;張宇;范基禮;劉挺;李生;;基于子話題分治匹配的新事件檢測[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

2 劉霄;邵健;莊越挺;;基于主題模型的網(wǎng)絡(luò)突發(fā)熱點事件檢測[A];第七屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2011)論文集【poster】[C];2011年

3 胡佳鋒;金蓓弘;陳海彪;;空間事件檢測的加速策略研究[A];第七屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2011)論文集【oral】[C];2011年

4 萬濤;陳學(xué)武;王川久;;高速公路事件自動檢測算法研究綜述[A];第一屆中國智能交通年會論文集[C];2005年

5 張闊;李涓子;吳剛;;基于關(guān)鍵詞元的話題內(nèi)事件檢測[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

6 覃頻頻;許登元;姚起宏;黃大明;;基于表決融合的高速公路事件檢測算法融合[A];'2006系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會論文集[C];2006年

7 陳俊;李國輝;;擁擠視頻監(jiān)控中的事件檢測[A];第七屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2011)論文集【poster】[C];2011年

8 張永忠;趙靜;;基于事件檢測算法的交通數(shù)據(jù)分析系統(tǒng)[A];中國計量協(xié)會冶金分會2008年會論文集[C];2008年

9 劉海龍;李戰(zhàn)懷;陳群;;RFID供應(yīng)鏈系統(tǒng)中的在線復(fù)雜事件檢測方法[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集A輯二[C];2010年

10 周春姐;孟小峰;文潔;;Flickr中的復(fù)合事件檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年

相關(guān)重要報紙文章 前2條

1 王闖舟;事件檢測提升服務(wù)的商業(yè)價值[N];計算機(jī)世界;2006年

2 杭州海康威視數(shù)字技術(shù)股份有限公司 浦世亮;IVS技術(shù)在城市安防系統(tǒng)中的應(yīng)用[N];計算機(jī)世界;2008年

相關(guān)博士學(xué)位論文 前10條

1 劉昌余;多媒體事件檢測中的關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2015年

2 覃頻頻;基于信息融合的高速公路事件檢測建模與仿真[D];西南交通大學(xué);2007年

3 余柳;基于移動源數(shù)據(jù)的城市快速交通事件檢測W-CUSUM算法與評價[D];北京交通大學(xué);2010年

4 柯佳;基于語義的視頻事件檢測分析方法研究[D];江蘇大學(xué);2013年

5 楊潔;SOA架構(gòu)下基于語義的人件服務(wù)管理與調(diào)用研究[D];南京大學(xué);2014年

6 劉宏哲;文本語義相似度計算方法研究[D];北京交通大學(xué);2012年

7 王俊華;基于不確定性理論的單詞語義相似度度量[D];吉林大學(xué);2014年

8 宋玲;語義相似度計算及其應(yīng)用研究[D];山東大學(xué);2009年

9 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年

10 韓開旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年

相關(guān)碩士學(xué)位論文 前10條

1 蒲昊雨;推特中的非特定事件檢測方法研究[D];電子科技大學(xué);2017年

2 裴孝中;行車噪聲環(huán)境下的快速聲學(xué)事件檢測方法研究[D];哈爾濱工業(yè)大學(xué);2015年

3 熊偉晴;基于位置信息的事件檢測[D];哈爾濱工業(yè)大學(xué);2015年

4 李旭;面向多來源新聞的領(lǐng)域事件分析[D];浙江大學(xué);2015年

5 陳斌;基于云的復(fù)雜事件檢測服務(wù)[D];浙江大學(xué);2015年

6 趙偉;足球視頻精彩事件檢測算法研究[D];北京理工大學(xué);2016年

7 張玉;基于微博的突發(fā)事件檢測方法研究[D];蘭州大學(xué);2016年

8 吳維耀;制造業(yè)物聯(lián)網(wǎng)基于事件優(yōu)先級的復(fù)雜事件檢測方法研究[D];廣東工業(yè)大學(xué);2016年

9 金海;基于深度神經(jīng)網(wǎng)絡(luò)的音頻事件檢測[D];華南理工大學(xué);2016年

10 李紅梅;基于微博的突發(fā)事件檢測研究[D];南京理工大學(xué);2016年

,

本文編號:1817169

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1817169.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶590c4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com