天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向微博數(shù)據(jù)流的觀點匯總技術的研究與實現(xiàn)

發(fā)布時間:2018-07-29 06:09
【摘要】:作為一種日益流行的Web 2.0應用,微博客已逐漸成為人們?nèi)粘I钪杏涗浬磉吺录约敖涣鱾人觀點過程中不容忽視的載體和不可或缺的平臺,并被越來越多的人們所接受和青睞。微博用戶可以通過固定或移動的客戶端登陸,借助“發(fā)布”、“轉(zhuǎn)發(fā)”等功能方便快捷的表達自己的個人情感和意愿。微博“方便快捷”、“可讀性強”等特點使得其在短時間內(nèi)得以廣泛傳播,并形成了其獨特的傳播快、流量大、實時性強、信息繁雜等特點,這些特點使得對微博數(shù)據(jù)的處理面臨巨大挑戰(zhàn),微博用戶迫切希望在第一時間簡單快捷的獲取某一事件的大眾觀點及相應的觀點傾向。針對這樣的需求,本文在充分考慮微博數(shù)據(jù)“流”形態(tài)的基礎上,將觀點匯總技術與之結(jié)合,旨在及時有效地獲取用戶希望得到的匯總觀點;谏鲜瞿繕,本文首先利用流數(shù)據(jù)上的聚類手段,將目標數(shù)據(jù)流根據(jù)其包含的主題予以增量式的實時聚類,形成隨時間變遷的動態(tài)主題簇。實驗表明,在合適的參數(shù)范圍內(nèi),本文提出的方法可以獲得一個較為平穩(wěn)的聚類效果,各主題簇間劃分較為清楚。第二,在每個主題簇中建立起基于情感詞的主題-觀點短語樹,以此作為一種壓縮手段存儲數(shù)據(jù)流產(chǎn)生的主題及觀點信息,在此過程中充分考慮數(shù)據(jù)流的特性,輔以通過動態(tài)分析頻繁項集,對形成的短語樹進行的剪枝維護,以求將數(shù)據(jù)規(guī)?刂圃诳煽胤秶。在相關實驗中,本文成功構建出主題情感樹,并通過依托頻繁項集統(tǒng)計的方式實現(xiàn)了對樹的規(guī)模的有效控制。最后,通過抽取每個主題簇中主題—觀點短語樹內(nèi)的最長短語作為簇的代表主題及觀點,將各簇中的抽取結(jié)果匯總,形成最終的針對整個事件的觀點匯總結(jié)果。經(jīng)過與相關方法的對比,五分之三的評測人員認為本文的方法得出的匯總結(jié)果更為出色,從側(cè)面反映了本文提出的處理模式的合理性。綜上所述,本文提出的工作流程和方法在充分考慮微博數(shù)據(jù)流實時性特點的同時,可以較全面地涵蓋所分析數(shù)據(jù)的主題;谇楦性~的短語樹的構建成功解決了主題及觀點的存儲壓縮問題,并在可接受的準確率損失度下形成了合理完整的主題—觀點短語,最終分析形成的匯總結(jié)果具有較強的可讀性以及較為突出的代表性。
[Abstract]:As an increasingly popular Web 2.0 application, Weibo guest has gradually become a carrier and an indispensable platform for people to record events and exchange personal opinions in their daily life. And by more and more people accepted and favored. Weibo users can use fixed or mobile client login, with the help of "publish", "forward" and other functions to express their personal feelings and wishes quickly and conveniently. The characteristics of Weibo, such as "convenient and fast" and "strong readability", make it widely spread in a short period of time, and form its unique characteristics such as fast transmission, large flow, strong real-time and complicated information, etc. These characteristics make the processing of Weibo data face a huge challenge. Weibo users are eager to obtain the public opinion and the corresponding opinion tendency of a certain event in the first time. In view of this demand, this paper combines the viewpoint summarization technology with Weibo data "flow" form, in order to get the summary viewpoint that the user wants in time and effectively. Based on the above objectives, this paper firstly makes use of the clustering method on the stream data to cluster the target data stream incrementally according to the topics it contains, and forms a dynamic cluster of topics over time. The experimental results show that the proposed method can obtain a more stable clustering effect within a suitable range of parameters, and the classification of each topic cluster is relatively clear. Secondly, a topic-viewpoint phrase tree based on affective words is built in each topic cluster, which is used as a compression method to store the topic and viewpoint information generated by the data flow. In the process, the characteristics of the data flow are fully considered. With the help of dynamic analysis of frequent itemsets, the pruning and maintenance of the formed phrase trees is carried out in order to control the data size in a controllable range. In related experiments, this paper successfully constructs the subject emotion tree, and realizes the effective control of the tree scale by relying on frequent itemsets statistics. Finally, by extracting the longest phrase in the topic-viewpoint phrase tree of each topic cluster as the representative topic and viewpoint of the cluster, the extracted results from each cluster are summarized to form the final summary result for the whole event. Through the comparison with the related methods, 3/5 evaluators think that the summary result of this method is more excellent, which reflects the rationality of the processing mode proposed in this paper. To sum up, the workflow and method proposed in this paper can fully consider the real-time characteristics of Weibo data flow, and can cover the subject of the analyzed data more comprehensively at the same time. The construction of phrase tree based on affective words successfully solves the problem of storing and compressing the topic and viewpoint, and forms a reasonable and complete topic-viewpoint phrase under the acceptable loss of accuracy. The result of the final analysis has strong readability and outstanding representativeness.
【學位授予單位】:東北大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP393.092;TP391.1

【相似文獻】

相關期刊論文 前10條

1 侯太平,顧大權,王柏春,朱紅偉;遠程天氣會商系統(tǒng)中的數(shù)據(jù)流處理[J];計算機工程;2003年03期

2 陳昕,宋瀚濤;基于數(shù)據(jù)流的近似查詢計算及其應用研究[J];計算機應用研究;2003年11期

3 陳昕,陳維興,蘇錦祥;基于數(shù)據(jù)流模式的聚集快速查詢計算研究[J];計算機集成制造系統(tǒng);2004年06期

4 張冬冬,李建中,王偉平,郭龍江;分布式復式數(shù)據(jù)流的處理[J];計算機研究與發(fā)展;2004年10期

5 王金棟;周良;張磊;丁秋林;;一類數(shù)據(jù)流連續(xù)查詢的降載策略研究[J];武漢大學學報(工學版);2005年06期

6 劉景春;;數(shù)據(jù)流分類關鍵技術研究[J];佳木斯大學學報(自然科學版);2007年01期

7 李琳;孫士兵;;數(shù)據(jù)流聚類方法發(fā)展研究[J];長沙民政職業(yè)技術學院學報;2008年04期

8 陳軍;周明天;楊曉燕;;數(shù)據(jù)流系統(tǒng)降載研究綜述[J];計算機應用研究;2008年10期

9 傅鸝;魯先志;蔡斌;;一種基于數(shù)據(jù)流驅(qū)動的數(shù)據(jù)流連續(xù)查詢模型[J];重慶工學院學報(自然科學版);2008年10期

10 David P.Misunas ,張啟瑞;數(shù)據(jù)流處理機的性能分析[J];計算機工程與應用;1980年12期

相關會議論文 前10條

1 張冬冬;李建中;王偉平;郭龍江;;分布式復式數(shù)據(jù)流的處理[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年

2 楚紅濤;寒楓;張燕;王婷;;基于數(shù)據(jù)流的挖掘研究[A];計算機技術與應用進展·2007——全國第18屆計算機技術與應用(CACIS)學術會議論文集[C];2007年

3 尹婷;李紅燕;;窗口模型下數(shù)據(jù)流查詢流水化執(zhí)行的研究[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2004年

4 孟軍;張航黎;張建英;郭禾;;分布式數(shù)據(jù)流的漸增式聚集維護算法[A];2006年全國開放式分布與并行計算學術會議論文集(二)[C];2006年

5 韓近強;楊冬青;唐世渭;;數(shù)據(jù)流處理中一種自適應的直方圖維護算法[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2003年

6 蔡致遠;熊方;錢衛(wèi)寧;周傲英;;核合并分析及其在數(shù)據(jù)流密度估計上的應用[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2003年

7 王亦兵;楊樹強;王曉偉;;一個面向數(shù)據(jù)流的多維分析系統(tǒng)的研究與實現(xiàn)[A];全國計算機安全學術交流會論文集(第二十四卷)[C];2009年

8 于亞新;王國仁;陳燦;蘇林;朱歆華;趙相國;;基于操作符優(yōu)先級的兩種分布式數(shù)據(jù)流負載分配算法研究[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2007年

9 周銳;肖川;王國仁;韓東紅;霍歡;;數(shù)據(jù)流滑動窗口連接上的卸載技術的研究[A];第二十三屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2006年

10 田李;王樂;賈焰;鄒鵬;李愛平;;分布式數(shù)據(jù)流上低通信開銷的連續(xù)極值查詢方法研究[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2007年

相關博士學位論文 前10條

1 張麗;數(shù)據(jù)流上序敏感查詢處理關鍵技術研究[D];國防科學技術大學;2013年

2 王超;時間序列數(shù)據(jù)流復雜模式挖掘研究[D];合肥工業(yè)大學;2015年

3 李颯;數(shù)據(jù)流軟聚類理論及其在瓦斯災害預警中的應用[D];遼寧工程技術大學;2014年

4 陳華輝;基于遺忘特性的數(shù)據(jù)流概要結(jié)構及其應用研究[D];復旦大學;2008年

5 孔英會;數(shù)據(jù)流技術及其在電力信息處理中的應用研究[D];華北電力大學(河北);2009年

6 崇志宏;基于屏蔽/匯總技術的數(shù)據(jù)流處理算法[D];復旦大學;2006年

7 姚遠;海量動態(tài)數(shù)據(jù)流分類方法研究[D];大連理工大學;2013年

8 曹振麗;面向養(yǎng)殖環(huán)境監(jiān)測的數(shù)據(jù)流處理方法研究[D];中國農(nóng)業(yè)大學;2015年

9 朱輝生;基于情節(jié)規(guī)則匹配的數(shù)據(jù)流預測研究[D];復旦大學;2011年

10 袁志堅;數(shù)據(jù)流突發(fā)檢測若干關鍵技術研究[D];國防科學技術大學;2008年

相關碩士學位論文 前10條

1 王川;面向位置服務的物聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量保證方法研究[D];南京理工大學;2015年

2 祝然威;基于時間窗口的數(shù)據(jù)流頻繁項挖掘算法[D];復旦大學;2014年

3 邱孝兵;基于GPU的數(shù)據(jù)流聚類及相關性分析[D];大連理工大學;2015年

4 張野;數(shù)據(jù)流查詢語言中語法分析器的設計[D];電子科技大學;2015年

5 閆新院;基于概要模型的數(shù)據(jù)流聚合技術研究[D];西安電子科技大學;2014年

6 王濤;基于Ntrip協(xié)議的實時數(shù)據(jù)流軟件的設計與實現(xiàn)[D];西安電子科技大學;2014年

7 陳彬;數(shù)據(jù)流實時存儲關鍵技術[D];浙江工業(yè)大學;2015年

8 王高洋;基于網(wǎng)格和加速粒子群優(yōu)化的數(shù)據(jù)流聚類算法研究[D];哈爾濱師范大學;2015年

9 錢海振;大數(shù)據(jù)流滯后相關性挖掘方法[D];遼寧師范大學;2015年

10 劉祥佳;制造物聯(lián)海量數(shù)據(jù)流模式挖掘算法研究[D];廣東工業(yè)大學;2016年

,

本文編號:2151777

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2151777.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶a04f9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产精品第一香蕉视频| 日韩在线视频精品视频| 色婷婷激情五月天丁香| 夜夜躁狠狠躁日日躁视频黑人| 中文字幕高清免费日韩视频| 国产在线视频好看不卡| 欧美日韩一级黄片免费观看| 少妇淫真视频一区二区| 国产91色综合久久高清| 91天堂免费在线观看| 国产乱人伦精品一区二区三区四区| 99国产精品国产精品九九| 精品精品国产自在久久高清| 成人午夜爽爽爽免费视频| 九九热在线视频精品免费| 久久99青青精品免费观看| 精品日韩视频在线观看| 日韩在线中文字幕不卡| 亚洲熟女熟妇乱色一区| 久草视频这里只是精品| 亚洲欧洲在线一区二区三区| 日本不卡一本二本三区| 欧美精品一区二区水蜜桃| 国产精品一区二区有码| 精品少妇人妻av免费看| 五月婷婷亚洲综合一区| 91欧美日韩精品在线| 国产精品成人一区二区在线| 少妇人妻无一区二区三区| 午夜精品黄片在线播放| 日韩精品综合福利在线观看| 91久久精品国产一区蜜臀| 91蜜臀精品一区二区三区| 日本欧美视频在线观看免费| 成人精品网一区二区三区| 亚洲综合香蕉在线视频| av免费视屏在线观看| 国产传媒一区二区三区| 日本99精品在线观看| 风间中文字幕亚洲一区| 亚洲国产色婷婷久久精品|