天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

中文微博短文本主題挖掘方法研究與原型系統(tǒng)開發(fā)

發(fā)布時間:2018-02-04 22:58

  本文關(guān)鍵詞: 微博短文本 文本聚類 主題挖掘 頻繁閉項(xiàng)集 詞對共現(xiàn) 出處:《大連海事大學(xué)》2017年碩士論文 論文類型:學(xué)位論文


【摘要】:近年來,隨著互聯(lián)網(wǎng)與智能移動設(shè)備的快速發(fā)展,以Twitter、微博等為代表的社交媒體應(yīng)用變得越來越受歡迎,短文本交互日益普遍,對海量的微博數(shù)據(jù)進(jìn)行分析主題,及時獲取人們關(guān)注的熱點(diǎn)話題以及滿足用戶在大量產(chǎn)生的信息中查找自己的需求具有重要的現(xiàn)實(shí)意義。微博文本內(nèi)容短小,特征詞稀疏并且規(guī)模龐大,對于微博這種具有特殊特征的短文本,選取有效的方法進(jìn)行主題識別,進(jìn)行細(xì)粒度的主題檢索,最大程度的滿足用戶需求是目前需要解決的重要問題。本文主要針對短文本的信息抽取開展相關(guān)研究工作,研究重點(diǎn)聚焦于中文微博類短文本的內(nèi)隱主題提取,在現(xiàn)有對文本聚類和主題模型的研究基礎(chǔ)上,針對中文微博短文本語料庫,展開了相關(guān)研究。主要研究工作和成果包括:(1)對預(yù)處理后的微博語料集進(jìn)行基于top-k頻繁閉詞集的短文本聚類,聚類過程中對頻繁詞集挖掘算法進(jìn)行了改進(jìn),避免了 min_support的多次嘗試以及頻繁詞集數(shù)據(jù)量巨大的問題,并且以頻繁詞集作為類簇的描述信息,得到微博文本的粗粒度分類。(2)針對類簇內(nèi)主題不明確并且短文本存在的特征稀疏問題,結(jié)合LDA模型和BTM模型提出了一種基于詞對共現(xiàn)LDA模型的類簇內(nèi)潛在主題挖掘方法,對每篇文檔的詞對進(jìn)行建模,提高短文本主題特征的性能,得到細(xì)粒度的類簇內(nèi)隱含主題。(3)根據(jù)短文本聚類和細(xì)粒度類簇內(nèi)主題挖掘相結(jié)合的思想,設(shè)計(jì)出了微博內(nèi)隱主題挖掘系統(tǒng),不僅能夠準(zhǔn)確的得出微博短文本的劃分類簇,而且能夠?qū)崿F(xiàn)在類簇上進(jìn)一步挖掘主題的目的,最終實(shí)現(xiàn)了對微博平臺內(nèi)微博信息的內(nèi)隱主題的自動化提取與分類存儲。
[Abstract]:In recent years, with the rapid development of the Internet and smart mobile devices, social media applications, such as Twitter, Weibo and so on, have become more and more popular. It is very important to analyze the theme of the massive Weibo data, to get the hot topics that people pay attention to in time and to meet the needs of users to find their own in a large number of generated information. Weibo text content is short. Feature words are sparse and large in scale. For Weibo short text with special characteristics, an effective method is selected for topic recognition and fine-grained topic retrieval. To meet the needs of users to the greatest extent is an important issue to be solved. This paper mainly focuses on the information extraction of short text, focusing on the implicit topic extraction of Chinese Weibo short text. Based on the existing research on text clustering and topic models, this paper aims at the Chinese Weibo short text corpus. The main research work and results include: 1) the text clustering of the pretreated Weibo corpus based on the frequent closed words set of top-k. In the process of clustering, the algorithm of mining frequent word sets is improved to avoid the problems of min_support 's multiple attempts and the huge amount of data of frequent word sets. And the frequent word set is used as the description information of the cluster to obtain the coarse-grained classification of Weibo text. Combined with LDA model and BTM model, a method of potential topic mining in clusters based on word pair co-occurrence LDA model is proposed, which can model the word pairs of each document and improve the performance of the topic features of the short text. According to the idea of combination of short text clustering and topic mining in fine-grained cluster, a Weibo implicit topic mining system is designed. Not only can we accurately get the short text of Weibo divided into clusters, but also can achieve the purpose of further mining topics on the cluster. Finally, the automatic extraction and classification of the implicit topics of Weibo information in Weibo platform are realized.
【學(xué)位授予單位】:大連海事大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 趙芳芳;蔣志鵬;關(guān)毅;;中文分詞和詞性標(biāo)注聯(lián)合模型綜述[J];智能計(jì)算機(jī)與應(yīng)用;2014年03期

2 謝昊;江紅;;一種面向微博主題挖掘的改進(jìn)LDA模型[J];華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年06期

3 唐曉波;房小可;;基于文本聚類與LDA相融合的微博主題檢索模型研究[J];情報(bào)理論與實(shí)踐;2013年08期

4 徐碩;喬曉東;朱禮軍;張運(yùn)良;薛春香;;共現(xiàn)聚類分析的新方法:最大頻繁項(xiàng)集挖掘[J];情報(bào)學(xué)報(bào);2012年02期

5 鄭斐然;苗奪謙;張志飛;高燦;;一種中文微博新聞話題檢測的方法[J];計(jì)算機(jī)科學(xué);2012年01期

6 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計(jì)算機(jī)研究與發(fā)展;2011年10期

7 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計(jì)算機(jī)學(xué)報(bào);2011年08期

8 奉國和;鄭偉;;國內(nèi)中文自動分詞技術(shù)研究綜述[J];圖書情報(bào)工作;2011年02期

9 劉紅芝;;中文分詞技術(shù)的研究[J];電腦開發(fā)與應(yīng)用;2010年03期

10 何孝金;傅彥;陳安龍;;基于相對距離的密度聚類算法[J];計(jì)算機(jī)應(yīng)用研究;2009年04期

相關(guān)碩士學(xué)位論文 前3條

1 李保國;基于聚類與LDA的新聞評論主題挖掘研究[D];武漢紡織大學(xué);2016年

2 蘇沖;基于最大頻繁項(xiàng)集的搜索引擎查詢結(jié)果聚類方法[D];哈爾濱工業(yè)大學(xué);2009年

3 王新麗;中文文本分類系統(tǒng)的研究與實(shí)現(xiàn)[D];天津大學(xué);2007年

,

本文編號:1491393

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1491393.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8b86a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com