天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

社交媒體文本數(shù)據(jù)挖掘算法及應(yīng)用

發(fā)布時(shí)間:2018-06-03 06:06

  本文選題:文本挖掘 + 社交媒體分析 ; 參考:《南京大學(xué)》2017年碩士論文


【摘要】:社交媒體是互聯(lián)網(wǎng)近幾年快速發(fā)展的產(chǎn)物,現(xiàn)如今已融入了人們生活的方方面面。社交媒體數(shù)據(jù)已經(jīng)成為互聯(lián)網(wǎng)中最重要的信息來源,在互聯(lián)網(wǎng)各類應(yīng)用中發(fā)揮著重要的作用。文本挖掘技術(shù)也正在逐步適應(yīng)大數(shù)據(jù)時(shí)代,在社交媒體中逐步流行起來。傳統(tǒng)的文本挖掘任務(wù)主要針對(duì)格式規(guī)范的新聞文本。各類文本處理工具在基于新聞文本的任務(wù)中都能夠提供可靠的預(yù)處理結(jié)果。然而,傳統(tǒng)的文本處理方法在互聯(lián)網(wǎng)數(shù)據(jù)文本的處理中顯得不盡如人意;ヂ(lián)網(wǎng)文本如微博數(shù)據(jù),有著較多區(qū)別于傳統(tǒng)文本的特性。這些特性給社交媒體文本挖掘工作帶來了新的機(jī)遇和挑戰(zhàn)。針對(duì)互聯(lián)網(wǎng)數(shù)據(jù)的新特性,我們從社交媒體分析領(lǐng)域的兩個(gè)具體任務(wù)出發(fā)提出了我們的方法。在微博平臺(tái)中,用戶能夠隨時(shí)發(fā)布微博來記錄他們的日常生活以及表達(dá)他們的觀點(diǎn)或者想法。最近,基于用戶微博數(shù)據(jù)來為用戶生成個(gè)性化標(biāo)簽的任務(wù)逐步流行了起來。個(gè)性化標(biāo)簽,作為描述用戶個(gè)性化興趣愛好的特征,在用戶畫像、個(gè)性化推薦等領(lǐng)域起到了非常重要的作用。很多已有的標(biāo)簽抽取工作都是作為普通的關(guān)鍵詞抽取任務(wù)來完成。對(duì)于內(nèi)容簡(jiǎn)短、格式不規(guī)范的微博數(shù)據(jù),傳統(tǒng)的關(guān)鍵詞抽取方法難以獲得較好的抽取結(jié)果。在本文中,我們提出了一種無監(jiān)督的標(biāo)簽抽取方法。首先,我們使用了一種特殊的數(shù)據(jù)標(biāo)準(zhǔn)化方式來構(gòu)造數(shù)據(jù)集。之后,通過基于稀疏模型的特征選擇方法來為用戶抽取特征詞,并對(duì)目標(biāo)標(biāo)簽進(jìn)行擴(kuò)展。最后,我們定義了一種重排序的優(yōu)化策略來過濾抽取結(jié)果。我們?cè)谛吕宋⒉┑臄?shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。對(duì)比其他無監(jiān)督的方法,我們提出的方法顯著地提升了標(biāo)簽抽取效果。微博中的事件抽取任務(wù)是一個(gè)非常有趣卻很難的任務(wù),F(xiàn)存的大多數(shù)方法都是基于事件特征詞的共現(xiàn)頻率或者主題分布來進(jìn)行事件抽取的。較少的工作使用到了微博數(shù)據(jù)中的時(shí)序信息進(jìn)行事件識(shí)別。在本文中,我們使用了一種基于協(xié)同訓(xùn)練的多視角聚類方法,在事件抽取過程中能夠同時(shí)考慮數(shù)據(jù)中的主題信息和時(shí)序信息。首先,我們分別利用主題模型和時(shí)序分析算法構(gòu)造事件特征詞的主題相似度矩陣和時(shí)序相似度矩陣。隨后,基于協(xié)同訓(xùn)練的多視角聚類算法會(huì)被用來對(duì)事件特征詞進(jìn)行聚類,不同的類簇表示不同的事件。在Twitter數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的方法不僅比單獨(dú)考慮主題模型和時(shí)序分析的單視角方法要好,對(duì)比其他基于關(guān)鍵詞聚類和基于文本聚類的方法也有很大的優(yōu)勢(shì)。
[Abstract]:Social media is the product of the rapid development of the Internet in recent years, and now has been integrated into all aspects of people's lives. Social media data has become the most important information source in the Internet and plays an important role in various applications of the Internet. Text mining technology is also gradually adapting to the big data era, gradually popular in social media. The traditional task of text mining is mainly aimed at the format of the standard news text. All kinds of text processing tools can provide reliable preprocessing results in news-based tasks. However, the traditional text processing method is not satisfactory in the Internet data text processing. Internet text, such as Weibo data, is different from traditional text. These features bring new opportunities and challenges to social media text mining. In view of the new features of Internet data, we put forward our method from two specific tasks in the field of social media analysis. On the Weibo platform, users can publish Weibo at any time to record their daily lives and express their views or ideas. Recently, the task of generating personalized tags for users based on user Weibo data has gradually become popular. As a feature of describing users' personalized interests, personalized tags play a very important role in user portrait, personalized recommendation and other fields. Many existing tag extraction tasks are done as common keyword extraction tasks. For Weibo data with short content and non-standard format, the traditional keyword extraction method is difficult to obtain better results. In this paper, we propose an unsupervised label extraction method. First, we use a special method of data standardization to construct data sets. Then, the feature selection method based on sparse model is used to extract the feature words for the user and extend the target label. Finally, we define a reordering optimization strategy to filter the extraction results. We experimented on the data set of Sina Weibo. Compared with other unsupervised methods, the proposed method significantly improves the effectiveness of label extraction. The event extraction task in Weibo is a very interesting but difficult task. Most existing methods are based on co-occurrence frequency or topic distribution of event feature words. Less work uses temporal information in Weibo data for event recognition. In this paper, we use a multi-view clustering method based on cooperative training, which can consider both topic information and temporal information in the process of event extraction. Firstly, the topic similarity matrix and temporal similarity matrix of event feature words are constructed by using topic model and temporal analysis algorithm, respectively. Subsequently, the multi-view clustering algorithm based on cooperative training is used to cluster the event feature words, and different clusters represent different events. The experimental results on the Twitter dataset show that our method is not only better than the single view method which considers the topic model and temporal analysis alone, but also has great advantages over other methods based on keyword clustering and text clustering.
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 ;社交媒體十大趨勢(shì)[J];現(xiàn)代營銷(經(jīng)營版);2009年05期

2 ;怎樣看待社交媒體[J];中國經(jīng)濟(jì)和信息化;2011年12期

3 馬爾科姆;;被高估的社交媒體[J];當(dāng)代傳播;2011年03期

4 ;未來社交媒體10大趨勢(shì)[J];中國傳媒科技;2011年07期

5 啟程;;社交媒體之“濕”與社會(huì)之痛[J];檢察風(fēng)云;2011年17期

6 曹博林;;社交媒體:概念、發(fā)展歷程、特征與未來——兼談當(dāng)下對(duì)社交媒體認(rèn)識(shí)的模糊之處[J];湖南廣播電視大學(xué)學(xué)報(bào);2011年03期

7 ;國外媒體對(duì)記者使用社交媒體的規(guī)定[J];新聞?dòng)浾?2011年12期

8 馬小娟;;論社交媒體對(duì)公民政治參與的影響[J];中國出版;2011年24期

9 馮巖;;人文城市發(fā)展中的社交媒體管理[J];城市發(fā)展研究;2012年03期

10 文衛(wèi)華;劉嘉麗;王雅萱;;試析社交媒體在新聞傳播中的運(yùn)用與邊界[J];中國報(bào)業(yè);2012年08期

相關(guān)會(huì)議論文 前3條

1 袁靖華;;微博的理想與現(xiàn)實(shí)——兼論社交媒體建構(gòu)公共空間的三大困擾因素[A];數(shù)字未來與媒介社會(huì)2[C];2010年

2 洪婧茹;;社交媒體與上海大學(xué)生的環(huán)保參與:從線上關(guān)注到線下行動(dòng)[A];中華新聞傳播學(xué)術(shù)聯(lián)盟第六屆研究生學(xué)術(shù)研討會(huì)論文集[C];2014年

3 王斌;鄭滿寧;;扭轉(zhuǎn)“逆差”:社交媒體時(shí)代國人形象傳播機(jī)制及策略[A];新聞學(xué)論集(第30輯)[C];2014年

相關(guān)重要報(bào)紙文章 前10條

1 韓軍 編譯;社交媒體營銷助推器還是新航向?[N];中國民航報(bào);2010年

2 本報(bào)記者 陳曉平;社交媒體重構(gòu)商業(yè)?[N];21世紀(jì)經(jīng)濟(jì)報(bào)道;2011年

3 一鳴;出版商介入社交媒體的危險(xiǎn)[N];中國圖書商報(bào);2011年

4 Chris Nerney;社交媒體帶來的5大安全威脅[N];網(wǎng)絡(luò)世界;2011年

5 李鑫源;社交媒體影響不容小窺[N];科技日?qǐng)?bào);2011年

6 陳曉平;社交媒體的“葫蘆論”[N];21世紀(jì)經(jīng)濟(jì)報(bào)道;2011年

7 肖明超(新生代市場(chǎng)監(jiān)測(cè)機(jī)構(gòu)副總經(jīng)理);社交媒體引發(fā)營銷裂變[N];中國圖書商報(bào);2011年

8 文化學(xué)者 常江;社交媒體的“情緒化”[N];新華每日電訊;2012年

9 朱永磊 貝恩大中華區(qū)電信、媒體與高科技業(yè)務(wù)主管;如何成為社交媒體的長期贏家[N];通信產(chǎn)業(yè)報(bào);2012年

10 記者 趙中文;東南亞企業(yè)傾向利用社交媒體經(jīng)商[N];中華工商時(shí)報(bào);2012年

相關(guān)博士學(xué)位論文 前7條

1 張雪;復(fù)雜網(wǎng)絡(luò)鏈路分析與社交媒體預(yù)測(cè)[D];國防科學(xué)技術(shù)大學(xué);2013年

2 羅準(zhǔn)辰;社交媒體中的信息檢索與傳播分析[D];國防科學(xué)技術(shù)大學(xué);2013年

3 丹尼爾;社交媒體在企業(yè)傳播中的使用:可口可樂中國和可口可樂加納案例研究[D];復(fù)旦大學(xué);2014年

4 朱星瑋;社交媒體信息結(jié)構(gòu)化組織及其應(yīng)用研究[D];清華大學(xué);2015年

5 謝松縣;社交媒體中觀點(diǎn)信息分析與應(yīng)用[D];國防科學(xué)技術(shù)大學(xué);2014年

6 陳夏雨;工作場(chǎng)所中企業(yè)社交媒體可供性的實(shí)證研究[D];中國科學(xué)技術(shù)大學(xué);2017年

7 唐李洋;基于社交媒體大數(shù)據(jù)的Twitter營銷策略研究[D];合肥工業(yè)大學(xué);2015年

相關(guān)碩士學(xué)位論文 前10條

1 李雪絮;社交媒體廣告的表現(xiàn)策略研究[D];浙江理工大學(xué);2013年

2 呂蒙;網(wǎng)絡(luò)社交媒體關(guān)系網(wǎng)絡(luò)與品牌傳播[D];遼寧大學(xué);2013年

3 吳祖宏;大學(xué)生手機(jī)社交媒體依賴的問卷編制及特點(diǎn)研究[D];西南大學(xué);2014年

4 張茜茹;大學(xué)生社交媒體依賴的測(cè)量及其與主觀幸福感的關(guān)系[D];山西師范大學(xué);2015年

5 徐蕾;政務(wù)社交媒體用戶使用意愿研究[D];南京大學(xué);2015年

6 鞏麗;社交媒體對(duì)電視節(jié)目受眾觀看行為的影響研究[D];復(fù)旦大學(xué);2014年

7 鄒姝玉;社交媒體自我表達(dá)研究[D];四川師范大學(xué);2015年

8 秦晶晶;大學(xué)生社交媒體的使用情況、社會(huì)支持與社交焦慮的關(guān)系及其情緒啟動(dòng)效應(yīng)研究[D];閩南師范大學(xué);2015年

9 蔣勝;基于社交媒體網(wǎng)絡(luò)的消費(fèi)者網(wǎng)購決策及商品推薦研究[D];安徽工程大學(xué);2015年

10 任雁;“文化遷徙”背景下中國留學(xué)社交媒體使用的“兩棲”性研究[D];山東大學(xué);2015年

,

本文編號(hào):1971752

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1971752.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2eb18***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com