天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

微博文本處理及話題分析方法研究

發(fā)布時(shí)間:2018-04-16 23:16

  本文選題:微博短文本 + 特征擴(kuò)展 ; 參考:《北京信息科技大學(xué)》2017年碩士論文


【摘要】:現(xiàn)今的微博,儼然已經(jīng)成為一個(gè)話題發(fā)布、傳播的平臺(tái);谶@個(gè)平臺(tái)產(chǎn)生的微博文本數(shù)量巨大,其中蘊(yùn)含著眾多的信息,包括商業(yè)信息、最新資訊信息、用戶的行為及關(guān)系信息等,這些信息可能蘊(yùn)含著眾多話題,也可能在傳播過(guò)程中產(chǎn)生各種各樣的話題。這些話題一部分具有明顯標(biāo)記,稱之為顯性話題,而有些話題在微博文本中并不能直接顯示出來(lái),需要經(jīng)過(guò)特殊分析處理和數(shù)據(jù)挖掘才能發(fā)現(xiàn)并追蹤,我們把這樣的話題稱為隱性話題。隱性話題雖然不能直接在文本中標(biāo)記出來(lái),但其在社交媒體中的影響是非常重要的,如何對(duì)微博文本進(jìn)行分析并發(fā)現(xiàn)和追蹤這些隱性話題,已經(jīng)成為微博研究領(lǐng)域的重要內(nèi)容,對(duì)于社會(huì)媒體的輿情分析、輿論引導(dǎo)具有重要的意義,為此,開(kāi)展微博文本的處理方法及相關(guān)話題分析研究顯得十分必要,本論文將進(jìn)行這方面的相關(guān)研究。主要的研究工作包括以下五個(gè)方面:(1)微博數(shù)據(jù)資源庫(kù)建設(shè)方法提出了一種基于微博關(guān)鍵詞搜索的話題內(nèi)容爬取方法,獲取蘊(yùn)含相應(yīng)關(guān)鍵詞的微博內(nèi)容及其對(duì)應(yīng)的評(píng)論信息。通過(guò)研究常用的微博數(shù)據(jù)資源爬取及存儲(chǔ)技術(shù),設(shè)計(jì)了微博數(shù)據(jù)資源庫(kù)的分類分層級(jí)別和存儲(chǔ)結(jié)構(gòu),完成了微博內(nèi)容庫(kù)、用戶關(guān)注關(guān)系庫(kù)、博主信息庫(kù)和微博話題資源庫(kù)的建設(shè)。整理了具有80W詞容量的用戶詞典,并應(yīng)用于微博文本分詞。(2)微博短文本的特征擴(kuò)展策略提出了基于Word2Vec模型構(gòu)建微博上下文相關(guān)詞詞表的算法,并通過(guò)詞表和微博標(biāo)簽信息擴(kuò)展微博文本中的關(guān)鍵詞,解決了微博文本高維、稀疏特點(diǎn)給文本處理帶來(lái)的問(wèn)題。還提出了微博文本關(guān)鍵詞提取方法及詞向量中相似詞和相關(guān)詞的區(qū)分方法。比較了基于知網(wǎng)和同義詞詞林的短文本擴(kuò)展策略。結(jié)果證明,在微博文本聚類中輸入經(jīng)過(guò)Word2Vec詞向量相關(guān)詞及微博標(biāo)簽擴(kuò)展后的文本,其聚類準(zhǔn)確率有顯著提高。(3)微博文本的深度表示模型及相似度計(jì)算方法提出了基于文本深度表示模型的微博句子相似度計(jì)算方法。比較了基于TF-IDF方法、基于詞向量加權(quán)和方法和句向量訓(xùn)練模型方法對(duì)文本相似度計(jì)算的效果。結(jié)果表明,采用語(yǔ)義詞庫(kù)的文本深度模型對(duì)微博短、長(zhǎng)文本進(jìn)行相似度計(jì)算的效果最佳。而基于句向量模型的方法,應(yīng)用于長(zhǎng)文本的相似度計(jì)算后,其效果雖然也很好,但該方法對(duì)于短文本卻無(wú)能為力。(4)基于組合聚類算法及話題判斷模型的微博話題分析技術(shù)提出了組合聚類算法及微博話題判斷模型。結(jié)合基于密度的聚類方法和K-Means聚類方法,改進(jìn)現(xiàn)有K-Means聚類算法不能預(yù)測(cè)話題分類數(shù)和隨機(jī)選擇初始中心的缺陷,同時(shí)將文本擴(kuò)展和針對(duì)微博文本的句向量表示和相似度計(jì)算方法應(yīng)用于K-Means聚類,得到了更好的微博話題聚類結(jié)果集。利用話題的時(shí)間變化及話題粒度可變屬性,對(duì)追蹤到的微博某話題集進(jìn)行時(shí)間-頻次建模,并以此為標(biāo)準(zhǔn)判斷話題檢測(cè)任務(wù)的結(jié)果是否為異常話題,實(shí)現(xiàn)對(duì)微博話題的判斷和動(dòng)態(tài)追蹤。(5)微博話題分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)采用Java、Hadoop和Hive等技術(shù),編程實(shí)現(xiàn)了微博話題分析系統(tǒng)。介紹了微博話題分析系統(tǒng)的結(jié)構(gòu)框架、各模塊功能設(shè)計(jì)和實(shí)現(xiàn)步驟。并通過(guò)測(cè)試語(yǔ)料集在設(shè)計(jì)的系統(tǒng)中檢驗(yàn)了本文方法的可行性和有效性。
[Abstract]:This paper presents a new method of micro blog data resource pool construction , which contains many topics , such as business information , latest information , user ' s behavior and relationship information . ( 4 ) Based on the clustering algorithm and the topic judgment model , the clustering algorithm and the micro blog topic judgment model are put forward . Combining the density - based clustering method and the K - Means clustering method , we improve the existing K - Means clustering algorithm to predict the topic classification number and the random selection initial center .

【學(xué)位授予單位】:北京信息科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1;TP393.092

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳敏,湯曉安;在Microsoft Access中引入文本文件[J];微型電腦應(yīng)用;1995年02期

2 李盛瑜;何文;;一種對(duì)聊天文本進(jìn)行特征選取的方法研究[J];計(jì)算機(jī)科學(xué);2007年05期

3 蔣志方;祝翠玲;吳強(qiáng);;一個(gè)對(duì)不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計(jì)算機(jī)工程;2007年12期

4 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國(guó)審計(jì);2007年18期

5 易樹(shù)鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期

6 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2004年09期

7 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期

8 諶志群;;文本趨勢(shì)挖掘綜述[J];情報(bào)科學(xué);2010年02期

9 王亞民;劉洋;;含附件文本的分類算法研究[J];情報(bào)雜志;2012年08期

10 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年10期

相關(guān)會(huì)議論文 前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測(cè)[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

4 李文波;孫樂(lè);黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

5 黃云平;孫樂(lè);李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫(xiě)文本行提取方法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測(cè)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年

9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開(kāi)創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2001年

10 江荻;;藏語(yǔ)文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

相關(guān)重要報(bào)紙文章 前1條

1 戴洪玲;向Excel中快速輸入相同文本[N];中國(guó)電腦教育報(bào);2004年

相關(guān)博士學(xué)位論文 前10條

1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年

2 韓開(kāi)旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年

3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年

4 韓磊;漢語(yǔ)句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年

5 劉林;面向論壇文本的大學(xué)生情緒識(shí)別研究[D];華中師范大學(xué);2016年

6 張博宇;基于局部特征的場(chǎng)景文本分析方法研究[D];哈爾濱工業(yè)大學(xué);2015年

7 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年

8 孫曉華;基于聚類的文本機(jī)會(huì)發(fā)現(xiàn)關(guān)鍵問(wèn)題研究[D];哈爾濱工程大學(xué);2010年

9 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年

10 霍躍紅;典籍英譯譯者文體分析與文本的譯者識(shí)別[D];大連理工大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年

2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年

3 李少卿;不良文本及其變體信息的檢測(cè)過(guò)濾技術(shù)研究[D];復(fù)旦大學(xué);2014年

4 董秦濤;基于文本的個(gè)人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年

5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評(píng)估及推薦應(yīng)用[D];華南理工大學(xué);2015年

6 黃晨;基于新詞識(shí)別和時(shí)間跨度的微博熱點(diǎn)研究[D];上海交通大學(xué);2015年

7 陳紅陽(yáng);中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年

8 王s,

本文編號(hào):1761003


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1761003.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶834df***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com