天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 營銷論文 >

海量短文本的主題挖掘及其可視化

發(fā)布時(shí)間:2017-04-14 10:21

  本文關(guān)鍵詞:海量短文本的主題挖掘及其可視化,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們重要的思想交流平臺(tái),從MSN到騰訊QQ,從Twitter到微博,各式各樣的網(wǎng)絡(luò)平臺(tái)正悄然改變世界,例如信息的傳播方式、市場營銷方式等。與此同時(shí),社交網(wǎng)絡(luò)中產(chǎn)生的短文本信息呈爆炸式增長,其中包含了大量不可估量的商業(yè)價(jià)值和社會(huì)價(jià)值,如何挖掘出隱藏在海量文本消息中的有用信息已經(jīng)成為人們的迫切需求。然而,短文本消息的獨(dú)特特征使得傳統(tǒng)方法很難對(duì)其進(jìn)行建模,語義特征的稀疏性使模型往往得不到很好的效果。受深度學(xué)習(xí)在自然語言處理領(lǐng)域的應(yīng)用啟發(fā),本文采用深度學(xué)習(xí)方法來對(duì)短文本消息進(jìn)行主題挖掘。本文首先分析中文短文本消息和微博消息的特點(diǎn),其次研究深度學(xué)習(xí)在文本挖掘上的應(yīng)用,并在此基礎(chǔ)上提出一種基于長短時(shí)記憶模型(Long Short Term Memory, LSTM)的方法來對(duì)短文本消息進(jìn)行處理,相對(duì)于大多數(shù)傳統(tǒng)基于詞袋模型的文本挖掘方法,它的主要不同之處在于LSTM考慮了整個(gè)句子的結(jié)構(gòu)信息,而不是簡單的字或詞的出現(xiàn)頻率。此外,本文試探性地使用深度學(xué)習(xí)的方法進(jìn)行中文短文本主題挖掘,并提出一種基于中文漢字筆畫的字向量映射方法,在一定程度上解決了中文漢字的輸入問題。通過分析研究中文漢字的造字方法以及讀音規(guī)則,可以將其映射為一個(gè)32維的向量,從而作為深度神經(jīng)網(wǎng)絡(luò)的輸入。LSTM屬于反饋神經(jīng)網(wǎng)絡(luò)的一種,它可以很好的處理序列數(shù)據(jù),而文本數(shù)據(jù)恰好是一種具有空間順序的序列數(shù)據(jù)。從而,借助于LSTM對(duì)序列數(shù)據(jù)處理的優(yōu)點(diǎn),文本的語義信息能夠在一定程度上被提取出來。最后,采用新浪微博消息作為測試數(shù)據(jù),實(shí)驗(yàn)表明本文提出的基于筆畫嵌入的LSTM-RNN在主題挖掘任務(wù)上是有效可行的。實(shí)驗(yàn)過程中,將經(jīng)典的基于短文本消息的主題模型作為對(duì)照,從而驗(yàn)證了該方法的準(zhǔn)確性。
【關(guān)鍵詞】:主題建模 深度學(xué)習(xí) 字嵌入 LSTM 文本挖掘
【學(xué)位授予單位】:西南石油大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要3-4
  • Abstract4-7
  • 第一章 緒論7-13
  • 1.1 研究背景及意義7-8
  • 1.2 國內(nèi)外研究現(xiàn)狀8-11
  • 1.3 本課題研究工作11-12
  • 1.4 本文結(jié)構(gòu)安排12-13
  • 第二章 相關(guān)理論與技術(shù)13-27
  • 2.1 短文本與微博13-15
  • 2.1.1 短文本13-14
  • 2.1.2 微博14-15
  • 2.2 主題挖掘常見算法15-27
  • 2.2.1 傳統(tǒng)文本主題挖掘方法15-17
  • 2.2.2 主題模型17-22
  • 2.2.3 深度學(xué)習(xí)22-27
  • 第三章 中文漢字字嵌入模型27-32
  • 3.1 One-Hot字嵌入27
  • 3.2 基于漢字筆畫的字嵌入27-32
  • 3.2.1 中文漢字特點(diǎn)27-29
  • 3.2.2 字嵌入模型29-32
  • 第四章 基于筆畫字嵌入的LSTM短文本主題挖掘32-39
  • 4.1 基于傳統(tǒng)反饋神經(jīng)網(wǎng)絡(luò)32-33
  • 4.2 基于長短時(shí)記憶模型33-35
  • 4.3 參數(shù)訓(xùn)練35-37
  • 4.4 基于LSTM的主題挖掘37-39
  • 4.4.1 關(guān)鍵字提取37
  • 4.4.2 短文本消息主題挖掘37-39
  • 第五章 實(shí)驗(yàn)結(jié)果分析及其可視化39-48
  • 5.1 數(shù)據(jù)獲取與預(yù)處理39
  • 5.2 基礎(chǔ)數(shù)據(jù)分析及可視化39-43
  • 5.3 主題演化實(shí)驗(yàn)結(jié)果分析及可視化43-46
  • 5.3.1 實(shí)驗(yàn)數(shù)據(jù)43-44
  • 5.3.2 關(guān)鍵字提取可視化分析44-45
  • 5.3.3 主題演化與關(guān)鍵字可視化分析45-46
  • 5.4 語義提取結(jié)果分析46-48
  • 第六章 總結(jié)與展望48-50
  • 6.1 本文工作總結(jié)48-49
  • 6.2 未來工作展望49-50
  • 參考文獻(xiàn)50-54
  • 致謝54

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 李盛瑜;何文;;一種對(duì)聊天文本進(jìn)行特征選取的方法研究[J];計(jì)算機(jī)科學(xué);2007年05期

2 蔣志方;祝翠玲;吳強(qiáng);;一個(gè)對(duì)不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計(jì)算機(jī)工程;2007年12期

3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國審計(jì);2007年18期

4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期

5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2004年09期

6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期

7 諶志群;;文本趨勢挖掘綜述[J];情報(bào)科學(xué);2010年02期

8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報(bào)雜志;2012年08期

9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年10期

10 陳福海;C++中用>>和<<重載實(shí)現(xiàn)文本文件的方便存取[J];現(xiàn)代計(jì)算機(jī);1997年05期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會(huì)議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年

9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國青年通信學(xué)術(shù)會(huì)議論文集[C];2001年

10 江荻;;藏語文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

中國重要報(bào)紙全文數(shù)據(jù)庫 前1條

1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報(bào);2004年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年

2 韓開旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年

3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年

4 韓磊;漢語句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年

5 劉林;面向論壇文本的大學(xué)生情緒識(shí)別研究[D];華中師范大學(xué);2016年

6 張博宇;基于局部特征的場景文本分析方法研究[D];哈爾濱工業(yè)大學(xué);2015年

7 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年

8 孫曉華;基于聚類的文本機(jī)會(huì)發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年

9 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年

10 霍躍紅;典籍英譯譯者文體分析與文本的譯者識(shí)別[D];大連理工大學(xué);2010年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年

2 李少卿;不良文本及其變體信息的檢測過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年

3 楊名陽;基于空間文本數(shù)據(jù)的k近鄰連接研究[D];上海交通大學(xué);2015年

4 李天彩;短文本信息流的會(huì)話抽取與分析技術(shù)研究[D];解放軍信息工程大學(xué);2015年

5 陳亮宇;面向微博文本的事件抽取[D];東南大學(xué);2015年

6 許慧芳;基于全覆蓋粒計(jì)算模型的文本表示和特征提取研究[D];太原理工大學(xué);2016年

7 王煒;面向網(wǎng)絡(luò)輿情的文本語義傾向性分類算法研究[D];河北工程大學(xué);2016年

8 任倚天;基于支持向量機(jī)的海量文本分類并行化技術(shù)研究[D];北京理工大學(xué);2016年

9 光順利;基于Spark的文本分類的研究[D];長春工業(yè)大學(xué);2016年

10 張高祥;基于SVM的文本信息過濾算法研究[D];吉林大學(xué);2016年


  本文關(guān)鍵詞:海量短文本的主題挖掘及其可視化,由筆耕文化傳播整理發(fā)布。



本文編號(hào):305801

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/305801.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a4771***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com