天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向隱式微博主題挖掘系統(tǒng)的設計與實現(xiàn)

發(fā)布時間:2017-05-06 07:41

  本文關鍵詞:面向隱式微博主題挖掘系統(tǒng)的設計與實現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,電商平臺逐漸成為大眾購買商品的主要渠道,企業(yè)官方微博是服務于電商平臺的便于企業(yè)發(fā)布對外消息、用戶討論評價產(chǎn)品的一種新型方式。隨著公司網(wǎng)絡營銷影響力的增加,與公司相關的微博文本數(shù)量日益增多,其中隱含著許多與公司密切相關的話題。挖掘得到其中有價值的信息可以實時監(jiān)控與公司相關的輿論動向,支持公司管理層決策。微博主題檢測技術是研究如何對大量的微博數(shù)據(jù)信息進行管理分類,這己經(jīng)成為當前微博研究中最熱門的方向之一。主要工作內(nèi)容如下:(1)微博中包含大量的無法分析其主題歸屬的微博。如果一味拋棄將會大大影響整體主題的輸出,遺漏掉很多微博作者關心的話題。因此本文在目前已存在的微博主題模型基礎上,著重分析微博的結構和微博間的關系并結合概率主題模型設計和提出了基于微博轉(zhuǎn)發(fā)評論關系和自身上下文關系的面向隱式微博的主題模型CGRMB-LDA模型。該模型利用微博間評論關系、轉(zhuǎn)發(fā)關系和上下文關系擴展隱式微博來達到明確隱式微博的主題歸屬的目的,最后采用吉布斯采樣的方法求解模型得到微博-主題和主題-詞匯的概率分布。(2)本文還探討如何快速便捷地利用微博開放平臺的API接口實現(xiàn)獲取微博間的評論轉(zhuǎn)發(fā)關系來分析處理隱式微博。另外,本文還針對隱式微博的特點經(jīng)過數(shù)據(jù)預處理、網(wǎng)絡符號替換和情感詞擴充使得最后主題模型的輸出更加準確并帶有一些情感色彩。
【關鍵詞】:微博 主題挖掘 CGRMB-LDA模型 隱式微博
【學位授予單位】:東華大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP393.092;TP391.1
【目錄】:
  • 摘要4-6
  • ABSTRACT6-11
  • 第一章 緒論11-19
  • 1.1 研究背景11
  • 1.2 微博及隱式微博11-14
  • 1.2.1 微博11-13
  • 1.2.2 隱式微博13-14
  • 1.3 微博主題挖掘的研究現(xiàn)狀14-16
  • 1.3.1 利用聚類方法挖掘微博主題14-15
  • 1.3.2 利用概率主題模型的方法挖掘微博主題15-16
  • 1.4 隱式微博主題挖掘的主要研究內(nèi)容及難點16-17
  • 1.4.1 隱式微博主題挖掘的主要研究內(nèi)容16
  • 1.4.2 隱式微博挖掘的難點16-17
  • 1.5 結構安排17-18
  • 1.6 本章小結18-19
  • 第二章 主題模型在微博數(shù)據(jù)上的應用19-30
  • 2.1 主題模型19-21
  • 2.1.1 主題模型的輸入19-20
  • 2.1.2 主題模型中的基本假設20
  • 2.1.3 主題模型的表示20-21
  • 2.1.4 新樣本的推斷21
  • 2.2 主題模型的參數(shù)估計21-22
  • 2.2.1 EM算法21-22
  • 2.2.2 Gibbs采樣22
  • 2.3 面向隱式微博的主題模型22-28
  • 2.3.1 概率主題模型的由來23
  • 2.3.2 LDA主題模型23-24
  • 2.3.3 面向微博的派生主題模型24-27
  • 2.3.4 考慮隱式微博的主題模型27-28
  • 2.4 各主題模型在微博文本建模上的方法比較28-29
  • 2.5 本章小結29-30
  • 第三章 面向隱式微博主題挖掘系統(tǒng)算法設計30-39
  • 3.1 相關定義30
  • 3.2 隱式微博顯式化方式探究30-32
  • 3.3 微博生成模型CGRMB-LDA模型32-37
  • 3.3.1 LDA主題模型中的建模算法32-33
  • 3.3.2 CGRMB-LDA模型微博主題生成過程33-37
  • 3.4 評價指標37-38
  • 3.4.1 人工評價Score37
  • 3.4.2 模型困惑度37-38
  • 3.5 本章小結38-39
  • 第四章 系統(tǒng)實現(xiàn)39-51
  • 4.1 系統(tǒng)總框架39-40
  • 4.2 獲取微博原始數(shù)據(jù)40-44
  • 4.2.1 微博開放平臺API40-41
  • 4.2.2 OAuth用戶身份認證41
  • 4.2.3 微博API數(shù)據(jù)獲取流程41-44
  • 4.3 隱式微博分詞44-46
  • 4.3.1 中文文本分詞44-45
  • 4.3.2 隱式微博的擴充分詞45-46
  • 4.4 隱式微博數(shù)據(jù)預處理46-47
  • 4.4.1 隱式微博停用詞去除46
  • 4.4.2 隱式微博縮寫詞和網(wǎng)絡符號替換46-47
  • 4.4.3 隱式微博情感詞擴充47
  • 4.5 使用CGRMB-LDA模型得到微博-主題-詞匯概率分布47-50
  • 4.5.1 得到CGRMB-LDA主題模型的輸入47-48
  • 4.5.2 得到CGRMB-LDA主題模型的輸出48-49
  • 4.5.3 CGRMB-LDA主題模型對新樣本中主題的預測49-50
  • 4.6 本章小結50-51
  • 第五章 實驗與結論51-60
  • 5.1 實驗結果51-55
  • 5.1.1 初始化分詞和數(shù)據(jù)預處理51-52
  • 5.1.2 隱式微博數(shù)據(jù)處理52
  • 5.1.3 CGRMB-LDA模型主題輸出52-55
  • 5.2 結果分析55-57
  • 5.3 CGRMB-LDA模型參數(shù)調(diào)整分析57-59
  • 5.3.1 隱式微博在評論轉(zhuǎn)發(fā)層級上擴充參數(shù)的影響57-58
  • 5.3.2 隱式微博在時間間隔參數(shù)上擴充參數(shù)的影響58-59
  • 5.4 本章小結59-60
  • 第六章 總結與展望60-61
  • 參考文獻61-66
  • 附錄1 攻讀碩士學位期間發(fā)表的學術論文66-67
  • 致謝67

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 高俊波;安博文;王曉峰;;在線論壇中潛在影響力主題的發(fā)現(xiàn)研究[J];計算機應用;2008年01期

2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設計與實現(xiàn)[J];計算機工程與應用;2005年31期

3 周亦鵬;杜軍平;;基于時空情境模型的主題跟蹤[J];華南理工大學學報(自然科學版);2012年08期

4 陳雄;都云程;李渝勤;施水才;;基于頁面結構分析的論壇主題信息定位方法研究[J];微計算機信息;2010年27期

5 關慧芬;師軍;;基于本體的主題爬蟲技術研究[J];計算機仿真;2009年10期

6 何利益;陸國鋒;羅鵬;;動態(tài)新聞主題信息推薦系統(tǒng)設計[J];指揮信息系統(tǒng)與技術;2013年04期

7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計算機研究與發(fā)展;2012年06期

8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學學報(自然科學版);2005年S1期

9 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報技術;2008年12期

10 朱夢麟;李光耀;周毅敏;;基于樹比較的Web頁面主題信息抽取[J];微型機與應用;2011年19期

中國重要會議論文全文數(shù)據(jù)庫 前7條

1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識別及表示[A];第五屆全國信息檢索學術會議論文集[C];2009年

2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2002年

3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學術會議論文集(上)[C];2008年

4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2007年

5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動提取[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年

6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復評論發(fā)現(xiàn)[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

7 曹紅;袁津生;;多領域主題搜索引擎研究[A];第一屆全國Web信息系統(tǒng)及其應用會議(WISA2004)論文集[C];2004年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 薛耀兵;科技文獻中的主題發(fā)現(xiàn)與趨勢預測[D];哈爾濱工業(yè)大學;2013年

2 陳浩;自定義主題信息抽取的研究與應用[D];大連理工大學;2008年

3 郭程;面向多樣性檢索的子主題挖掘技術的研究[D];沈陽航空航天大學;2014年

4 吳彥文;主題信息合理性、語境意義偏向性對漢語句子歧義消解的實驗研究[D];陜西師范大學;2002年

5 戴興虎;基于主題的學術網(wǎng)絡構建[D];浙江大學;2013年

6 吳曉娜;基于特征、先驗和約束的主題建模算法[D];蘇州大學;2014年

7 邸亮;基于主題模型的個性化信息推薦[D];北京工業(yè)大學;2014年

8 黃文強;安卓技術信息的主題爬蟲技術研究與實現(xiàn)[D];東南大學;2015年

9 陳千;主題網(wǎng)絡爬蟲關鍵技術的研究與應用[D];北京理工大學;2015年

10 亓曉青;Web挖掘中的主題模型擴展[D];北京郵電大學;2013年


  本文關鍵詞:面向隱式微博主題挖掘系統(tǒng)的設計與實現(xiàn),,由筆耕文化傳播整理發(fā)布。



本文編號:347955

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/347955.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶64580***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com