天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 廣告藝術(shù)論文 >

基于微博熱詞挖掘的新聞話題提取研究

發(fā)布時間:2017-10-29 15:18

  本文關(guān)鍵詞:基于微博熱詞挖掘的新聞話題提取研究


  更多相關(guān)文章: 微博熱詞 新聞話題 OAuth協(xié)議 LDA模型 概率主題模型


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,傳統(tǒng)的媒體技術(shù)格局已經(jīng)逐漸改變,基于互聯(lián)網(wǎng)新興媒體技術(shù)具有傳播速度快、透明度高的特點,微博已經(jīng)成為互聯(lián)網(wǎng)上新聞傳播最快捷的媒體之一,越來越受到年輕人的喜歡。微博的出現(xiàn)為新聞話題的發(fā)現(xiàn)提供了一種新的方式和思路,F(xiàn)有的新聞挖掘模型和算法主要是通過抓取網(wǎng)頁信息來獲取,并存在數(shù)據(jù)更新慢、實時性差、挖掘準(zhǔn)確率低等問題。通過微博熱詞挖掘提供新聞話題具有一定的現(xiàn)實意義。 本文通過分析一系列的基礎(chǔ)理論和技術(shù),建立了基于LDA的概率主題模型,,用于對微博數(shù)據(jù)進行熱詞挖掘和分析。論文設(shè)計了一個支持動態(tài)頁面的網(wǎng)頁文本爬蟲算法。算法首先分析網(wǎng)頁中的JavaScript文件或代碼,使用HTTP協(xié)議向服務(wù)發(fā)送特定的信息請求,這種方式類似于行為人瀏覽網(wǎng)頁信息的方式,能夠高效的分析出網(wǎng)頁異步加載的信息內(nèi)容。同時,論文提供了一套對微博數(shù)據(jù)信息中重復(fù)微博和廣告微博進行過濾的方法,并提出了熱詞計算的公式。在使用基于LDA的概率主體模型獲取微博熱詞后,通過綜合分析每個主題詞的廣泛性和突發(fā)性,計算每個單義詞單元對應(yīng)的主題詞的熱度,確定新聞話題,并返回至用戶使用。 本文主要研究工作包括以下幾個方面。 建立了合適有效的數(shù)據(jù)采集和文本預(yù)處理模型,設(shè)計支持動態(tài)頁面的網(wǎng)頁文本爬蟲算法,用于微博數(shù)據(jù)的采集,并以新浪微博為例,通過開放平臺獲取微博數(shù)據(jù),對采集的數(shù)據(jù)使用ICTCLAS系統(tǒng)進行分析處理,并進行去停用詞處理,最后將預(yù)處理結(jié)果進行文本特征表示; 通過建立基于LDA的概率主題模型確定最終的文本主題作為新聞話題。經(jīng)過實驗測評顯示,本文中提出的基于LDA的概率主題模型通過微博數(shù)據(jù)能夠有效提取微博熱詞,從而確定新聞話題。
【關(guān)鍵詞】:微博熱詞 新聞話題 OAuth協(xié)議 LDA模型 概率主題模型
【學(xué)位授予單位】:湖南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
  • 摘要5-6
  • Abstract6-10
  • 插圖索引10-11
  • 附表索引11-12
  • 第1章 緒論12-18
  • 1.1 研究目的和意義12-14
  • 1.1.1 研究的目的12
  • 1.1.2 研究的意義12-14
  • 1.2 國內(nèi)外研究現(xiàn)狀14-16
  • 1.2.1 國外研究現(xiàn)狀14-15
  • 1.2.2 國內(nèi)研究現(xiàn)狀15-16
  • 1.3 研究目標(biāo)、組織結(jié)構(gòu)及主要內(nèi)容16-18
  • 1.3.1 研究目標(biāo)16-17
  • 1.3.2 論文組織結(jié)構(gòu)及主要內(nèi)容17-18
  • 第2章 基礎(chǔ)理論及相關(guān)技術(shù)分析18-26
  • 2.1 微博及數(shù)據(jù)特點分析18-20
  • 2.1.1 微博簡介18-19
  • 2.1.2 微博數(shù)據(jù)特點分析19-20
  • 2.2 常用微博熱詞發(fā)現(xiàn)方法20-21
  • 2.3 網(wǎng)頁文本抽取及網(wǎng)絡(luò)爬蟲21-23
  • 2.3.1 PAT-Tree 技術(shù)21-22
  • 2.3.2 網(wǎng)頁文本抽取技術(shù)22-23
  • 2.4 文本聚類和分類23-25
  • 2.4.1 文本信息聚類23-24
  • 2.4.2 文本信息分類24-25
  • 2.5 本章小結(jié)25-26
  • 第3章 微博數(shù)據(jù)采集及文本預(yù)處理26-39
  • 3.1 網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)26-32
  • 3.1.1 動態(tài)頁面網(wǎng)絡(luò)爬蟲算法26-29
  • 3.1.2 網(wǎng)頁文本信息抽取29-31
  • 3.1.3 對比分析31-32
  • 3.2 微博數(shù)據(jù)采集32-35
  • 3.2.1 新浪微博開放平臺32-33
  • 3.2.2 OAuth 2.0 協(xié)議33-34
  • 3.2.3 基于新浪 API 獲取微博數(shù)據(jù)34-35
  • 3.3 文本預(yù)處理35-37
  • 3.3.1 分詞處理35-36
  • 3.3.2 ICTCLAS 系統(tǒng)分詞36-37
  • 3.3.3 去停用詞37
  • 3.4 文本特征選擇及表示37-38
  • 3.5 本章小結(jié)38-39
  • 第4章 微博熱詞的挖掘與新聞話題的提取39-51
  • 4.1 文本表示模型39-40
  • 4.2 文本相似度計算40-41
  • 4.3 微博信息過濾41-43
  • 4.3.1 過濾重復(fù)微博41-42
  • 4.3.2 過濾廣告微博42-43
  • 4.4 基于 LDA 的概率主體模型43-47
  • 4.4.1 概率主題模型分析43-44
  • 4.4.2 LDA 文檔建模44-45
  • 4.4.3 確定最優(yōu)參數(shù)45
  • 4.4.4 熱度計算45-47
  • 4.5 實驗結(jié)果分析47-50
  • 4.5.1 數(shù)據(jù)準(zhǔn)備47
  • 4.5.2 測評方法47-48
  • 4.5.3 結(jié)果分析48-50
  • 4.6 本章小結(jié)50-51
  • 結(jié)論51-53
  • 參考文獻53-56
  • 致謝56

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 陽小蘭;錢程;趙海廷;;Web文本預(yù)處理技術(shù)探析[J];電腦知識與技術(shù);2010年29期

2 蔡淑琴;張靜;王e

本文編號:1113532


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1113532.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶096ed***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com