天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

微博熱點話題發(fā)現(xiàn)與話題演化的研究

發(fā)布時間:2019-10-11 07:49
【摘要】:近年來,由于網(wǎng)絡技術的廣泛普及與迅猛發(fā)展,網(wǎng)絡上信息的傳播速度與網(wǎng)絡中信息量的規(guī)?涨熬薮蟆W鳛橐环N新興的社會網(wǎng)絡媒體,微博已逐步成為人們獲取信息的重要來源。由于微博發(fā)布的內容很簡短,并且可以在各種終端上發(fā)布微博信息,造成了在微博平臺上短時間內會產(chǎn)生大量微博數(shù)據(jù)。如果僅僅通過人工來處理微博上這些數(shù)量巨大且雜亂無章的信息內容,不僅會大大增加工作量,而且很難為用戶提供及時、準確又感興趣的微博信息。微博熱點話題發(fā)現(xiàn)技術就是一項能夠針對微博中的海量信息進行處理、分析的技術,能及時將用戶最感興趣的信息展現(xiàn)給用戶。 傳統(tǒng)的熱點話題發(fā)現(xiàn)技術使用最廣泛的方法是基于空間向量模型,該方法在話題發(fā)現(xiàn)領域取得了很好的效果,但是在處理微博這樣內容雜亂且文本短小的信息時,還存在不足。在聚類算法中計算詞相似度的時候僅僅考慮了詞的語義相似度,并沒有考慮那些雖然在語義上不相似,但同時出現(xiàn)的頻率很高的詞(本文稱為上下文式相似度)。本文借鑒傳統(tǒng)的熱點話題發(fā)現(xiàn)方法,針對微博的本身特性,提出一種基于綜合相似度的熱點話題發(fā)現(xiàn)算法。在真實微博數(shù)據(jù)中進行的實驗表明,該方法能較有效的發(fā)現(xiàn)微博中的熱點話題。 其次,本文從話題模型的角度對微博話題的發(fā)現(xiàn)展開了研究。通過將傳統(tǒng)的LDA(LatentDirichletAllocation)模型擴展到適合微博的MLDA(MicroblogLatentDirichletAllocation)模型。MLDA模型是將微博作者之間的關系、話題標簽、微博文本之間的關聯(lián)關系擴展到LDA模型中的。運用GibbsSampling算法進行參數(shù)估計,獲取文檔-話題和話題-詞的分布。 最后,論文分析了微博話題的演化。根據(jù)MLDA模型發(fā)現(xiàn)出微博的話題,從話題強度和話題內容遷移兩個方面分析微博話題的演化。實驗證明該方法能有效抽取微博話題,從而能夠很好描述微博話題的演化歷程。根據(jù)以上研究的成果,本文還在真實的微博數(shù)據(jù)上進行實驗,通過實驗,驗證了上述工作的有效性。
【圖文】:

示意圖,示意圖,微軟,小米


象 的 概 念, 是 描 述 一個 事 件 的 一方 面 , 它 是 通過 一 系列 詞 語 來表 現(xiàn) 的 。 例 如 假文 檔中 談 及的 話 題 主要 是 “微 軟” ,那 么 “比 爾 蓋 茨 ”、“操 作 系統(tǒng) ”等 這 些詞 語 篇 文檔 中 出現(xiàn) 的 概 率也 會 很高 ,同 樣 ,, 如 果這 個 話 題 為“ 小 米 ”,那 么 “ 雷軍 ” 、手 機” 這 些詞 出 現(xiàn) 在這 篇 文 檔 中的 概 率 也會 很 高 。但 在 “ 小 米 ”這 個 話 題 中, 比 爾蓋 茨 ”等這 些 詞 的概 率 就 比 較低 。 形 式化 來 描 述 下, 話題 就 是詞 上 的 條 件概 已 知一 個 詞的 前 提 下, 另 外 一 個詞 出 現(xiàn) 的概 率 。這 個條 件 概 率 越大 , 說 明 這個 題 的關 系 越密 切 。 相反 , 如 果 這個 條 件 概率 越 小 , 則它 們 之 間的 相 關 性 就不 強 : p (比 爾 蓋茨 |微 軟)=0.2p(比 爾蓋 茨|小 米)=0.00 00 0 1p ( 操 作 系統(tǒng) |微軟 )=0.1 5p( 操 作 系 統(tǒng)|小米 )=0.0 0 0 0 1p (雷 軍 |微軟 )=0.0 0 00 0 1 p(雷 軍 |小 米)=0.2形象 地 來 說, 一 個 話 題就 好 像 一個 “桶 ”,每 個 “ 桶” 里 面 裝著 很 多 詞 ,這 些 在 這個 “ 桶” 出 現(xiàn) 后, 經(jīng) 常 出 現(xiàn)在 這 個 “桶 ” 里面 的詞 , 也 就 是說 “ 桶 ” 和“ 面 的詞 的 相關 性 很 強。 對 于 整 個文 件 集 中, 有 些詞 往往 對 應 的 不是 一 個 桶 ,而 對 應 多 個桶 。 例 如圖 2. 4 所示 。

示例,中文,詞性,語料


對微 博 文 本進 行 預 處 理, 主 要 有過 濾 停 用詞 和 詞 法 分析 兩 大 步驟 , 而 詞 法分 析 要 含有 分 詞、 標 注 詞性 以 及 識 別新 詞 這 幾項 內 容 。 針 對 話題 發(fā) 現(xiàn)的 研 究 工 作, 美 語 言 聯(lián) 合會 提 供 了 一些 處 理 好 的語 料 , 這 些 語料 都 是分 好 詞 了, 并 且標 注好 了 詞 , 然 而, 針 對 于 內 容雜 亂 的 微 博上 進 行 話題 發(fā) 現(xiàn)展 開的 研 究, 同 樣 也 需 要 在文 本 行 分析 詞 法、 分 詞 等步 驟 。 這 些步 驟 是 將文 本 表示 成向 量 模 型 的先 決 條 件 。在 中 詞 技術 上 ,國 內 的 很多 學 者 已 經(jīng)研 究 了 很多 年 ,并 且取 得 了 一 些好 的 成 果 ,使 得 對 中文 分 詞的 技 術 的研 究 已 經(jīng) 趨于 成 熟 。目 前 ,對 中文 的 分 詞 方法 大 概 分 為以 下 : 統(tǒng)計 分詞 方 法 [ 50 ]、對 詞 典進 行 分詞 的 方法 、 組合 分 詞 方法 、 理解 分 詞算 法 [ 51 ]。 采 用 的 分 詞 工 具 是 漢 語 詞 法 分 析 系 統(tǒng) IC T CL AS ( In s ti t ut e of C om pu t e c h no l og y C hi n es e L ex i ca l A na l ys i s Sy s t em ) , IC T CL A S 系 統(tǒng) 主 要 由 中 科 院 研[ 52 ],是 在 層 疊隱 馬 爾 可 夫模 型 的 基礎 上 實 現(xiàn)的 , 根 據(jù) 這個 模 型 對中 文 的 詞 進行 詞 析 , 這 其 中分 析 的內 容主 要 是標 注的 詞 性、 分 詞 、 識 別 新詞 等 ,I CT C LA S 系統(tǒng) 不 詞速 度 很快 , 分詞 的 準確 率 也高 , 可以 達 到 98 . 45 % [ 40 ]。 下圖 是 對一 個 普通 的 微文 本進 行 分詞 分 析 示 例, 如 圖 3 .2 所示 。
【學位授予單位】:桂林電子科技大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP393.092

【相似文獻】

相關期刊論文 前10條

1 袁伯秋;周一民;李林;;LDA模型參數(shù)有偏估計方法[J];小型微型計算機系統(tǒng);2010年04期

2 唐曉波;向坤;;基于LDA模型和微博熱度的熱點挖掘[J];圖書情報工作;2014年05期

3 曹娟;張勇東;李錦濤;唐勝;;一種基于密度的自適應最優(yōu)LDA模型選擇方法[J];計算機學報;2008年10期

4 王嘉琦;徐朝軍;李藝;;基于LDA模型的社交網(wǎng)站自動量化評價研究[J];現(xiàn)代圖書情報技術;2013年03期

5 楚克明;李芳;;基于LDA模型的新聞話題的演化[J];計算機應用與軟件;2011年04期

6 石大文;張暉;;基于LDA模型的BBS話題演化[J];工業(yè)控制計算機;2012年05期

7 孫世杰;濮建忠;;基于LDA模型的Twitter中文微博熱點主題詞組發(fā)現(xiàn)[J];洛陽師范學院學報;2012年11期

8 石晶;胡明;石鑫;戴國忠;;基于LDA模型的文本分割[J];計算機學報;2008年10期

9 李保利;楊星;;基于LDA模型和話題過濾的研究主題演化分析[J];小型微型計算機系統(tǒng);2012年12期

10 ;[J];;年期

相關會議論文 前1條

1 丁兆云;王暉;;一種詞位置相關的LDA模型[A];2013第一屆中國指揮控制大會論文集[C];2013年

相關碩士學位論文 前2條

1 張?zhí)锾?基于LDA模型的實體解析技術的研究與實現(xiàn)[D];北京郵電大學;2013年

2 彭利斌;微博熱點話題發(fā)現(xiàn)與話題演化的研究[D];桂林電子科技大學;2014年



本文編號:2547381

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2547381.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶74522***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
久久国产精品热爱视频| 国产女同精品一区二区| 国产精品欧美一区二区三区不卡| 日韩一区二区三区高清在| 欧美日韩人妻中文一区二区 | 精品一区二区三区乱码中文| 国产精品一区二区香蕉视频| 女人精品内射国产99| 搡老熟女老女人一区二区| 中文人妻精品一区二区三区四区| 国产日韩欧美在线亚洲| 久久精品亚洲精品国产欧美| 日本丁香婷婷欧美激情| 视频在线免费观看你懂的| 久久99爱爱视频视频| 久久夜色精品国产高清不卡| 两性色午夜天堂免费视频| 亚洲精品中文字幕在线视频| 国产肥女老熟女激情视频一区| 亚洲超碰成人天堂涩涩| 又色又爽又黄的三级视频| 99热在线播放免费观看| 国产精品一区二区传媒蜜臀| 欧美日韩国产综合特黄| 国产精品乱子伦一区二区三区| 亚洲天堂一区在线播放| 欧美中文字幕日韩精品| 日韩毛片视频免费观看| 日韩在线免费看中文字幕| 日本在线视频播放91| 在线免费国产一区二区三区| 国产午夜免费在线视频| 熟女少妇久久一区二区三区| 欧美综合色婷婷欧美激情| 国产男女激情在线视频| 日韩成人中文字幕在线一区| 91人妻人人揉人人澡人| 中文字幕高清不卡一区| 亚洲欧美日本成人在线| 日韩欧美91在线视频| 国产日韩在线一二三区|