微博熱點話題發(fā)現(xiàn)與話題演化的研究
【圖文】:
象 的 概 念, 是 描 述 一個 事 件 的 一方 面 , 它 是 通過 一 系列 詞 語 來表 現(xiàn) 的 。 例 如 假文 檔中 談 及的 話 題 主要 是 “微 軟” ,那 么 “比 爾 蓋 茨 ”、“操 作 系統(tǒng) ”等 這 些詞 語 篇 文檔 中 出現(xiàn) 的 概 率也 會 很高 ,同 樣 ,, 如 果這 個 話 題 為“ 小 米 ”,那 么 “ 雷軍 ” 、手 機” 這 些詞 出 現(xiàn) 在這 篇 文 檔 中的 概 率 也會 很 高 。但 在 “ 小 米 ”這 個 話 題 中, 比 爾蓋 茨 ”等這 些 詞 的概 率 就 比 較低 。 形 式化 來 描 述 下, 話題 就 是詞 上 的 條 件概 已 知一 個 詞的 前 提 下, 另 外 一 個詞 出 現(xiàn) 的概 率 。這 個條 件 概 率 越大 , 說 明 這個 題 的關 系 越密 切 。 相反 , 如 果 這個 條 件 概率 越 小 , 則它 們 之 間的 相 關 性 就不 強 : p (比 爾 蓋茨 |微 軟)=0.2p(比 爾蓋 茨|小 米)=0.00 00 0 1p ( 操 作 系統(tǒng) |微軟 )=0.1 5p( 操 作 系 統(tǒng)|小米 )=0.0 0 0 0 1p (雷 軍 |微軟 )=0.0 0 00 0 1 p(雷 軍 |小 米)=0.2形象 地 來 說, 一 個 話 題就 好 像 一個 “桶 ”,每 個 “ 桶” 里 面 裝著 很 多 詞 ,這 些 在 這個 “ 桶” 出 現(xiàn) 后, 經(jīng) 常 出 現(xiàn)在 這 個 “桶 ” 里面 的詞 , 也 就 是說 “ 桶 ” 和“ 面 的詞 的 相關 性 很 強。 對 于 整 個文 件 集 中, 有 些詞 往往 對 應 的 不是 一 個 桶 ,而 對 應 多 個桶 。 例 如圖 2. 4 所示 。
對微 博 文 本進 行 預 處 理, 主 要 有過 濾 停 用詞 和 詞 法 分析 兩 大 步驟 , 而 詞 法分 析 要 含有 分 詞、 標 注 詞性 以 及 識 別新 詞 這 幾項 內 容 。 針 對 話題 發(fā) 現(xiàn)的 研 究 工 作, 美 語 言 聯(lián) 合會 提 供 了 一些 處 理 好 的語 料 , 這 些 語料 都 是分 好 詞 了, 并 且標 注好 了 詞 , 然 而, 針 對 于 內 容雜 亂 的 微 博上 進 行 話題 發(fā) 現(xiàn)展 開的 研 究, 同 樣 也 需 要 在文 本 行 分析 詞 法、 分 詞 等步 驟 。 這 些步 驟 是 將文 本 表示 成向 量 模 型 的先 決 條 件 。在 中 詞 技術 上 ,國 內 的 很多 學 者 已 經(jīng)研 究 了 很多 年 ,并 且取 得 了 一 些好 的 成 果 ,使 得 對 中文 分 詞的 技 術 的研 究 已 經(jīng) 趨于 成 熟 。目 前 ,對 中文 的 分 詞 方法 大 概 分 為以 下 : 統(tǒng)計 分詞 方 法 [ 50 ]、對 詞 典進 行 分詞 的 方法 、 組合 分 詞 方法 、 理解 分 詞算 法 [ 51 ]。 采 用 的 分 詞 工 具 是 漢 語 詞 法 分 析 系 統(tǒng) IC T CL AS ( In s ti t ut e of C om pu t e c h no l og y C hi n es e L ex i ca l A na l ys i s Sy s t em ) , IC T CL A S 系 統(tǒng) 主 要 由 中 科 院 研[ 52 ],是 在 層 疊隱 馬 爾 可 夫模 型 的 基礎 上 實 現(xiàn)的 , 根 據(jù) 這個 模 型 對中 文 的 詞 進行 詞 析 , 這 其 中分 析 的內 容主 要 是標 注的 詞 性、 分 詞 、 識 別 新詞 等 ,I CT C LA S 系統(tǒng) 不 詞速 度 很快 , 分詞 的 準確 率 也高 , 可以 達 到 98 . 45 % [ 40 ]。 下圖 是 對一 個 普通 的 微文 本進 行 分詞 分 析 示 例, 如 圖 3 .2 所示 。
【學位授予單位】:桂林電子科技大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP393.092
【相似文獻】
相關期刊論文 前10條
1 袁伯秋;周一民;李林;;LDA模型參數(shù)有偏估計方法[J];小型微型計算機系統(tǒng);2010年04期
2 唐曉波;向坤;;基于LDA模型和微博熱度的熱點挖掘[J];圖書情報工作;2014年05期
3 曹娟;張勇東;李錦濤;唐勝;;一種基于密度的自適應最優(yōu)LDA模型選擇方法[J];計算機學報;2008年10期
4 王嘉琦;徐朝軍;李藝;;基于LDA模型的社交網(wǎng)站自動量化評價研究[J];現(xiàn)代圖書情報技術;2013年03期
5 楚克明;李芳;;基于LDA模型的新聞話題的演化[J];計算機應用與軟件;2011年04期
6 石大文;張暉;;基于LDA模型的BBS話題演化[J];工業(yè)控制計算機;2012年05期
7 孫世杰;濮建忠;;基于LDA模型的Twitter中文微博熱點主題詞組發(fā)現(xiàn)[J];洛陽師范學院學報;2012年11期
8 石晶;胡明;石鑫;戴國忠;;基于LDA模型的文本分割[J];計算機學報;2008年10期
9 李保利;楊星;;基于LDA模型和話題過濾的研究主題演化分析[J];小型微型計算機系統(tǒng);2012年12期
10 ;[J];;年期
相關會議論文 前1條
1 丁兆云;王暉;;一種詞位置相關的LDA模型[A];2013第一屆中國指揮控制大會論文集[C];2013年
相關碩士學位論文 前2條
1 張?zhí)锾?基于LDA模型的實體解析技術的研究與實現(xiàn)[D];北京郵電大學;2013年
2 彭利斌;微博熱點話題發(fā)現(xiàn)與話題演化的研究[D];桂林電子科技大學;2014年
本文編號:2547381
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2547381.html