天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于主題樹的微博突發(fā)話題檢測

發(fā)布時間:2017-08-25 07:55

  本文關(guān)鍵詞:基于主題樹的微博突發(fā)話題檢測


  更多相關(guān)文章: 潛在狄利克雷分配 主題樹 語義相似度 空間向量模型 話題檢測


【摘要】:針對傳統(tǒng)話題檢測方法不能很好處理微博中用語不規(guī)范、隨意性強(qiáng)、指代不明確以及存在大量網(wǎng)絡(luò)用語的問題,提出了一種基于潛在狄利克雷分配(LDA)模型的主題樹檢測方法。首先,運(yùn)用自然語言處理(NLP)中增大信息熵的方法將相關(guān)微博整理成一棵主題樹,配合狄利克雷先驗α與經(jīng)驗值β隨主題數(shù)目動態(tài)變化的設(shè)計思想,結(jié)合該模型獨(dú)特的雙重概率統(tǒng)計模式,實現(xiàn)了對文本中每個詞"貢獻(xiàn)度"的統(tǒng)計,提前處理掉干擾信息,排除垃圾數(shù)據(jù)對話題檢測的影響;然后,利用該"貢獻(xiàn)度"作為空間向量模型(VSM)改進(jìn)后的參數(shù)值計算文檔間相似度來提取突發(fā)話題,達(dá)到提高突發(fā)話題檢測精準(zhǔn)度的目的。提出的基于LDA模型的主題樹檢測方法從F值比對與人工檢測兩個角度進(jìn)行了相關(guān)實驗,實驗數(shù)據(jù)顯示該算法不僅可以檢測到突發(fā)話題,而且獲得的結(jié)果與知網(wǎng)模型和TF-IDF算法相比分別高出3%、7%,且更符合人的判斷邏輯。
【作者單位】: 遼寧工程技術(shù)大學(xué)軟件學(xué)院;遼寧工程技術(shù)大學(xué)系統(tǒng)工程研究所;
【關(guān)鍵詞】潛在狄利克雷分配 主題樹 語義相似度 空間向量模型 話題檢測
【基金】:國家自然科學(xué)基金資助項目(70971059) 遼寧省創(chuàng)新團(tuán)隊項目(2009T045) 遼寧省高等學(xué)校杰出青年學(xué)者成長計劃項目(LJQ2012027)
【分類號】:TP393.092;TP391.1
【正文快照】: 0引言微博,即微博客的簡稱,其在博客的基礎(chǔ)上加以改進(jìn),使得微博更加大眾化、隨意化和簡短化[1],但隨之也帶來了許多問題:首先,微博的普遍化導(dǎo)致當(dāng)今微博的草根化(短文本中出現(xiàn)了較多的文法問題);其次,微博改進(jìn)后的簡短形式導(dǎo)致短文本中指代省略,引起指代不明確(短文本回帖多數(shù)

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 李建鋒;陳佳良;張美華;;一種基于聚類-遺傳算法的文摘提取方法研究[J];計算技術(shù)與自動化;2007年03期

2 李興鵬;秦昌友;;垃圾郵件綜合過濾系統(tǒng)的研究與設(shè)計[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年19期

3 熊桂喜;王開鋒;;基于語義的查詢擴(kuò)展研究[J];微計算機(jī)信息;2008年30期

4 黃立勤;語義集成在信息自動獲取系統(tǒng)中的實現(xiàn)[J];福州大學(xué)學(xué)報(自然科學(xué)版);2002年06期

5 時念云;楊晨;;基于領(lǐng)域本體的語義標(biāo)注方法研究[J];計算機(jī)工程與設(shè)計;2007年24期

6 蔡瑋;黃陳蓉;林忠;韓磊;;一種基于向量空間模型的主觀題批改算法[J];計算機(jī)與現(xiàn)代化;2008年12期

7 劉楊;陳暉;陳遠(yuǎn)江;;中文文本信息過濾技術(shù)研究[J];船電技術(shù);2010年07期

8 趙德平;蔡麗靜;李鵬;;基于Newshingling的相似文本檢測算法[J];沈陽建筑大學(xué)學(xué)報(自然科學(xué)版);2011年04期

9 張昌年;;一種基于VSM的檢測相似重復(fù)記錄的方法[J];微電子學(xué)與計算機(jī);2008年08期

10 林鴻飛,王劍峰;雙語交叉分類模型的設(shè)計與實現(xiàn)[J];中文信息學(xué)報;2001年06期

中國重要會議論文全文數(shù)據(jù)庫 前1條

1 唐國瑜;夏云慶;張民;鄭方;;基于跨語言廣義向量空間模型的跨語言文檔聚類方法[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條

1 閻紅燦;面向Web的XML文檔數(shù)據(jù)管理及分類檢索技術(shù)研究[D];天津大學(xué);2009年

2 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年

3 楊卉;Web文本觀點(diǎn)挖掘及隱含情感傾向的研究[D];吉林大學(xué);2011年

4 豆增發(fā);生物命名實體識別及生物文本分類[D];西安電子科技大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 疏興旺;基于地理本體的皖江岸線空間規(guī)劃決策研究[D];安徽農(nóng)業(yè)大學(xué);2012年

2 賈丙靜;聚類分析在Web文本挖掘中的應(yīng)用研究[D];遼寧工程技術(shù)大學(xué);2007年

3 潘啟蒙;文本聚類算法的研究與實現(xiàn)[D];吉林大學(xué);2008年

4 張艷;Web挖掘在搜索引擎?zhèn)性化中的應(yīng)用研究[D];合肥工業(yè)大學(xué);2008年

5 黃歡;達(dá)夢數(shù)據(jù)庫全文檢索關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2007年

6 劉玉新;Web2.0互聯(lián)網(wǎng)在線話題發(fā)現(xiàn)和熱度評估[D];華南理工大學(xué);2013年

7 顏小林;基于本體的Web頁面聚類挖掘[D];太原理工大學(xué);2007年

8 丁瓊;基于向量空間模型的文本自動分類系統(tǒng)的研究與實現(xiàn)[D];同濟(jì)大學(xué);2007年

9 王海寶;基于Web的在線考試系統(tǒng)的設(shè)計與實現(xiàn)[D];青島大學(xué);2007年

10 張瑜;基于本體的農(nóng)業(yè)科技信息用戶建模系統(tǒng)研究[D];中國農(nóng)業(yè)科學(xué)院;2009年



本文編號:735900

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/735900.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶78817***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com