基于微博topic摘要的話題跟蹤算法
發(fā)布時間:2021-03-03 17:10
微博由于其自身的龐大的用戶群體、隨時隨地的參與討論方式以及隨意的表達(dá)方式使其信息突顯出碎片性以及時效性等特點。因此,用戶無法快速地從龐雜的微博信息中獲取當(dāng)前話題的主要內(nèi)容、成因以及發(fā)展結(jié)果。為了解決這一問題,本文提出了基于微博topic摘要的話題跟蹤算法。該算法主要結(jié)合微博文本的特征以及用戶的需求對話題跟蹤的傳統(tǒng)流程(預(yù)處理、構(gòu)建文本模型、相似度分析以及話題漂移檢測)分別進行改進。首先提出了基于傳統(tǒng)統(tǒng)計量和N元增量算法的新登陸詞提取算法使預(yù)處理的中文分詞更加精確;然后提出了微博topic的構(gòu)建以及優(yōu)化算法使文本模型更加詳細(xì);最后通過相似度分析實現(xiàn)了微博話題的自適應(yīng)跟蹤以及話題漂移檢測。本文主要研究內(nèi)容如下。(1)提出了基于傳統(tǒng)統(tǒng)計量和N元增量算法的新登陸詞提取算法,從而彌補僅用傳統(tǒng)統(tǒng)計量無法有效地提取新登陸詞的缺點。首先通過分析微博文本中詞語的左右熵將微博文本中的頻繁常用詞并入傳統(tǒng)的停用詞,形成類停用詞表。然后,通過改進的統(tǒng)計量在尋找頻繁字串的同時過濾文本垃圾串。(2)提出了微博topic摘要的構(gòu)建以及優(yōu)化算法。首先通過對詞語的TF-IDF值和詞信息(詞項信息,詞間信息)進行統(tǒng)計分析提...
【文章來源】:安徽理工大學(xué)安徽省
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1話題跟蹤的基本流程圖??Fig.?2-1?Basic?Flow?Chart?for?Topic?Tracking??如圖2-1所示,本文提出的話題£艮蹤主要分為預(yù)處理、構(gòu)建文本模型、相似度分析以及??
/非負(fù)實數(shù)賦予召回率權(quán)重是賦予準(zhǔn)確率權(quán)重的,倍。一和不相關(guān)文檔混雜的情況下,還是要比檢索不到相關(guān)文檔要好一法更側(cè)重于準(zhǔn)確率,而把召回率放在一個相對次要的地位,即;^法??主要目的是從測試文本中提取頻繁N字串1)。因此,N元過對測試文本進行掃描建立單字索引(索引包括單字,單字頻率以個地址信息)。通過將單字詞頻與閾值相比較,從而判斷該單字是索引進行過濾得到頻繁單字索引。??據(jù)每個頻繁單字的地址信息掃描語料將單字向右進行二字?jǐn)U展,字串進行判斷并且過濾得到頻繁二字索引。??產(chǎn)生的頻繁字串繼續(xù)向右擴展并過濾,反復(fù)迭代,直到出現(xiàn)間隔
圖2-3無權(quán)圖舉例??
【參考文獻(xiàn)】:
期刊論文
[1]基于擴展規(guī)則與統(tǒng)計特征的未登錄詞識別[J]. 曾浩,詹恩奇,鄭建彬,汪陽. 計算機應(yīng)用研究. 2019(09)
[2]基于子字單元的神經(jīng)機器翻譯未登錄詞翻譯分析[J]. 韓冬,李軍輝,熊德意,周國棟. 中文信息學(xué)報. 2018(04)
[3]網(wǎng)絡(luò)熱門話題的跟蹤建模與檢測分析[J]. 李晶. 現(xiàn)代電子技術(shù). 2018(03)
[4]A New Word Clustering Algorithm Based on Word Similarity[J]. YUAN Lichi. Chinese Journal of Electronics. 2017(06)
[5]基于雙態(tài)模型的微博話題跟蹤方法研究[J]. 陳紅陽,汪林林,魯江坤,唐志,王飛雪. 計算機工程與應(yīng)用. 2017(16)
[6]基于圖論的無監(jiān)督區(qū)域遙感圖像檢索算法研究[J]. 李麗萍,趙傳榮,孔德仁,王芳. 計算機科學(xué). 2017(07)
[7]結(jié)合節(jié)點度和節(jié)點聚類系數(shù)的鏈路預(yù)測算法[J]. 高楊,張燕平,錢付蘭,趙姝. 小型微型計算機系統(tǒng). 2017(07)
[8]一種融合用戶關(guān)系的自適應(yīng)微博話題跟蹤方法[J]. 柏文言,張闖,徐克付,張志明. 電子學(xué)報. 2017(06)
[9]基于未登錄詞識別的微博評價短語抽取方法[J]. 汪龍慶,張超,宋暉,劉振宇. 計算機應(yīng)用與軟件. 2017(06)
[10]使用無監(jiān)督學(xué)習(xí)改進中文分詞[J]. 沈翔翔,李小勇. 小型微型計算機系統(tǒng). 2017(04)
本文編號:3061621
【文章來源】:安徽理工大學(xué)安徽省
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1話題跟蹤的基本流程圖??Fig.?2-1?Basic?Flow?Chart?for?Topic?Tracking??如圖2-1所示,本文提出的話題£艮蹤主要分為預(yù)處理、構(gòu)建文本模型、相似度分析以及??
/非負(fù)實數(shù)賦予召回率權(quán)重是賦予準(zhǔn)確率權(quán)重的,倍。一和不相關(guān)文檔混雜的情況下,還是要比檢索不到相關(guān)文檔要好一法更側(cè)重于準(zhǔn)確率,而把召回率放在一個相對次要的地位,即;^法??主要目的是從測試文本中提取頻繁N字串1)。因此,N元過對測試文本進行掃描建立單字索引(索引包括單字,單字頻率以個地址信息)。通過將單字詞頻與閾值相比較,從而判斷該單字是索引進行過濾得到頻繁單字索引。??據(jù)每個頻繁單字的地址信息掃描語料將單字向右進行二字?jǐn)U展,字串進行判斷并且過濾得到頻繁二字索引。??產(chǎn)生的頻繁字串繼續(xù)向右擴展并過濾,反復(fù)迭代,直到出現(xiàn)間隔
圖2-3無權(quán)圖舉例??
【參考文獻(xiàn)】:
期刊論文
[1]基于擴展規(guī)則與統(tǒng)計特征的未登錄詞識別[J]. 曾浩,詹恩奇,鄭建彬,汪陽. 計算機應(yīng)用研究. 2019(09)
[2]基于子字單元的神經(jīng)機器翻譯未登錄詞翻譯分析[J]. 韓冬,李軍輝,熊德意,周國棟. 中文信息學(xué)報. 2018(04)
[3]網(wǎng)絡(luò)熱門話題的跟蹤建模與檢測分析[J]. 李晶. 現(xiàn)代電子技術(shù). 2018(03)
[4]A New Word Clustering Algorithm Based on Word Similarity[J]. YUAN Lichi. Chinese Journal of Electronics. 2017(06)
[5]基于雙態(tài)模型的微博話題跟蹤方法研究[J]. 陳紅陽,汪林林,魯江坤,唐志,王飛雪. 計算機工程與應(yīng)用. 2017(16)
[6]基于圖論的無監(jiān)督區(qū)域遙感圖像檢索算法研究[J]. 李麗萍,趙傳榮,孔德仁,王芳. 計算機科學(xué). 2017(07)
[7]結(jié)合節(jié)點度和節(jié)點聚類系數(shù)的鏈路預(yù)測算法[J]. 高楊,張燕平,錢付蘭,趙姝. 小型微型計算機系統(tǒng). 2017(07)
[8]一種融合用戶關(guān)系的自適應(yīng)微博話題跟蹤方法[J]. 柏文言,張闖,徐克付,張志明. 電子學(xué)報. 2017(06)
[9]基于未登錄詞識別的微博評價短語抽取方法[J]. 汪龍慶,張超,宋暉,劉振宇. 計算機應(yīng)用與軟件. 2017(06)
[10]使用無監(jiān)督學(xué)習(xí)改進中文分詞[J]. 沈翔翔,李小勇. 小型微型計算機系統(tǒng). 2017(04)
本文編號:3061621
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3061621.html
最近更新
教材專著