天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于倒排索引的微博話題檢測

發(fā)布時(shí)間:2021-06-27 10:05
  隨著微博這種新興的社交平臺(tái)迅速發(fā)展,越來越多的用戶使用,并且在上面發(fā)布事件信息,由于微博的傳播速度非常迅速,對新聞傳播的意義非常大,從微博數(shù)據(jù)中發(fā)現(xiàn)熱點(diǎn)事件有著極大的需求。但是由于微博數(shù)據(jù)擁有規(guī)模大、噪聲多、文本較短等特點(diǎn),給話題檢測與跟蹤帶來了巨大的挑戰(zhàn)。本文在別人研究關(guān)于話題檢測與跟蹤的基礎(chǔ)上,分析傳統(tǒng)的話題檢測與跟蹤算法的缺點(diǎn),提出一個(gè)基于倒排索引的方法來提高算法的處理速度,但不降低算法的精度。通過對微博數(shù)據(jù)分析,人工建立一些規(guī)則對微博數(shù)據(jù)進(jìn)行噪聲處理。然后對數(shù)據(jù)建立倒排索引,并進(jìn)行話題檢測與跟蹤。對于每天獲取的新的事件,根據(jù)事件的熵值和用戶數(shù)量對事件進(jìn)行排序,將列表前20的事件與之前的舊事件進(jìn)行合并。在合并之前,利用基于衰老理論的方法來得到需要合并的舊事件集合。本文同時(shí)分析了AP聚類算法在微博數(shù)據(jù)集上的結(jié)果。為了驗(yàn)證算法效率的提升,本文通過在不同級別的數(shù)據(jù)集上對比傳統(tǒng)的SINGLE-PASS算法和基于倒排索引的改進(jìn)算法的處理時(shí)間,通過實(shí)驗(yàn)對比得知,基于倒排索引改進(jìn)的算法能達(dá)到6-7倍的速度提升,性能遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的文本聚類算法。由于實(shí)驗(yàn)沒有標(biāo)準(zhǔn)的語料集合,本文通過人工標(biāo)注的方式獲... 

【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:62 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 課題研究的目的和意義
    1.2 國內(nèi)外相關(guān)技術(shù)及研究現(xiàn)狀
        1.2.1 TDT概述及任務(wù)
        1.2.2 熱點(diǎn)事件發(fā)現(xiàn)及跟蹤相關(guān)研究
        1.2.3 關(guān)于微博的研究現(xiàn)狀
    1.3 本文主要研究內(nèi)容
第2章 相關(guān)技術(shù)介紹
    2.1 微博數(shù)據(jù)的預(yù)處理
        2.1.1 微博文檔的表示方式
        2.1.2 文檔相似度計(jì)算方法
        2.1.3 話題的表示和相似度計(jì)算
        2.1.4 噪聲處理
    2.2 相關(guān)算法的介紹
        2.2.1 AP聚類算法
        2.2.2 倒排索引算法
        2.2.3 子話題合并
        2.2.4 話題結(jié)果的表示
        2.2.5 過濾話題無關(guān)的結(jié)果
    2.3 本章小結(jié)
第3章 微博話題檢測與跟蹤算法
    3.1 算法的處理流程
    3.2 噪聲處理
    3.3 倒排索引的建立
    3.4 話題檢測與跟蹤算法
    3.5 AP聚類算法
    3.6 本章小結(jié)
第4章 系統(tǒng)實(shí)現(xiàn)
    4.1 微博數(shù)據(jù)的收集及整理
        4.1.1 數(shù)據(jù)收集
        4.1.2 數(shù)據(jù)整理
    4.2 熱點(diǎn)事件發(fā)現(xiàn)
    4.3 數(shù)據(jù)存儲(chǔ)及展示
    4.4 本章小結(jié)
第5章 實(shí)驗(yàn)結(jié)果分析
    5.1 實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)數(shù)據(jù)獲取
        5.1.1 實(shí)驗(yàn)環(huán)境
        5.1.2 實(shí)驗(yàn)數(shù)據(jù)獲得
        5.1.3 評測方法
    5.2 實(shí)驗(yàn)結(jié)果對比
        5.2.1 算法速度提升
        5.2.2 精度對比
    5.3 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝


【參考文獻(xiàn)】:
期刊論文
[1]話題檢測與跟蹤的評測及研究綜述[J]. 洪宇,張宇,劉挺,李生.  中文信息學(xué)報(bào). 2007(06)
[2]基于改進(jìn)向量空間模型的話題識別與跟蹤[J]. 宋丹,王衛(wèi)東,陳英.  計(jì)算機(jī)技術(shù)與發(fā)展. 2006(09)
[3]話題識別與跟蹤中的層次化話題識別技術(shù)研究[J]. 于滿泉,駱衛(wèi)華,許洪波,白碩.  計(jì)算機(jī)研究與發(fā)展. 2006(03)
[4]基于多策略優(yōu)化的分治多層聚類算法的話題發(fā)現(xiàn)研究[J]. 駱衛(wèi)華,于滿泉,許洪波,王斌,程學(xué)旗.  中文信息學(xué)報(bào). 2006(01)
[5]一種基于動(dòng)態(tài)進(jìn)化模型的事件探測和追蹤算法[J]. 賈自艷,何清,張?,李嘉佑,史忠植.  計(jì)算機(jī)研究與發(fā)展. 2004(07)
[6]話題識別與跟蹤研究[J]. 李保利,俞士汶.  計(jì)算機(jī)工程與應(yīng)用. 2003(17)
[7]面向動(dòng)態(tài)演化的話題檢測研究[J]. 趙華,趙鐵軍,于浩,張姝.  高技術(shù)通訊. 2006 (12)
[8]基于HowNet的話題跟蹤及傾向性分類研究[J]. 金珠,林鴻飛,趙晶.  情報(bào)學(xué)報(bào). 2005 (05)



本文編號:3252644

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3252644.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b1250***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com