基于倒排索引的微博話題檢測(cè)
發(fā)布時(shí)間:2021-06-27 10:05
隨著微博這種新興的社交平臺(tái)迅速發(fā)展,越來(lái)越多的用戶使用,并且在上面發(fā)布事件信息,由于微博的傳播速度非常迅速,對(duì)新聞傳播的意義非常大,從微博數(shù)據(jù)中發(fā)現(xiàn)熱點(diǎn)事件有著極大的需求。但是由于微博數(shù)據(jù)擁有規(guī)模大、噪聲多、文本較短等特點(diǎn),給話題檢測(cè)與跟蹤帶來(lái)了巨大的挑戰(zhàn)。本文在別人研究關(guān)于話題檢測(cè)與跟蹤的基礎(chǔ)上,分析傳統(tǒng)的話題檢測(cè)與跟蹤算法的缺點(diǎn),提出一個(gè)基于倒排索引的方法來(lái)提高算法的處理速度,但不降低算法的精度。通過(guò)對(duì)微博數(shù)據(jù)分析,人工建立一些規(guī)則對(duì)微博數(shù)據(jù)進(jìn)行噪聲處理。然后對(duì)數(shù)據(jù)建立倒排索引,并進(jìn)行話題檢測(cè)與跟蹤。對(duì)于每天獲取的新的事件,根據(jù)事件的熵值和用戶數(shù)量對(duì)事件進(jìn)行排序,將列表前20的事件與之前的舊事件進(jìn)行合并。在合并之前,利用基于衰老理論的方法來(lái)得到需要合并的舊事件集合。本文同時(shí)分析了AP聚類算法在微博數(shù)據(jù)集上的結(jié)果。為了驗(yàn)證算法效率的提升,本文通過(guò)在不同級(jí)別的數(shù)據(jù)集上對(duì)比傳統(tǒng)的SINGLE-PASS算法和基于倒排索引的改進(jìn)算法的處理時(shí)間,通過(guò)實(shí)驗(yàn)對(duì)比得知,基于倒排索引改進(jìn)的算法能達(dá)到6-7倍的速度提升,性能遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的文本聚類算法。由于實(shí)驗(yàn)沒(méi)有標(biāo)準(zhǔn)的語(yǔ)料集合,本文通過(guò)人工標(biāo)注的方式獲...
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究的目的和意義
1.2 國(guó)內(nèi)外相關(guān)技術(shù)及研究現(xiàn)狀
1.2.1 TDT概述及任務(wù)
1.2.2 熱點(diǎn)事件發(fā)現(xiàn)及跟蹤相關(guān)研究
1.2.3 關(guān)于微博的研究現(xiàn)狀
1.3 本文主要研究?jī)?nèi)容
第2章 相關(guān)技術(shù)介紹
2.1 微博數(shù)據(jù)的預(yù)處理
2.1.1 微博文檔的表示方式
2.1.2 文檔相似度計(jì)算方法
2.1.3 話題的表示和相似度計(jì)算
2.1.4 噪聲處理
2.2 相關(guān)算法的介紹
2.2.1 AP聚類算法
2.2.2 倒排索引算法
2.2.3 子話題合并
2.2.4 話題結(jié)果的表示
2.2.5 過(guò)濾話題無(wú)關(guān)的結(jié)果
2.3 本章小結(jié)
第3章 微博話題檢測(cè)與跟蹤算法
3.1 算法的處理流程
3.2 噪聲處理
3.3 倒排索引的建立
3.4 話題檢測(cè)與跟蹤算法
3.5 AP聚類算法
3.6 本章小結(jié)
第4章 系統(tǒng)實(shí)現(xiàn)
4.1 微博數(shù)據(jù)的收集及整理
4.1.1 數(shù)據(jù)收集
4.1.2 數(shù)據(jù)整理
4.2 熱點(diǎn)事件發(fā)現(xiàn)
4.3 數(shù)據(jù)存儲(chǔ)及展示
4.4 本章小結(jié)
第5章 實(shí)驗(yàn)結(jié)果分析
5.1 實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)數(shù)據(jù)獲取
5.1.1 實(shí)驗(yàn)環(huán)境
5.1.2 實(shí)驗(yàn)數(shù)據(jù)獲得
5.1.3 評(píng)測(cè)方法
5.2 實(shí)驗(yàn)結(jié)果對(duì)比
5.2.1 算法速度提升
5.2.2 精度對(duì)比
5.3 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J]. 洪宇,張宇,劉挺,李生. 中文信息學(xué)報(bào). 2007(06)
[2]基于改進(jìn)向量空間模型的話題識(shí)別與跟蹤[J]. 宋丹,王衛(wèi)東,陳英. 計(jì)算機(jī)技術(shù)與發(fā)展. 2006(09)
[3]話題識(shí)別與跟蹤中的層次化話題識(shí)別技術(shù)研究[J]. 于滿泉,駱衛(wèi)華,許洪波,白碩. 計(jì)算機(jī)研究與發(fā)展. 2006(03)
[4]基于多策略優(yōu)化的分治多層聚類算法的話題發(fā)現(xiàn)研究[J]. 駱衛(wèi)華,于滿泉,許洪波,王斌,程學(xué)旗. 中文信息學(xué)報(bào). 2006(01)
[5]一種基于動(dòng)態(tài)進(jìn)化模型的事件探測(cè)和追蹤算法[J]. 賈自艷,何清,張海俊,李嘉佑,史忠植. 計(jì)算機(jī)研究與發(fā)展. 2004(07)
[6]話題識(shí)別與跟蹤研究[J]. 李保利,俞士汶. 計(jì)算機(jī)工程與應(yīng)用. 2003(17)
[7]面向動(dòng)態(tài)演化的話題檢測(cè)研究[J]. 趙華,趙鐵軍,于浩,張姝. 高技術(shù)通訊. 2006 (12)
[8]基于HowNet的話題跟蹤及傾向性分類研究[J]. 金珠,林鴻飛,趙晶. 情報(bào)學(xué)報(bào). 2005 (05)
本文編號(hào):3252644
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究的目的和意義
1.2 國(guó)內(nèi)外相關(guān)技術(shù)及研究現(xiàn)狀
1.2.1 TDT概述及任務(wù)
1.2.2 熱點(diǎn)事件發(fā)現(xiàn)及跟蹤相關(guān)研究
1.2.3 關(guān)于微博的研究現(xiàn)狀
1.3 本文主要研究?jī)?nèi)容
第2章 相關(guān)技術(shù)介紹
2.1 微博數(shù)據(jù)的預(yù)處理
2.1.1 微博文檔的表示方式
2.1.2 文檔相似度計(jì)算方法
2.1.3 話題的表示和相似度計(jì)算
2.1.4 噪聲處理
2.2 相關(guān)算法的介紹
2.2.1 AP聚類算法
2.2.2 倒排索引算法
2.2.3 子話題合并
2.2.4 話題結(jié)果的表示
2.2.5 過(guò)濾話題無(wú)關(guān)的結(jié)果
2.3 本章小結(jié)
第3章 微博話題檢測(cè)與跟蹤算法
3.1 算法的處理流程
3.2 噪聲處理
3.3 倒排索引的建立
3.4 話題檢測(cè)與跟蹤算法
3.5 AP聚類算法
3.6 本章小結(jié)
第4章 系統(tǒng)實(shí)現(xiàn)
4.1 微博數(shù)據(jù)的收集及整理
4.1.1 數(shù)據(jù)收集
4.1.2 數(shù)據(jù)整理
4.2 熱點(diǎn)事件發(fā)現(xiàn)
4.3 數(shù)據(jù)存儲(chǔ)及展示
4.4 本章小結(jié)
第5章 實(shí)驗(yàn)結(jié)果分析
5.1 實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)數(shù)據(jù)獲取
5.1.1 實(shí)驗(yàn)環(huán)境
5.1.2 實(shí)驗(yàn)數(shù)據(jù)獲得
5.1.3 評(píng)測(cè)方法
5.2 實(shí)驗(yàn)結(jié)果對(duì)比
5.2.1 算法速度提升
5.2.2 精度對(duì)比
5.3 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J]. 洪宇,張宇,劉挺,李生. 中文信息學(xué)報(bào). 2007(06)
[2]基于改進(jìn)向量空間模型的話題識(shí)別與跟蹤[J]. 宋丹,王衛(wèi)東,陳英. 計(jì)算機(jī)技術(shù)與發(fā)展. 2006(09)
[3]話題識(shí)別與跟蹤中的層次化話題識(shí)別技術(shù)研究[J]. 于滿泉,駱衛(wèi)華,許洪波,白碩. 計(jì)算機(jī)研究與發(fā)展. 2006(03)
[4]基于多策略優(yōu)化的分治多層聚類算法的話題發(fā)現(xiàn)研究[J]. 駱衛(wèi)華,于滿泉,許洪波,王斌,程學(xué)旗. 中文信息學(xué)報(bào). 2006(01)
[5]一種基于動(dòng)態(tài)進(jìn)化模型的事件探測(cè)和追蹤算法[J]. 賈自艷,何清,張海俊,李嘉佑,史忠植. 計(jì)算機(jī)研究與發(fā)展. 2004(07)
[6]話題識(shí)別與跟蹤研究[J]. 李保利,俞士汶. 計(jì)算機(jī)工程與應(yīng)用. 2003(17)
[7]面向動(dòng)態(tài)演化的話題檢測(cè)研究[J]. 趙華,趙鐵軍,于浩,張姝. 高技術(shù)通訊. 2006 (12)
[8]基于HowNet的話題跟蹤及傾向性分類研究[J]. 金珠,林鴻飛,趙晶. 情報(bào)學(xué)報(bào). 2005 (05)
本文編號(hào):3252644
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3252644.html
最近更新
教材專著