結(jié)合評(píng)論關(guān)系網(wǎng)絡(luò)圖的微博垃圾評(píng)論識(shí)別方法研究
發(fā)布時(shí)間:2024-01-29 12:20
伴隨著微博平臺(tái)影響力的不斷擴(kuò)大,大量無(wú)意義帶有廣告營(yíng)銷、惡意攻擊言語(yǔ)性質(zhì)的垃圾評(píng)論信息充斥在平臺(tái)中,威脅著平臺(tái)本身發(fā)展的穩(wěn)定與和諧。因此,如何在已有垃圾評(píng)論識(shí)別研究的基礎(chǔ)之上提高垃圾評(píng)論整體的識(shí)別率以及降低垃圾評(píng)論和正常評(píng)論的誤判率是面向微博平臺(tái)垃圾評(píng)論識(shí)別研究中的重點(diǎn)內(nèi)容。提出一種結(jié)合評(píng)論關(guān)系網(wǎng)絡(luò)圖的微博垃圾評(píng)論識(shí)別方法,在建立評(píng)論關(guān)系網(wǎng)絡(luò)圖模型的基礎(chǔ)之上,采用文本相關(guān)度計(jì)算模型代替?zhèn)鹘y(tǒng)嚴(yán)苛的文本相似度計(jì)算模型,將評(píng)論與原博文的相關(guān)關(guān)系考慮進(jìn)來(lái),降低正常相關(guān)評(píng)論的誤判率。文本相關(guān)度又由底層實(shí)現(xiàn)基于Lucence全文搜索引擎的微博語(yǔ)料全文搜索庫(kù)詞語(yǔ)相關(guān)度計(jì)算而來(lái),該方法結(jié)合了傳統(tǒng)基于搜索引擎和語(yǔ)料庫(kù)兩種詞語(yǔ)相關(guān)度計(jì)算方法以適用于評(píng)論關(guān)系網(wǎng)絡(luò)圖中的文本詞之間相關(guān)度計(jì)算。在評(píng)論文本特征不夠豐富的情況下,通過(guò)用戶共同屬性、用戶交互頻度、用戶間互評(píng)估可信度模型量化評(píng)論關(guān)系網(wǎng)絡(luò)圖中評(píng)論兩端用戶友好關(guān)系以及評(píng)論用戶可信度,利用用戶關(guān)系越友好、用戶可信度越高,相互之間發(fā)表垃圾評(píng)論概率越低的性質(zhì)提高垃圾評(píng)論識(shí)別算法的準(zhǔn)確率。并且為了提升垃圾評(píng)論識(shí)別算法的性能,選擇基于圖模型的圖數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)和管理包含各...
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
本文編號(hào):3888175
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
圖3.4評(píng)論關(guān)系網(wǎng)絡(luò)圖Neo4j存儲(chǔ)
圖3.9文本分詞示例
本文編號(hào):3888175
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3888175.html
最近更新
教材專著