微博水軍識(shí)別研究
發(fā)布時(shí)間:2021-02-10 08:33
伴隨社交媒體的快速發(fā)展,如何辨別水軍發(fā)帖,對(duì)網(wǎng)絡(luò)文本分析變得越來(lái)越重要。本文深入研究了如何利用文本特征詞方法,通過(guò)文本內(nèi)容的建模,和使用機(jī)器學(xué)習(xí)的方式對(duì)水軍進(jìn)行判別,除文本判別的模型,本文也通過(guò)文本聚類方式來(lái)辨別水軍貼。此外,本文也通過(guò)對(duì)發(fā)文賬號(hào)進(jìn)行分類判別建模以及發(fā)帖賬號(hào)間的社群發(fā)現(xiàn)方法來(lái)對(duì)水軍進(jìn)行判別。因?yàn)樗姷奶卣魇欠稚⒃诟鱾(gè)不同的線索中,而且高質(zhì)量水軍的訓(xùn)練樣本也是非常難以進(jìn)行大量獲取,本文的最大特點(diǎn)是綜合運(yùn)用了多種不同的模型,針對(duì)不同類型的水軍的特點(diǎn)進(jìn)行多種方法的識(shí)別,同時(shí)在各種方法上根據(jù)中文社交媒體環(huán)境的特點(diǎn),進(jìn)行了獨(dú)特優(yōu)化處理,通過(guò)實(shí)踐,形成了一套成熟可靠,有實(shí)際操作性的水軍判別方法。
【文章來(lái)源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
快消品水軍文章長(zhǎng)度從發(fā)文長(zhǎng)度直方圖也可以明顯看到,70到130字中間,集中出現(xiàn)了大量類
快餐行業(yè)水軍發(fā)文長(zhǎng)度從數(shù)據(jù)集直方圖看出,營(yíng)銷活動(dòng)還是造成了很主要的影響,但其影響程度不如快消數(shù)據(jù)集集中
圖 5 車行業(yè)水軍發(fā)文長(zhǎng)度2.4 數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理的過(guò)程雖然步驟簡(jiǎn)單,但是實(shí)踐證明,缺少這些步驟,的文本處理是有很大影響的,例如,如果沒有進(jìn)行網(wǎng)址鏈接字段的清理址的文本在分詞階段,就會(huì)伴隨生成很多無(wú)意義的詞,而這些詞混雜在特征詞一起建模,就會(huì)對(duì)模型效果產(chǎn)生一定的干擾。預(yù)處理的主要步驟有1. 使用正則表達(dá)式,去除正文中的 HTML 標(biāo)簽2. 使用正則表達(dá)式,去除正文中的網(wǎng)址3. 使用 ASCII 碼掃描去除,特殊干擾符號(hào)
【參考文獻(xiàn)】:
期刊論文
[1]Semi-Supervised Learning in Large Scale Text Categorization[J]. 許澤文,李建強(qiáng),劉博,畢敬,李蓉,毛睿. Journal of Shanghai Jiaotong University(Science). 2017(03)
[2]基于內(nèi)容和支撐向量基算法的微博用戶識(shí)別和分類[J]. 謝忠紅,張琳,孔佳瑋. 金陵科技學(xué)院學(xué)報(bào). 2017(02)
[3]基于網(wǎng)絡(luò)關(guān)系的微博水軍集團(tuán)發(fā)現(xiàn)方法[J]. 葉施仁,葉仁明,朱明峰. 計(jì)算機(jī)工程與應(yīng)用. 2017(06)
[4]基于多特征的網(wǎng)絡(luò)水軍識(shí)別方法[J]. 楊臻,張明慧,肖漢. 激光雜志. 2016(12)
[5]基于關(guān)系圖特征的微博水軍發(fā)現(xiàn)方法[J]. 程曉濤,劉彩霞,劉樹新. 自動(dòng)化學(xué)報(bào). 2015(09)
[6]一種基于邏輯回歸算法的水軍識(shí)別方法[J]. 張良,朱湘,李愛平,王志華,魯鵬. 信息安全與技術(shù). 2015(04)
[7]網(wǎng)絡(luò)“水軍”探測(cè)方法研究[J]. 王爍,徐健,劉穎. 現(xiàn)代圖書情報(bào)技術(shù). 2014(Z1)
[8]基于綜合指數(shù)和熵值法的微博水軍自動(dòng)識(shí)別[J]. 袁旭萍,王仁武,翟伯蔭. 情報(bào)雜志. 2014(07)
[9]網(wǎng)絡(luò)水軍識(shí)別研究[J]. 莫倩,楊珂. 軟件學(xué)報(bào). 2014(07)
[10]面向微博的概率圖水軍識(shí)別模型[J]. 韓忠明,許峰敏,段大高. 計(jì)算機(jī)研究與發(fā)展. 2013(S2)
本文編號(hào):3027091
【文章來(lái)源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
快消品水軍文章長(zhǎng)度從發(fā)文長(zhǎng)度直方圖也可以明顯看到,70到130字中間,集中出現(xiàn)了大量類
快餐行業(yè)水軍發(fā)文長(zhǎng)度從數(shù)據(jù)集直方圖看出,營(yíng)銷活動(dòng)還是造成了很主要的影響,但其影響程度不如快消數(shù)據(jù)集集中
圖 5 車行業(yè)水軍發(fā)文長(zhǎng)度2.4 數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理的過(guò)程雖然步驟簡(jiǎn)單,但是實(shí)踐證明,缺少這些步驟,的文本處理是有很大影響的,例如,如果沒有進(jìn)行網(wǎng)址鏈接字段的清理址的文本在分詞階段,就會(huì)伴隨生成很多無(wú)意義的詞,而這些詞混雜在特征詞一起建模,就會(huì)對(duì)模型效果產(chǎn)生一定的干擾。預(yù)處理的主要步驟有1. 使用正則表達(dá)式,去除正文中的 HTML 標(biāo)簽2. 使用正則表達(dá)式,去除正文中的網(wǎng)址3. 使用 ASCII 碼掃描去除,特殊干擾符號(hào)
【參考文獻(xiàn)】:
期刊論文
[1]Semi-Supervised Learning in Large Scale Text Categorization[J]. 許澤文,李建強(qiáng),劉博,畢敬,李蓉,毛睿. Journal of Shanghai Jiaotong University(Science). 2017(03)
[2]基于內(nèi)容和支撐向量基算法的微博用戶識(shí)別和分類[J]. 謝忠紅,張琳,孔佳瑋. 金陵科技學(xué)院學(xué)報(bào). 2017(02)
[3]基于網(wǎng)絡(luò)關(guān)系的微博水軍集團(tuán)發(fā)現(xiàn)方法[J]. 葉施仁,葉仁明,朱明峰. 計(jì)算機(jī)工程與應(yīng)用. 2017(06)
[4]基于多特征的網(wǎng)絡(luò)水軍識(shí)別方法[J]. 楊臻,張明慧,肖漢. 激光雜志. 2016(12)
[5]基于關(guān)系圖特征的微博水軍發(fā)現(xiàn)方法[J]. 程曉濤,劉彩霞,劉樹新. 自動(dòng)化學(xué)報(bào). 2015(09)
[6]一種基于邏輯回歸算法的水軍識(shí)別方法[J]. 張良,朱湘,李愛平,王志華,魯鵬. 信息安全與技術(shù). 2015(04)
[7]網(wǎng)絡(luò)“水軍”探測(cè)方法研究[J]. 王爍,徐健,劉穎. 現(xiàn)代圖書情報(bào)技術(shù). 2014(Z1)
[8]基于綜合指數(shù)和熵值法的微博水軍自動(dòng)識(shí)別[J]. 袁旭萍,王仁武,翟伯蔭. 情報(bào)雜志. 2014(07)
[9]網(wǎng)絡(luò)水軍識(shí)別研究[J]. 莫倩,楊珂. 軟件學(xué)報(bào). 2014(07)
[10]面向微博的概率圖水軍識(shí)別模型[J]. 韓忠明,許峰敏,段大高. 計(jì)算機(jī)研究與發(fā)展. 2013(S2)
本文編號(hào):3027091
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/3027091.html
最近更新
教材專著