基于機器學(xué)習(xí)的用戶惡意評論檢測研究
發(fā)布時間:2021-03-28 08:05
隨著移動互聯(lián)網(wǎng)的普及,人們可以隨時隨地在網(wǎng)絡(luò)中發(fā)表自己的觀點。一方面媒體公司需要用戶積極參與評論,另一方面在眾多評論中也混雜著惡意評論。這些評論不僅在精神上傷害了他人,而且也使得整個網(wǎng)絡(luò)環(huán)境變得混亂不堪。更重要的是,受攻擊者會逐漸使用其他產(chǎn)品,不利于公司的發(fā)展。公司管理者需要過濾出現(xiàn)的惡意評論,但是小公司無法承受人工檢測的成本。因此,需要設(shè)計一個惡意評論自動檢測方案。針對這些問題,本文提出一種基于機器學(xué)習(xí)的網(wǎng)絡(luò)惡意評論檢測方案。具體包括:首先,運用中國漢語言學(xué)對“詈語”的研究,從中挑選40個種子字,在此基礎(chǔ)上通過擴展算法得到一份惡意詞典。相比人工選取種子詞,這樣極大的節(jié)省人工的成本。另外,該詞典也可作為中文分詞器的自定義詞典,用以提升分詞準(zhǔn)確率。其次,以用戶為維度,分析每個用戶下歷史評論所在的新聞主題,使用LDA模型提取新聞內(nèi)容的主題,以“用戶id”、“用戶評論”、“評論所屬新聞內(nèi)容”作為RNN模型的輸入。實驗表明本文改進模型提升對惡意評論的檢測效果。最后,將前兩章的實驗結(jié)果與傳統(tǒng)檢測系統(tǒng)所選取的特征相結(jié)合。從數(shù)據(jù)集中提取13類特征,計算皮爾森相關(guān)系數(shù)并分析特征,最后將特征作為決策樹和...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1網(wǎng)絡(luò)爬蟲工作過程[29]??在爬蟲系統(tǒng)中,待抓取隊列中的URL以什么樣的順序排列是用戶需要考慮??
Scrapy—個用Python語言實現(xiàn)的網(wǎng)絡(luò)爬蟲框架,其具有快速、可進行高層??次屏幕抓取,便于修改等特點,常常應(yīng)用于信息處理、數(shù)據(jù)挖掘、存儲歷史數(shù)??據(jù)和自動化測試等工作中。Scrapy體系結(jié)構(gòu)如圖2-2所示,其主要包括以下組??件:??1.
詞之間沒有明顯的分界符,而不同的切分結(jié)果也將影響著用戶對語義的理解。??Jieba中文分詞[32]是一種基于詞典的開源中文分詞組件,該組件的分詞流程??如圖2-3所示。首先使用中文詞典生成Trie樹并將每個詞出現(xiàn)的次數(shù)轉(zhuǎn)為頻率;??基于Trie樹結(jié)構(gòu)完成高效的詞圖掃描工作,將待切分句子生成所有可能成詞的??情況構(gòu)成相應(yīng)的DAG?(Directed?Acyclic?Graph);然后使用動態(tài)規(guī)劃算法尋找最??大概率路徑,最后基于詞頻的找到最大概率詞段組合。Jieba分詞器提供三種分??詞模式:精確模式、全模式、搜索引擎模式,這種分詞器的準(zhǔn)確率與效率依賴??于詞典的選擇。若能添加適合待切分?jǐn)?shù)據(jù)集的自定義詞典,那么會有助于降低??錯誤切分詞語的概率。??—??自帶詞典?<?^?f^??---i(加載詞典]?[待切分句子'??自定義詞典????v??Trie樹??>?DAG?圖??????DAG圖??圖2-3?Jieba分詞流程圖??LTP-Clcmd[33H吾言技術(shù)平臺云是哈工大社會計算與信息檢索研究中心研發(fā)??的,其可以為用戶提供高效精準(zhǔn)的中文自然語言處理云服務(wù)。其中包含多種功??能:分詞,詞性標(biāo)注,命名實體識別,語義依存分析,依存句法分析,語義角??色標(biāo)注。用戶根據(jù)API參數(shù)構(gòu)造相應(yīng)的HTTP請求即可獲得在線分析結(jié)果,該??10??
本文編號:3105184
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1網(wǎng)絡(luò)爬蟲工作過程[29]??在爬蟲系統(tǒng)中,待抓取隊列中的URL以什么樣的順序排列是用戶需要考慮??
Scrapy—個用Python語言實現(xiàn)的網(wǎng)絡(luò)爬蟲框架,其具有快速、可進行高層??次屏幕抓取,便于修改等特點,常常應(yīng)用于信息處理、數(shù)據(jù)挖掘、存儲歷史數(shù)??據(jù)和自動化測試等工作中。Scrapy體系結(jié)構(gòu)如圖2-2所示,其主要包括以下組??件:??1.
詞之間沒有明顯的分界符,而不同的切分結(jié)果也將影響著用戶對語義的理解。??Jieba中文分詞[32]是一種基于詞典的開源中文分詞組件,該組件的分詞流程??如圖2-3所示。首先使用中文詞典生成Trie樹并將每個詞出現(xiàn)的次數(shù)轉(zhuǎn)為頻率;??基于Trie樹結(jié)構(gòu)完成高效的詞圖掃描工作,將待切分句子生成所有可能成詞的??情況構(gòu)成相應(yīng)的DAG?(Directed?Acyclic?Graph);然后使用動態(tài)規(guī)劃算法尋找最??大概率路徑,最后基于詞頻的找到最大概率詞段組合。Jieba分詞器提供三種分??詞模式:精確模式、全模式、搜索引擎模式,這種分詞器的準(zhǔn)確率與效率依賴??于詞典的選擇。若能添加適合待切分?jǐn)?shù)據(jù)集的自定義詞典,那么會有助于降低??錯誤切分詞語的概率。??—??自帶詞典?<?^?f^??---i(加載詞典]?[待切分句子'??自定義詞典????v??Trie樹??>?DAG?圖??????DAG圖??圖2-3?Jieba分詞流程圖??LTP-Clcmd[33H吾言技術(shù)平臺云是哈工大社會計算與信息檢索研究中心研發(fā)??的,其可以為用戶提供高效精準(zhǔn)的中文自然語言處理云服務(wù)。其中包含多種功??能:分詞,詞性標(biāo)注,命名實體識別,語義依存分析,依存句法分析,語義角??色標(biāo)注。用戶根據(jù)API參數(shù)構(gòu)造相應(yīng)的HTTP請求即可獲得在線分析結(jié)果,該??10??
本文編號:3105184
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3105184.html
最近更新
教材專著