天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于社交網(wǎng)絡(luò)的暴力語言檢測研究

發(fā)布時(shí)間:2022-01-14 23:08
  在過去的十年里,越來越多的人使用社交網(wǎng)絡(luò),諸如微博、Facebook和Twitter等,使得這些社交網(wǎng)絡(luò)平臺(tái)的用戶數(shù)量和用戶生成的內(nèi)容信息呈指數(shù)級(jí)增長。信息的傳播利于新思想、新觀點(diǎn)的傳遞,促進(jìn)了人們的溝通和交流,但同時(shí)也導(dǎo)致了攻擊、謾罵、詆毀等網(wǎng)絡(luò)暴力語言的發(fā)生。這些網(wǎng)絡(luò)暴力語言不僅給用戶帶來了精神和心理上的痛苦,也嚴(yán)重影響了網(wǎng)絡(luò)社交和諧環(huán)境。目前大部分社交網(wǎng)絡(luò)平臺(tái)沒有采取有效的管理,只針對(duì)少量常見的網(wǎng)絡(luò)暴力詞匯進(jìn)行過濾和屏蔽,由于社交網(wǎng)絡(luò)的文本評(píng)論動(dòng)輒幾萬條甚至上百萬條,不可能依靠人工完成對(duì)這些網(wǎng)絡(luò)暴力語言的識(shí)別,所以研究可以自動(dòng)識(shí)別和檢測網(wǎng)絡(luò)暴力語言的方法對(duì)于干預(yù)網(wǎng)絡(luò)暴力、凈化網(wǎng)絡(luò)環(huán)境有十分重要的意義。本文針對(duì)網(wǎng)絡(luò)暴力語言的特點(diǎn)和表現(xiàn)形式,從新浪微博爬取數(shù)據(jù)集,使用一種半監(jiān)督學(xué)習(xí)通過少量人工干預(yù)的方式選取特征,經(jīng)過8次迭代,建立了一個(gè)高質(zhì)量的網(wǎng)絡(luò)暴力語言語料庫并在此基礎(chǔ)上研究網(wǎng)絡(luò)暴力語言文本的檢測方法。本文對(duì)比了支持向量機(jī)SVM、樸素貝葉斯NB、邏輯回歸LR三種機(jī)器學(xué)習(xí)算法模型的分類效果,其中SVM結(jié)合N-gram特征的精確率可以達(dá)到78%。為了進(jìn)一步提高文本分類精確率,解決在文本... 

【文章來源】:中北大學(xué)山西省

【文章頁數(shù)】:53 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于社交網(wǎng)絡(luò)的暴力語言檢測研究


神經(jīng)網(wǎng)絡(luò)語言模型

示意圖,學(xué)位論文,北大,卷積核


圖2-2雙卷積核神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖

暴力,語言


中北大學(xué)學(xué)位論文223基于半監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)暴力語言語料庫由于沒有公開的中文網(wǎng)絡(luò)暴力語言資源,難以對(duì)自動(dòng)檢測網(wǎng)絡(luò)暴力語言的方法進(jìn)行驗(yàn)證,所以我們首要的任務(wù)是構(gòu)建一個(gè)關(guān)于網(wǎng)絡(luò)暴力語言文本的數(shù)據(jù)集,本章將介紹詳細(xì)的步驟方法。設(shè)計(jì)思路半監(jiān)督學(xué)習(xí)作為一種適用范圍很廣的機(jī)器學(xué)習(xí)技術(shù),會(huì)同時(shí)利用帶標(biāo)簽的和不帶標(biāo)簽的樣本數(shù)據(jù)去提升分類性能。網(wǎng)絡(luò)暴力語言文本收集的過程中,面臨已標(biāo)注數(shù)據(jù)少,而未標(biāo)注數(shù)據(jù)多的現(xiàn)實(shí)情況。如果通過網(wǎng)絡(luò)爬蟲大量爬取,獲取的數(shù)據(jù)質(zhì)量相關(guān)性低,數(shù)據(jù)特征可能較為稀疏,所以我們?cè)O(shè)計(jì)了一種方法收集數(shù)據(jù),逐步標(biāo)記網(wǎng)絡(luò)暴力語言文本,建立網(wǎng)絡(luò)暴力語言的語料庫。具體實(shí)施的方法步驟如圖3-1所示。圖3-1網(wǎng)絡(luò)暴力語言數(shù)據(jù)收集處理步驟圖Figure3-1stepsofcollectingandprocessingdataofcyberbullyinglanguage第一步,結(jié)合領(lǐng)域?qū)<叶x的語言規(guī)則采取人工收集和網(wǎng)絡(luò)數(shù)據(jù)采集工具并行的方式,從微博抓取含有網(wǎng)絡(luò)暴力語言的文本數(shù)據(jù),通過分詞,統(tǒng)計(jì)高頻詞匯,構(gòu)造網(wǎng)絡(luò)暴力語言初始特征集合。通過多人投票打分的方式,為每個(gè)特征加權(quán)賦值,構(gòu)造一個(gè)初始的高精度的網(wǎng)絡(luò)暴力語言分類器。已爬取的語料網(wǎng)絡(luò)暴力語言分類器網(wǎng)絡(luò)暴力語言數(shù)據(jù)集不確定語料集合非網(wǎng)絡(luò)暴力語言數(shù)據(jù)集網(wǎng)絡(luò)暴力語言特征網(wǎng)絡(luò)暴力語言特征庫

【參考文獻(xiàn)】:
期刊論文
[1]融合情感與語義信息的情感分析方法[J]. 孟仕林,趙蘊(yùn)龍,關(guān)東海,翟象平.  計(jì)算機(jī)應(yīng)用. 2019(07)
[2]貝葉斯公式在數(shù)據(jù)挖掘中的應(yīng)用[J]. 王文相.  數(shù)學(xué)學(xué)習(xí)與研究. 2017(13)
[3]深度學(xué)習(xí):多層神經(jīng)網(wǎng)絡(luò)的復(fù)興與變革[J]. 山世光,闞美娜,劉昕,劉夢怡,鄔書哲.  科技導(dǎo)報(bào). 2016(14)
[4]基于word embedding和CNN的情感分類模型[J]. 蔡慧蘋,王麗丹,段書凱.  計(jì)算機(jī)應(yīng)用研究. 2016(10)
[5]特征選擇方法綜述[J]. 姚旭,王曉丹,張玉璽,權(quán)文.  控制與決策. 2012(02)
[6]數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理[J]. 劉明吉,王秀峰,黃亞樓.  計(jì)算機(jī)科學(xué). 2000(04)

博士論文
[1]基于支持向量機(jī)的聚類及文本分類研究[D]. 平源.北京郵電大學(xué) 2012

碩士論文
[1]網(wǎng)絡(luò)語言暴力現(xiàn)象分析[D]. 任仝.吉林大學(xué) 2019
[2]網(wǎng)絡(luò)語言暴力的成因分析及對(duì)策研究[D]. 李憲玲.華中師范大學(xué) 2010



本文編號(hào):3589395

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3589395.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶654ce***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com