天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)的不文明文本過(guò)濾方法研究

發(fā)布時(shí)間:2020-04-19 14:52
【摘要】:隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)社交平臺(tái)已經(jīng)深深的融入了人們的生活。人們可以自由的在微博、貼吧、新聞等網(wǎng)絡(luò)平臺(tái)上發(fā)表自己的觀點(diǎn)。由于網(wǎng)絡(luò)平臺(tái)的開(kāi)放性,網(wǎng)絡(luò)平臺(tái)中出現(xiàn)了很多不文明的語(yǔ)言,對(duì)網(wǎng)絡(luò)環(huán)境造成了極大的負(fù)面影響。為了構(gòu)建和諧的網(wǎng)絡(luò)語(yǔ)言環(huán)境,本文對(duì)不文明文本的過(guò)濾進(jìn)行了相關(guān)研究。針對(duì)網(wǎng)絡(luò)文本數(shù)量巨大和形式多變的特點(diǎn),本文將深度學(xué)習(xí)技術(shù)應(yīng)用于不文明文本的分類(lèi)識(shí)別。對(duì)比傳統(tǒng)的過(guò)濾方法在分類(lèi)識(shí)別的精度上取得了一定的提高。本文的主要工作包括以下三個(gè)部分:第一,構(gòu)建不文明文本數(shù)據(jù)集。目前對(duì)網(wǎng)絡(luò)不文明文本的研究工作相對(duì)較少,沒(méi)有標(biāo)準(zhǔn)的不文明文本數(shù)據(jù)集可供研究。針對(duì)數(shù)據(jù)匱乏的問(wèn)題,本文爬取新浪微博、百度貼吧、騰訊新聞等相關(guān)網(wǎng)絡(luò)平臺(tái)的文本數(shù)據(jù),制定數(shù)據(jù)篩選方法,通過(guò)人工標(biāo)注的方式構(gòu)建了一個(gè)不文明文本數(shù)據(jù)集。第二,構(gòu)建不文明文本分類(lèi)模型,區(qū)分不文明文本和正常文本。根據(jù)網(wǎng)絡(luò)不文明文本的特點(diǎn),引入卷積神經(jīng)網(wǎng)絡(luò)對(duì)不文明文本進(jìn)行分類(lèi)。針對(duì)不文明詞匯在文本分詞過(guò)程中精度不足的問(wèn)題,本文構(gòu)建了一種融合字粒度和詞粒度特征提取的并行卷積神經(jīng)網(wǎng)絡(luò)模型(CW-CNN模型)。CW-CNN模型很好的解決了不文明詞匯分詞不準(zhǔn)確導(dǎo)致的性能下降問(wèn)題。CW-CNN模型對(duì)比詞粒度特征輸入的卷積神經(jīng)網(wǎng)絡(luò)模型,在精確率上提高了9.3%、召回率提高了9.9%、F1值提高了9.2%。第三,構(gòu)建不文明文本不文明程度分析模型,區(qū)分不文明程度高的文本和不文明程度低的文本。卷積神經(jīng)網(wǎng)絡(luò)模型在不文明文本分類(lèi)任務(wù)上確實(shí)具有較好的效果,但是其在特征提取的時(shí)候受到卷積核大小的影響,只能提取文本的局部特征,無(wú)法捕獲長(zhǎng)距離詞語(yǔ)之間的特征相關(guān)性,在不文明文本的不文明程度分析任務(wù)上卷積神經(jīng)網(wǎng)絡(luò)存在一定的不足。針對(duì)其不足,本文結(jié)合卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制構(gòu)建了一種用于不文明文本不文明程度分析的深度學(xué)習(xí)模型(BiLSTM-CNN模型)。通過(guò)實(shí)驗(yàn)對(duì)比,在不文明文本不文明程度分析上,BiLSTM-CNN模型比CW-CNN模型在精確率、召回率和F1值上均提高了約3.4%。
【圖文】:

概率分布,中心詞,模型結(jié)構(gòu),模型


CBOW邋(continuous邋bag-of-words)模型通過(guò)上下文的詞向量來(lái)預(yù)測(cè)中心詞匯逡逑的概率分布,并且每個(gè)上下文相關(guān)詞向量對(duì)中心詞匯的概率分布影響權(quán)重相同。逡逑CBOW結(jié)構(gòu)如圖2.】所示,CBOW模型的計(jì)算公式如公式2.4。逡逑1邋丁逡逑L邋=log邋p(wt|wt_c,,邋Wt-h邋wt+1,,…wt+c)邐(公式2.4)逡逑t=i逡逑其中Wt表示當(dāng)前詞匯,wt+cr表示與距離在c個(gè)單位以?xún)?nèi)逡逑的詞匯,通過(guò)相鄰的C個(gè)詞匯可以計(jì)算vvt的概率分布,然后使用隱藏層進(jìn)行均值逡逑計(jì)算得到詞匯%的詞向量表示。逡逑Skip-Gram模型的思想是利用當(dāng)前詞匯%去預(yù)測(cè)上下文詞語(yǔ)的概率分布,其逡逑結(jié)構(gòu)如圖2.1所示,Skip-Gram模型的計(jì)算公式如公式2.5。逡逑T邋T逡逑L邋=邋Z邋logp(wt+i|wt)邐(公式2.5)逡逑t=l邋-c<i<c逡逑相比于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型而言,CBOW模型和Skip-Gram模型在神經(jīng)網(wǎng)絡(luò)的逡逑隱藏層和輸出層進(jìn)行了優(yōu)化,通過(guò)使用Huffman樹(shù)結(jié)構(gòu)根據(jù)每個(gè)詞的詞頻大小相逡逑應(yīng)的增加或減少神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)

示意圖,支持向量機(jī),示意圖,超平面


SVM方法被廣泛地應(yīng)用到模式識(shí)別和分類(lèi)問(wèn)題。使用最基本的數(shù)據(jù)形式喂入逡逑支持向量機(jī)分類(lèi)器就能夠取得不錯(cuò)的分類(lèi)效果,支持向量機(jī)的分類(lèi)決策效果的優(yōu)逡逑劣取決于分類(lèi)邊界,即分隔超平面,在圖2.2中H表示的為分隔超平面,叱和?^2為逡逑對(duì)應(yīng)的支持向量機(jī),在高維空間中平面可以由公式2.11表示。逡逑0)Tx邋+邋b邋=邋0邐(公式邋2.11)逡逑在樣本空間中,某個(gè)點(diǎn)x到分隔超平面H的距離計(jì)算公式如公式2.12。逡逑|(0T邋+邋b|逡逑d邋=邋—r ̄—邐(公式邋2.12)逡逑|M|逡逑將分隔超平面歸一化之后有逡逑yi[(0)邋?邋Xj)邋+邋b]邋-邋1邋>邋0邐(公式2.13)逡逑其中y;邋=邋±1是文本的類(lèi)別,七表示對(duì)于的文本,距離分類(lèi)平面最近的樣本稱(chēng)為“支逡逑11逡逑
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類(lèi)號(hào)】:TP391.1;TP18

【參考文獻(xiàn)】

相關(guān)期刊論文 前3條

1 駱昌日;何婷婷;;網(wǎng)絡(luò)語(yǔ)言的特點(diǎn)及其情感性意義[J];武漢理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2015年02期

2 林鴻飛,姚天順;基于示例的中文文本過(guò)濾模型[J];大連理工大學(xué)學(xué)報(bào);2000年03期

3 田范江,李叢蓉,王鼎興;進(jìn)化式信息過(guò)濾方法研究[J];軟件學(xué)報(bào);2000年03期

相關(guān)碩士學(xué)位論文 前2條

1 馬英財(cái);社交網(wǎng)絡(luò)下的垃圾信息過(guò)濾技術(shù)的研究[D];哈爾濱理工大學(xué);2014年

2 楊明明;社會(huì)網(wǎng)絡(luò)平臺(tái)中的垃圾信息過(guò)濾技術(shù)研究[D];哈爾濱理工大學(xué);2013年



本文編號(hào):2633417

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2633417.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)253dd***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com