天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于編碼器和卷積神經(jīng)網(wǎng)絡(luò)的非法信息分類技術(shù)研究

發(fā)布時間:2021-05-25 21:11
  隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)上出現(xiàn)越來越多的非法信息,比如色情、暴力、毒品等信息,如何檢測出這些非法信息成為當(dāng)下重點(diǎn)研究問題。非法信息分類屬于自然語言處理中的文本分類任務(wù),但是與傳統(tǒng)的文本分類相比,網(wǎng)絡(luò)搜索query文本存在著噪聲多、長度短、新詞多等特點(diǎn),所以如何構(gòu)建出高效的文本表示模型和文本特征提取模型是一個研究的重點(diǎn)。文本分類技術(shù)涉及到自然語言處理、數(shù)據(jù)挖掘等領(lǐng)域的許多技術(shù)。影響文本分類準(zhǔn)確度的因素有許多,包括文本的預(yù)處理、文本特征表示、特征選擇以及分類器的選擇和優(yōu)化等。傳統(tǒng)的文本表示方法,如布爾模型、向量空間模型,存在數(shù)據(jù)稀疏和維數(shù)災(zāi)難等問題。為了進(jìn)一步挖掘文本中隱藏的信息,出現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的分布式向量表示方法,如word2vec,這種分布式向量僅僅包含了詞的語義信息,忽略了詞的屬性信息,同時這種特征提取方法忽略了文本的結(jié)構(gòu)信息。基于上述的研究,做了如下工作:(1)對文本特征表示模型進(jìn)行了改進(jìn),提出了集成多種特征的文本表示模型(LMCW)。該方法首先利用word2vec工具在搜索query數(shù)據(jù)集上訓(xùn)練出包含語義信息的分布式詞向量,接著使用詞匯的互信息對詞向量加權(quán),同時再利用wor... 

【文章來源】:北京工業(yè)大學(xué)北京市 211工程院校

【文章頁數(shù)】:65 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 課題背景與意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 文本特征表示與特征選擇方法研究現(xiàn)狀
        1.2.2 文本分類算法研究現(xiàn)狀
    1.3 主要面臨問題及本文研究內(nèi)容
        1.3.1 主要面臨問題
        1.3.2 本文研究內(nèi)容
    1.4 論文結(jié)構(gòu)安排
第2章 相關(guān)理論與技術(shù)
    2.1 文本分類流程概述
    2.2 文本預(yù)處理
        2.2.1 中文分詞
        2.2.2 常用分詞工具
        2.2.3 停用詞過濾
    2.3 文本表示
        2.3.1 文本特征表示方法
        2.3.2 文本特征選擇方法
    2.4 文本分類方法
        2.4.1 邏輯回歸算法和Softmax回歸算法
        2.4.2 支持向量機(jī)算法
    2.5 卷積神經(jīng)網(wǎng)絡(luò)
    2.6 評價指標(biāo)
    2.7 本章小結(jié)
第3章 集成多種特征的文本表示模型
    3.1 WORD2VEC模型介紹
        3.1.1 CBOW模型
        3.1.2 Skip-gram模型
        3.1.3 Word2vec訓(xùn)練效果
    3.2 基于先驗(yàn)知識的屬性信息表示模型(PKL)
        3.2.1 建立非法信息先驗(yàn)知識庫
        3.2.2 屬性標(biāo)注
    3.3 基于加權(quán)與平均的WORD2VEC文本表示模型
        3.3.1 加權(quán)詞向量表示模型
        3.3.2 借助外部信息的字向量表示模型
        3.3.3 集成兩種特征的文本表示模型
    3.4 集成多種特征的文本表示模型
    3.5 實(shí)驗(yàn)過程及分析
        3.5.1 實(shí)驗(yàn)數(shù)據(jù)集
        3.5.2 實(shí)驗(yàn)環(huán)境
        3.5.3 文本表示模型維度對分類效果的影響
        3.5.4 單文本表示模型維度對LMCW模型效果的影響
        3.5.5 實(shí)驗(yàn)結(jié)論
    3.6 本章小結(jié)
第4章 基于深度學(xué)習(xí)的非法信息分類
    4.1 TRANSFORMER模型概述
        4.1.1 Transformer編碼器
        4.1.2 Transformer解碼器
    4.2 基于LMCW模型的非法信息分類
        4.2.1 Transformer模型提取特征
        4.2.2 CNN網(wǎng)絡(luò)提取特征
    4.3 實(shí)驗(yàn)過程及設(shè)計
        4.3.1 文本表示模型維度對分類效果的影響
        4.3.2 Epoch次數(shù)對分類效果的影響
        4.3.3 實(shí)驗(yàn)結(jié)論
    4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間所發(fā)表的學(xué)術(shù)論文
致謝


【參考文獻(xiàn)】:
期刊論文
[1]融合attention機(jī)制的BI-LSTM-CRF中文分詞模型[J]. 黃丹丹,郭玉翠.  軟件. 2018(10)
[2]呂蘇語口語標(biāo)注語料的自動分詞方法研究[J]. 于重重,操鐳,尹蔚彬,張澤宇,鄭雅.  計算機(jī)應(yīng)用研究. 2017(05)
[3]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春.  計算機(jī)科學(xué). 2016(06)
[4]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒.  工業(yè)控制計算機(jī). 2016(02)
[5]一種基于信息增益的特征選擇方法[J]. 黃志艷.  山東農(nóng)業(yè)大學(xué)學(xué)報(自然科學(xué)版). 2013(02)
[6]數(shù)據(jù)降維技術(shù)研究現(xiàn)狀及其進(jìn)展[J]. 畢達(dá)天,邱長波,張晗.  情報理論與實(shí)踐. 2013(02)
[7]一種基于樸素貝葉斯的微博情感分類[J]. 林江豪,陽愛民,周詠梅,陳錦,蔡澤鍵.  計算機(jī)工程與科學(xué). 2012(09)
[8]特征選擇方法綜述[J]. 姚旭,王曉丹,張玉璽,權(quán)文.  控制與決策. 2012(02)
[9]文本分類中特征選擇方法的比較與改進(jìn)[J]. 單麗莉,劉秉權(quán),孫承杰.  哈爾濱工業(yè)大學(xué)學(xué)報. 2011(S1)
[10]支持向量機(jī)理論與算法研究綜述[J]. 丁世飛,齊丙娟,譚紅艷.  電子科技大學(xué)學(xué)報. 2011(01)

碩士論文
[1]文本相似度算法在自動評分系統(tǒng)中的應(yīng)用研究[D]. 歐陽經(jīng)綸.湘潭大學(xué) 2017
[2]網(wǎng)絡(luò)不良信息檢測系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D]. 徐征.中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2014
[3]基于內(nèi)容的敏感信息過濾系統(tǒng)研究[D]. 彭浩林.武漢科技大學(xué) 2011
[4]基于統(tǒng)計機(jī)器學(xué)習(xí)算法的漢語分詞系統(tǒng)的研究[D]. 劉武.北京郵電大學(xué) 2006



本文編號:3206014

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3206014.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6b342***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com