不良短文本變體的識別
發(fā)布時間:2021-01-20 04:42
互聯(lián)網(wǎng)技術(shù)的發(fā)展給人們的生活帶來極大的便利,人們通過網(wǎng)絡(luò)獲取信息變得越來越便捷。大量的信息充斥著我們生活的同時,一些不良分子出于利益的目的,發(fā)布了一些包含有色情暴力、政治敏感和廣告促銷等不良敏感信息。這些不良信息會對人們的財產(chǎn)和身心健康造成惡劣的影響,也給社會和國家?guī)聿环(wěn)定因素,F(xiàn)有的網(wǎng)絡(luò)監(jiān)管平臺通過設(shè)置敏感詞的關(guān)鍵詞表來對這些不良信息進(jìn)行過濾,這種方法對不良文本中使用的規(guī)范敏感詞的識別效果很好,實現(xiàn)起來也比較簡單,然而近年來,很多惡意的發(fā)布者為了避開網(wǎng)絡(luò)監(jiān)管平臺的審查,會將不良文本中的敏感詞進(jìn)行變體,這些變體的敏感詞特征多樣,含義隱晦,給網(wǎng)絡(luò)監(jiān)管平臺的識別帶來極大的挑戰(zhàn)。針對上述的問題,本文通過研究不良文本變體特點、分析現(xiàn)有的過濾算法優(yōu)缺點的基礎(chǔ)之上,提出了基于Stacking組合的不良文本變體的識別模型,并在這基礎(chǔ)上進(jìn)行改進(jìn)。首先,目前用于不良文本變體識別任務(wù)的開放語料相對匱乏,本文收集了網(wǎng)絡(luò)上一些不良文本及其變體,然后通過去除非法字符、中文分詞等文本預(yù)處理,來構(gòu)建文本的數(shù)據(jù)集。接著在研究詞向量的離散表示和分布表示的基礎(chǔ)之上,結(jié)合不良文本變體的特點,使用Word2vec進(jìn)行詞語向...
【文章來源】:西南交通大學(xué)四川省 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
中國網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率
用于識別敏感詞變體具有理論上的意義也有實際應(yīng)用的主要內(nèi)容及論文組織結(jié)構(gòu)要內(nèi)容文本變體的任務(wù),首先介紹其背景意義、研究現(xiàn)狀的優(yōu)缺點。然后分析了不良文本變體的特點,再經(jīng)到適合本次任務(wù)的文本數(shù)據(jù);接著對比不同詞向量詞的聯(lián)系,通過分布表示詞向量。接著研究基于深神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和多層感知機(jī)算法在本次于前文研究的基礎(chǔ)之上,將前文的模型作為初級分 Stacking 組合模型,同時根據(jù) Stacking 算法的特點不良文本變體進(jìn)行識別,進(jìn)一步提升識別的準(zhǔn)確率能,和傳統(tǒng)的不良文本變體模型進(jìn)行對比。本文的研
圖 2-1 文本分類流程如上圖所示,文本的整個分類流程為:(1)文本預(yù)處理:收集數(shù)據(jù)集之后,需要將數(shù)據(jù)集進(jìn)行清洗。(2)特征提取:建立模型提取特征。(3)文本表示:將文本數(shù)據(jù)轉(zhuǎn)化成數(shù)字向量,為特征提取做準(zhǔn)備。(4)分類器:最后進(jìn)行判別分類,并根據(jù)給定的指標(biāo)進(jìn)行分類效果的評價。其中特征工程部分是文本分類中相當(dāng)重要的一部分,特征工程的是“數(shù)據(jù) 信息”的過程,決定了結(jié)果的上限,而分類器則是“信息 知識”的過程,是去逼近這個上限的,所以,特征工程的好壞深刻影響分類的結(jié)果,并且特征工程是沒有通用性的,需要具體任務(wù)具體分析。2.3 文本預(yù)處理在文本相關(guān)的任務(wù)中,文本預(yù)處理是非常重要的,我們需要花幾乎一半的時間在這上面,而中文文本和英文文本的預(yù)處理流程是不同的。首先,英文每個單詞之間是有空格的,而中文是沒有的,所以中文在分詞的時候不能簡單地用空格和標(biāo)點符號進(jìn)行
【參考文獻(xiàn)】:
期刊論文
[1]全媒體語境下消防宣傳路徑分析[J]. 孫藝嘉,李婷婷,李璽峰. 新聞研究導(dǎo)刊. 2019(02)
[2]中文分詞算法研究綜述[J]. 汪文妃,徐豪杰,楊文珍,吳新麗. 成組技術(shù)與生產(chǎn)現(xiàn)代化. 2018(03)
[3]一種基于關(guān)聯(lián)規(guī)則的中文變體詞識別算法[J]. 趙俊杰. 重慶理工大學(xué)學(xué)報(自然科學(xué)). 2018(03)
[4]面向中文敏感詞變形體的識別方法研究[J]. 付聰,余敦輝,張靈莉. 計算機(jī)應(yīng)用研究. 2019(04)
[5]一種基于Java Web的敏感詞過濾方法研究與實現(xiàn)[J]. 傅明建. 智能計算機(jī)與應(yīng)用. 2017(04)
[6]基于短文本情感分析的敏感信息識別[J]. 李揚(yáng),潘泉,楊濤. 西安交通大學(xué)學(xué)報. 2016(09)
[7]基于混合余弦相似度的中文文本層次關(guān)系挖掘[J]. 董洋溢,李偉華,于會. 計算機(jī)應(yīng)用研究. 2017(05)
[8]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒. 工業(yè)控制計算機(jī). 2016(02)
[9]基于區(qū)位碼字典對數(shù)控程序進(jìn)行中文注釋[J]. 楊超,謝劍剛. 中國科技信息. 2015(17)
[10]不良文本變體關(guān)鍵詞識別的詞匯串相似度計算[J]. 李少卿,吳承榮,曾劍平,鐘亦平. 計算機(jī)應(yīng)用與軟件. 2015(03)
碩士論文
[1]基于深度學(xué)習(xí)的垃圾郵件文本分類方法[D]. 李雨亭.中北大學(xué) 2018
[2]統(tǒng)計與規(guī)則相結(jié)合的中文分詞模型設(shè)計與實現(xiàn)[D]. 賀歡.西南交通大學(xué) 2013
[3]基于理解的漢語分詞系統(tǒng)的設(shè)計與實現(xiàn)[D]. 蘇勇.電子科技大學(xué) 2011
[4]手機(jī)垃圾短信過濾平臺的分析與應(yīng)用[D]. 張春麟.北京郵電大學(xué) 2010
[5]基于貝葉斯的中文垃圾郵件過濾系統(tǒng)的設(shè)計與實現(xiàn)[D]. 黃志剛.電子科技大學(xué) 2007
本文編號:2988397
【文章來源】:西南交通大學(xué)四川省 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
中國網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率
用于識別敏感詞變體具有理論上的意義也有實際應(yīng)用的主要內(nèi)容及論文組織結(jié)構(gòu)要內(nèi)容文本變體的任務(wù),首先介紹其背景意義、研究現(xiàn)狀的優(yōu)缺點。然后分析了不良文本變體的特點,再經(jīng)到適合本次任務(wù)的文本數(shù)據(jù);接著對比不同詞向量詞的聯(lián)系,通過分布表示詞向量。接著研究基于深神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和多層感知機(jī)算法在本次于前文研究的基礎(chǔ)之上,將前文的模型作為初級分 Stacking 組合模型,同時根據(jù) Stacking 算法的特點不良文本變體進(jìn)行識別,進(jìn)一步提升識別的準(zhǔn)確率能,和傳統(tǒng)的不良文本變體模型進(jìn)行對比。本文的研
圖 2-1 文本分類流程如上圖所示,文本的整個分類流程為:(1)文本預(yù)處理:收集數(shù)據(jù)集之后,需要將數(shù)據(jù)集進(jìn)行清洗。(2)特征提取:建立模型提取特征。(3)文本表示:將文本數(shù)據(jù)轉(zhuǎn)化成數(shù)字向量,為特征提取做準(zhǔn)備。(4)分類器:最后進(jìn)行判別分類,并根據(jù)給定的指標(biāo)進(jìn)行分類效果的評價。其中特征工程部分是文本分類中相當(dāng)重要的一部分,特征工程的是“數(shù)據(jù) 信息”的過程,決定了結(jié)果的上限,而分類器則是“信息 知識”的過程,是去逼近這個上限的,所以,特征工程的好壞深刻影響分類的結(jié)果,并且特征工程是沒有通用性的,需要具體任務(wù)具體分析。2.3 文本預(yù)處理在文本相關(guān)的任務(wù)中,文本預(yù)處理是非常重要的,我們需要花幾乎一半的時間在這上面,而中文文本和英文文本的預(yù)處理流程是不同的。首先,英文每個單詞之間是有空格的,而中文是沒有的,所以中文在分詞的時候不能簡單地用空格和標(biāo)點符號進(jìn)行
【參考文獻(xiàn)】:
期刊論文
[1]全媒體語境下消防宣傳路徑分析[J]. 孫藝嘉,李婷婷,李璽峰. 新聞研究導(dǎo)刊. 2019(02)
[2]中文分詞算法研究綜述[J]. 汪文妃,徐豪杰,楊文珍,吳新麗. 成組技術(shù)與生產(chǎn)現(xiàn)代化. 2018(03)
[3]一種基于關(guān)聯(lián)規(guī)則的中文變體詞識別算法[J]. 趙俊杰. 重慶理工大學(xué)學(xué)報(自然科學(xué)). 2018(03)
[4]面向中文敏感詞變形體的識別方法研究[J]. 付聰,余敦輝,張靈莉. 計算機(jī)應(yīng)用研究. 2019(04)
[5]一種基于Java Web的敏感詞過濾方法研究與實現(xiàn)[J]. 傅明建. 智能計算機(jī)與應(yīng)用. 2017(04)
[6]基于短文本情感分析的敏感信息識別[J]. 李揚(yáng),潘泉,楊濤. 西安交通大學(xué)學(xué)報. 2016(09)
[7]基于混合余弦相似度的中文文本層次關(guān)系挖掘[J]. 董洋溢,李偉華,于會. 計算機(jī)應(yīng)用研究. 2017(05)
[8]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒. 工業(yè)控制計算機(jī). 2016(02)
[9]基于區(qū)位碼字典對數(shù)控程序進(jìn)行中文注釋[J]. 楊超,謝劍剛. 中國科技信息. 2015(17)
[10]不良文本變體關(guān)鍵詞識別的詞匯串相似度計算[J]. 李少卿,吳承榮,曾劍平,鐘亦平. 計算機(jī)應(yīng)用與軟件. 2015(03)
碩士論文
[1]基于深度學(xué)習(xí)的垃圾郵件文本分類方法[D]. 李雨亭.中北大學(xué) 2018
[2]統(tǒng)計與規(guī)則相結(jié)合的中文分詞模型設(shè)計與實現(xiàn)[D]. 賀歡.西南交通大學(xué) 2013
[3]基于理解的漢語分詞系統(tǒng)的設(shè)計與實現(xiàn)[D]. 蘇勇.電子科技大學(xué) 2011
[4]手機(jī)垃圾短信過濾平臺的分析與應(yīng)用[D]. 張春麟.北京郵電大學(xué) 2010
[5]基于貝葉斯的中文垃圾郵件過濾系統(tǒng)的設(shè)計與實現(xiàn)[D]. 黃志剛.電子科技大學(xué) 2007
本文編號:2988397
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2988397.html
最近更新
教材專著