網(wǎng)絡(luò)垃圾信息識別方法研究
發(fā)布時間:2021-03-29 13:30
網(wǎng)絡(luò)以一種全新的信息傳播方式影響和改變著我們的生活,也讓我們不經(jīng)意進入了一種大眾傳媒的新時代中。在網(wǎng)絡(luò)中人人都可以隨時發(fā)布信息,這導(dǎo)致了網(wǎng)絡(luò)信息的泛濫,同時也導(dǎo)致了網(wǎng)絡(luò)垃圾信息的泛濫。近幾年,深度學(xué)習(xí)技術(shù)迅猛發(fā)展,大大改變了自然語言處理領(lǐng)域的現(xiàn)狀。本文針對Quora網(wǎng)站上的提問標(biāo)題作為文本數(shù)據(jù)進行分析,希望識別出其中的垃圾信息即虛假提問。由于數(shù)據(jù)的特殊性,很多提問文本作為垃圾信息具有一定的隱蔽性。傳統(tǒng)的基于詞頻的機器學(xué)習(xí)方法的表現(xiàn)受到了限制,這類問題對我們的模型和效果提出了新的要求。因此,本文同時運用機器學(xué)習(xí)和深度學(xué)習(xí)的方法,進行對比研究,探索各種方法在Quora數(shù)據(jù)集上的表現(xiàn)情況。本文采用的傳統(tǒng)機器學(xué)習(xí)方法分別是樸素貝葉斯模型和邏輯回歸模型。在傳統(tǒng)機器學(xué)習(xí)方法中,我們通過TF-IDF技術(shù)將文本轉(zhuǎn)化成向量,作為模型的輸入,通過對模型超參數(shù)進行調(diào)整,提高模型分類效果,然而,這兩種單個模型的表現(xiàn)均不優(yōu)秀。因此,本文又將兩種分類的結(jié)果作為輸入,用嶺回歸構(gòu)建堆疊法集成模型,并通過調(diào)整正則化項系數(shù),使模型效果提升,同時避免過擬合。最優(yōu)秀的傳統(tǒng)機器學(xué)習(xí)模型達到了0.60436的F1-score。在...
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
Quora流量來源分布圖
垃圾信息識別系統(tǒng)
4圖 1-3 本文研究框架第一章,緒論 首先闡述了本文的研究背景和研究內(nèi)容,然后介紹了研究的框架和意義,對全文有提綱挈領(lǐng)的作用 第二章,文獻綜述和相關(guān)理論 垃圾信息識別,歸根到底是一個文本分類的問題,而文本分類又從屬于自然語言處理的范疇 這一章節(jié)列舉了國內(nèi)外關(guān)于文本分類的對本文有指導(dǎo)意義的研究,既有國外學(xué)者的成果,也有國內(nèi)學(xué)者的內(nèi)容 在相關(guān)理論部分,本文重點研究了三個方面,分別是文本預(yù)處理方
【參考文獻】:
期刊論文
[1]基于CapsNet的中文文本分類研究[J]. 馮國明,張曉冬,劉素輝. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(12)
[2]基于Word2vec的文檔分類方法[J]. 陳杰,陳彩,梁毅. 計算機系統(tǒng)應(yīng)用. 2017(11)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計算機與現(xiàn)代化. 2017(04)
[4]基于遞歸神經(jīng)網(wǎng)絡(luò)的文本分類研究[J]. 黃磊,杜昌順. 北京化工大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[5]基于事件卷積特征的新聞文本分類[J]. 夏從零,錢濤,姬東鴻. 計算機應(yīng)用研究. 2017(04)
[6]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計算機科學(xué). 2016(06)
[7]基于最近鄰子空間搜索的兩類文本分類方法[J]. 李玉鑑,王影,冷強奎. 計算機工程與科學(xué). 2015(01)
[8]基于LDA特征擴展的短文本分類[J]. 呂超鎮(zhèn),姬東鴻,吳飛飛. 計算機工程與應(yīng)用. 2015(04)
[9]基于SVM算法的文本分類技術(shù)研究[J]. 崔建明,劉建明,廖周宇. 計算機仿真. 2013(02)
本文編號:3107628
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
Quora流量來源分布圖
垃圾信息識別系統(tǒng)
4圖 1-3 本文研究框架第一章,緒論 首先闡述了本文的研究背景和研究內(nèi)容,然后介紹了研究的框架和意義,對全文有提綱挈領(lǐng)的作用 第二章,文獻綜述和相關(guān)理論 垃圾信息識別,歸根到底是一個文本分類的問題,而文本分類又從屬于自然語言處理的范疇 這一章節(jié)列舉了國內(nèi)外關(guān)于文本分類的對本文有指導(dǎo)意義的研究,既有國外學(xué)者的成果,也有國內(nèi)學(xué)者的內(nèi)容 在相關(guān)理論部分,本文重點研究了三個方面,分別是文本預(yù)處理方
【參考文獻】:
期刊論文
[1]基于CapsNet的中文文本分類研究[J]. 馮國明,張曉冬,劉素輝. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(12)
[2]基于Word2vec的文檔分類方法[J]. 陳杰,陳彩,梁毅. 計算機系統(tǒng)應(yīng)用. 2017(11)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計算機與現(xiàn)代化. 2017(04)
[4]基于遞歸神經(jīng)網(wǎng)絡(luò)的文本分類研究[J]. 黃磊,杜昌順. 北京化工大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[5]基于事件卷積特征的新聞文本分類[J]. 夏從零,錢濤,姬東鴻. 計算機應(yīng)用研究. 2017(04)
[6]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計算機科學(xué). 2016(06)
[7]基于最近鄰子空間搜索的兩類文本分類方法[J]. 李玉鑑,王影,冷強奎. 計算機工程與科學(xué). 2015(01)
[8]基于LDA特征擴展的短文本分類[J]. 呂超鎮(zhèn),姬東鴻,吳飛飛. 計算機工程與應(yīng)用. 2015(04)
[9]基于SVM算法的文本分類技術(shù)研究[J]. 崔建明,劉建明,廖周宇. 計算機仿真. 2013(02)
本文編號:3107628
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3107628.html
最近更新
教材專著