基于集成學(xué)習(xí)的虛假評(píng)論檢測(cè)
發(fā)布時(shí)間:2023-03-18 14:37
隨著互聯(lián)網(wǎng)時(shí)代Web2.0技術(shù)的快速發(fā)展,網(wǎng)絡(luò)用戶可以自主的創(chuàng)造評(píng)論內(nèi)容,其中包含非常豐富的關(guān)于網(wǎng)絡(luò)產(chǎn)品的信息。不幸的是,由于利益關(guān)系,某些商家或個(gè)人發(fā)布了具有欺騙性的(虛假評(píng)論)評(píng)論以美化自身或貶低競(jìng)爭(zhēng)對(duì)手,這些行為也對(duì)潛在客戶的消費(fèi)傾向產(chǎn)生了誤導(dǎo)。由于網(wǎng)絡(luò)評(píng)論具有強(qiáng)烈的領(lǐng)域相關(guān)性,不同的評(píng)論領(lǐng)域不光評(píng)論文本有很大區(qū)別,甚至評(píng)論行為也有很大不同。故針對(duì)不同領(lǐng)域的虛假評(píng)論,必須使用不同的檢測(cè)方法。本文將網(wǎng)絡(luò)評(píng)論分為針對(duì)產(chǎn)品的評(píng)論和針對(duì)店鋪的評(píng)論。由于針對(duì)店鋪類評(píng)論虛假性檢測(cè)的方法較少,因而,分析店鋪類虛假評(píng)論的特點(diǎn),設(shè)計(jì)有效的檢測(cè)方法是一個(gè)重要的研究課題。本文提出了一種基于集成學(xué)習(xí)的店鋪類虛假評(píng)論檢測(cè)方法。該方法總共有三個(gè)階段,第一個(gè)階段利用有標(biāo)注的Yelp.com網(wǎng)站針對(duì)旅店、飯店的點(diǎn)評(píng)數(shù)據(jù),做特征工程。本文將有關(guān)店鋪類評(píng)論的特征分為兩類,行為特征和文本特征,然后對(duì)特征做有效性分析。第二階段,對(duì)數(shù)據(jù)集分別用交叉校驗(yàn)法和下采樣的方法采樣,構(gòu)造訓(xùn)練集和測(cè)試集。第三階段,分別使用集成學(xué)習(xí)中的隨機(jī)森林和LightBGM算法與傳統(tǒng)機(jī)器學(xué)習(xí)的決策樹、K近鄰和基于高斯分布的樸素貝葉斯算法對(duì)其評(píng)論做...
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 概述
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文的研究?jī)?nèi)容和創(chuàng)新
1.3.1 研究?jī)?nèi)容
1.3.2 主要?jiǎng)?chuàng)新
1.4 論文的結(jié)構(gòu)
第2章 相關(guān)技術(shù)介紹
2.1 集成學(xué)習(xí)
2.2 隨機(jī)森林
2.3 LightGBM
2.3.1 基于梯度的單邊采樣(GOSS)
2.3.2 獨(dú)家功能捆綁(EFB)
2.3.3 直方圖算法
2.3.4 Lightgbm的 Histogram(直方圖)做差加速
2.3.5 帶深度限制的Leaf-wise的葉子生長(zhǎng)策略
2.4 決策樹
2.4.1 ID3 算法
2.4.2 C4.5 算法
2.4.3 CART樹算法
2.5 GaussianNB
2.6 KNeighbors
2.7 本章小結(jié)
第3章 特征工程研究
3.1 數(shù)據(jù)集的獲取及預(yù)處理
3.1.1 數(shù)據(jù)集的獲取
3.1.2 評(píng)論數(shù)據(jù)集的預(yù)處理
3.1.3 統(tǒng)計(jì)與分析評(píng)論數(shù)據(jù)集
3.2 特征選取
3.2.1 評(píng)論的文本特征
3.2.2 評(píng)論的行為特征
3.3 特征分析
3.3.1 直方圖與CDF曲線
3.3.2 概率密度函數(shù)
3.4 特征有效性分析
3.5 本章小結(jié)
第4章 集成學(xué)習(xí)算法的性能評(píng)估及參數(shù)
4.1 算法性能評(píng)價(jià)
4.1.1 決策樹算法與隨機(jī)森林算法的性能評(píng)估
4.1.2 LightGBM算法性能評(píng)估
4.2 算法參數(shù)介紹
4.2.1 決策樹算法參數(shù)
4.2.2 隨機(jī)森林參數(shù)
4.2.3 LightBGM參數(shù)影響
4.2.4 KNN分類算法參數(shù)
4.3 本章小結(jié)
第5章 實(shí)驗(yàn)及結(jié)果分析
5.1 評(píng)論數(shù)據(jù)集度量指標(biāo)
5.2 特征標(biāo)準(zhǔn)化
5.3 實(shí)驗(yàn)結(jié)果及分析
5.3.1 交叉驗(yàn)證法
5.3.2 下采樣法
5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文和獲得的科研成果
致謝
本文編號(hào):3763318
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 概述
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文的研究?jī)?nèi)容和創(chuàng)新
1.3.1 研究?jī)?nèi)容
1.3.2 主要?jiǎng)?chuàng)新
1.4 論文的結(jié)構(gòu)
第2章 相關(guān)技術(shù)介紹
2.1 集成學(xué)習(xí)
2.2 隨機(jī)森林
2.3 LightGBM
2.3.1 基于梯度的單邊采樣(GOSS)
2.3.2 獨(dú)家功能捆綁(EFB)
2.3.3 直方圖算法
2.3.4 Lightgbm的 Histogram(直方圖)做差加速
2.3.5 帶深度限制的Leaf-wise的葉子生長(zhǎng)策略
2.4 決策樹
2.4.1 ID3 算法
2.4.2 C4.5 算法
2.4.3 CART樹算法
2.5 GaussianNB
2.6 KNeighbors
2.7 本章小結(jié)
第3章 特征工程研究
3.1 數(shù)據(jù)集的獲取及預(yù)處理
3.1.1 數(shù)據(jù)集的獲取
3.1.2 評(píng)論數(shù)據(jù)集的預(yù)處理
3.1.3 統(tǒng)計(jì)與分析評(píng)論數(shù)據(jù)集
3.2 特征選取
3.2.1 評(píng)論的文本特征
3.2.2 評(píng)論的行為特征
3.3 特征分析
3.3.1 直方圖與CDF曲線
3.3.2 概率密度函數(shù)
3.4 特征有效性分析
3.5 本章小結(jié)
第4章 集成學(xué)習(xí)算法的性能評(píng)估及參數(shù)
4.1 算法性能評(píng)價(jià)
4.1.1 決策樹算法與隨機(jī)森林算法的性能評(píng)估
4.1.2 LightGBM算法性能評(píng)估
4.2 算法參數(shù)介紹
4.2.1 決策樹算法參數(shù)
4.2.2 隨機(jī)森林參數(shù)
4.2.3 LightBGM參數(shù)影響
4.2.4 KNN分類算法參數(shù)
4.3 本章小結(jié)
第5章 實(shí)驗(yàn)及結(jié)果分析
5.1 評(píng)論數(shù)據(jù)集度量指標(biāo)
5.2 特征標(biāo)準(zhǔn)化
5.3 實(shí)驗(yàn)結(jié)果及分析
5.3.1 交叉驗(yàn)證法
5.3.2 下采樣法
5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文和獲得的科研成果
致謝
本文編號(hào):3763318
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3763318.html
最近更新
教材專著