天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于集成學習的虛假評論檢測

發(fā)布時間:2023-03-18 14:37
  隨著互聯(lián)網時代Web2.0技術的快速發(fā)展,網絡用戶可以自主的創(chuàng)造評論內容,其中包含非常豐富的關于網絡產品的信息。不幸的是,由于利益關系,某些商家或個人發(fā)布了具有欺騙性的(虛假評論)評論以美化自身或貶低競爭對手,這些行為也對潛在客戶的消費傾向產生了誤導。由于網絡評論具有強烈的領域相關性,不同的評論領域不光評論文本有很大區(qū)別,甚至評論行為也有很大不同。故針對不同領域的虛假評論,必須使用不同的檢測方法。本文將網絡評論分為針對產品的評論和針對店鋪的評論。由于針對店鋪類評論虛假性檢測的方法較少,因而,分析店鋪類虛假評論的特點,設計有效的檢測方法是一個重要的研究課題。本文提出了一種基于集成學習的店鋪類虛假評論檢測方法。該方法總共有三個階段,第一個階段利用有標注的Yelp.com網站針對旅店、飯店的點評數據,做特征工程。本文將有關店鋪類評論的特征分為兩類,行為特征和文本特征,然后對特征做有效性分析。第二階段,對數據集分別用交叉校驗法和下采樣的方法采樣,構造訓練集和測試集。第三階段,分別使用集成學習中的隨機森林和LightBGM算法與傳統(tǒng)機器學習的決策樹、K近鄰和基于高斯分布的樸素貝葉斯算法對其評論做...

【文章頁數】:63 頁

【學位級別】:碩士

【文章目錄】:
摘要
abstract
第1章 緒論
    1.1 概述
    1.2 國內外研究現狀
    1.3 論文的研究內容和創(chuàng)新
        1.3.1 研究內容
        1.3.2 主要創(chuàng)新
    1.4 論文的結構
第2章 相關技術介紹
    2.1 集成學習
    2.2 隨機森林
    2.3 LightGBM
        2.3.1 基于梯度的單邊采樣(GOSS)
        2.3.2 獨家功能捆綁(EFB)
        2.3.3 直方圖算法
        2.3.4 Lightgbm的 Histogram(直方圖)做差加速
        2.3.5 帶深度限制的Leaf-wise的葉子生長策略
    2.4 決策樹
        2.4.1 ID3 算法
        2.4.2 C4.5 算法
        2.4.3 CART樹算法
    2.5 GaussianNB
    2.6 KNeighbors
    2.7 本章小結
第3章 特征工程研究
    3.1 數據集的獲取及預處理
        3.1.1 數據集的獲取
        3.1.2 評論數據集的預處理
        3.1.3 統(tǒng)計與分析評論數據集
    3.2 特征選取
        3.2.1 評論的文本特征
        3.2.2 評論的行為特征
    3.3 特征分析
        3.3.1 直方圖與CDF曲線
        3.3.2 概率密度函數
    3.4 特征有效性分析
    3.5 本章小結
第4章 集成學習算法的性能評估及參數
    4.1 算法性能評價
        4.1.1 決策樹算法與隨機森林算法的性能評估
        4.1.2 LightGBM算法性能評估
    4.2 算法參數介紹
        4.2.1 決策樹算法參數
        4.2.2 隨機森林參數
        4.2.3 LightBGM參數影響
        4.2.4 KNN分類算法參數
    4.3 本章小結
第5章 實驗及結果分析
    5.1 評論數據集度量指標
    5.2 特征標準化
    5.3 實驗結果及分析
        5.3.1 交叉驗證法
        5.3.2 下采樣法
    5.4 本章小結
結論
參考文獻
攻讀碩士學位期間發(fā)表的論文和獲得的科研成果
致謝



本文編號:3763318

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3763318.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶5b6c8***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com