天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學習混合模型的商品垃圾評論識別研究

發(fā)布時間:2023-03-12 18:02
  隨著互聯網應用的不斷發(fā)展,網絡購物等線上消費行為已經逐漸成為社會中的一種潮流。線上電商平臺每天都會產生海量評論數據,這些商品評論已經成為用戶選擇商品的主要依據。由于網絡的開放性以及用戶的言論自由,有些用戶會給出一些垃圾評論,這些評論信息往往會影響用戶體驗,不僅不利于系統的維護與完善,也對信息資源造成了極大的浪費。為了解決上述問題并挖掘商品評論信息中蘊含的價值,本文綜合利用數據爬蟲、模型構建以及實驗對比等手段進行研究,論文的主要工作如下:(1)對京東商城網站進行目標商品信息和評論爬取。本文基于Scrapy框架,根據網頁的XPath路徑對網頁進行分析,通過多線程模型加快爬蟲速度,利用改進網絡爬蟲策略獲取更有價值的各類商品評論信息,最終將數據儲存到MongoDB中,為后期訓練分類模型做準備。(2)針對傳統機器學習在處理評論文本分類時存在的不足,深度學習可以有效地解決了人工干預的問題,能夠自動的獲取數據中的結構特征,大大節(jié)約了人力和時間成本。因此,本文利用深度學習中CNN識別局部特征與LSTM利用文本序列的優(yōu)勢,并結合注意力機制,提出了一種基于注意力機制的CLSTM混合模型算法,最大化地提取上...

【文章頁數】:70 頁

【學位級別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 研究背景和意義
    1.2 國內外研究現狀
        1.2.1 文本分類研究現狀
        1.2.2 深度學習研究現狀
    1.3 本文主要工作
    1.4 論文組織結構與安排
第2章 相關理論與技術
    2.1 文本預處理
        2.1.1 中文分詞
        2.1.2 停用詞
    2.2 詞向量
        2.2.1 CBOW模型
        2.2.2 Skip-gram模型
    2.3 文本分類算法
        2.3.1 SVM算法
        2.3.2 CNN算法
        2.3.3 LSTM算法
    2.4 注意力機制
        2.4.1 編碼-解碼模型
        2.4.2 注意力機制
    2.5 本章小結
第3章 基于改進爬蟲策略的商品評論爬取研究
    3.1 網絡爬蟲的基本原理
    3.2 常見的網絡爬蟲類型
        3.2.1 通用網絡爬蟲
        3.2.2 聚焦網絡爬蟲
        3.2.3 增量式網絡爬蟲
    3.3 改進的網絡爬蟲策略
    3.4 基于Scrapy框架的網絡爬蟲總體設計
        3.4.1 Scrapy爬蟲程序框架
        3.4.2 爬蟲數據庫MongoDB
    3.5 網絡爬蟲實現
        3.5.1 定義參數
        3.5.2 爬取操作
        3.5.3 數據存儲
    3.6 爬蟲程序對比分析
    3.7 本章小結
第4章 基于Attention-CLSTM模型的商品評論分類研究
    4.1 文本分類流程
    4.2 垃圾評論的基本特征
    4.3 文本預處理
    4.4 詞向量訓練
    4.5 基于注意力機制的CLSTM混合模型實現文本分類
        4.5.1 CNN提取評論短語特征序列
        4.5.2 LSTM提取文本特征
        4.5.3 注意力引用
        4.5.4 softmax分類
    4.6 實驗結果與分析
        4.6.1 數據集
        4.6.2 參數設置
        4.6.3 評價指標
        4.6.4 實驗結果
    4.7 本章小結
第5章 結論與展望
參考文獻
攻讀學位期間發(fā)表的論文
致謝
詳細摘要



本文編號:3761691

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3761691.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶68abd***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com