基于word2vec情感分析系統(tǒng)的研究
發(fā)布時(shí)間:2024-02-22 16:42
情感分析,通常也稱情感極性分類,是指用來挖掘一段文本所蘊(yùn)含感情的方法,通常有三種狀態(tài):偏積極、偏消極和偏中性。隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,社交型網(wǎng)絡(luò)平臺(tái)對(duì)人們的影響越來越大,大量網(wǎng)絡(luò)用戶在各種平臺(tái)上會(huì)產(chǎn)生海量信息,其中以文本、圖片、視頻居多。其中,文本在某種程度上可以代表用戶對(duì)某一事件的態(tài)度,例如可對(duì)某一電影或者商品的評(píng)價(jià)在情感上根據(jù)偏積極、偏消極或偏中性進(jìn)行分類,就可以判斷某一電影或者商品是否受用戶歡迎,同時(shí)對(duì)這一電影或者商品之后的營銷也會(huì)起到一定的指導(dǎo)作用。本文主要獲取了商品評(píng)論以及電影評(píng)論數(shù)據(jù),提出了基于word2vec的情感分析方法。首先,通過爬蟲技術(shù),在互聯(lián)網(wǎng)上爬取了相當(dāng)數(shù)量的評(píng)論數(shù)據(jù),以此來構(gòu)建本文所使用的數(shù)據(jù)集,解決了缺少公開情感分析數(shù)據(jù)集的問題。并對(duì)其進(jìn)行文本清洗、文本歸一化、中文分詞、情感極性標(biāo)注等一系列數(shù)據(jù)預(yù)處理工作,得到文本評(píng)論語料;在語料之上,構(gòu)建了本文所使用的數(shù)據(jù)集,其中訓(xùn)練集占數(shù)據(jù)總量的70%,測試集占數(shù)據(jù)總量的30%;同時(shí)為了便于快速計(jì)算TF-IDF的值,構(gòu)建了相應(yīng)的情感詞典;通過word2vec模型訓(xùn)練了詞向量集,作為后續(xù)模型的輸入。其次,本文提出了一種基于位...
【文章頁數(shù)】:76 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究背景及意義
1.2 相關(guān)工作研究概況
1.2.1 詞語表示研究概況
1.2.2 注意力機(jī)制研究概況
1.2.3 情感分析研究概況
1.3 本文的主要研究內(nèi)容
1.4 本文的組織結(jié)構(gòu)
第2章 相關(guān)技術(shù)介紹
2.1 數(shù)據(jù)采集技術(shù)
2.1.1 基于API的數(shù)據(jù)采集方法
2.1.2 基于網(wǎng)絡(luò)爬蟲的數(shù)據(jù)采集方法
2.1.3 Scrapy框架
2.2 數(shù)據(jù)預(yù)處理技術(shù)
2.2.1 數(shù)據(jù)預(yù)處理
2.2.2 分詞與停用詞處理
2.3 詞語表示技術(shù)
2.3.1 詞的離散表示
2.3.2 詞的分布表示
2.3.3 CBOW模型
2.3.4 Skip-Gram模型
2.3.5 CBOW和 Skip-Gram模型的優(yōu)化方法
2.3.5.1 分層Softmax優(yōu)化法
2.3.5.2 負(fù)采樣優(yōu)化法
2.4 文本語義表示技術(shù)
2.4.1 TF-IDF方法
2.4.2 word AVG方法
2.4.3 注意力機(jī)制方法
2.5 本章小結(jié)
第3章 數(shù)據(jù)采集
3.1 整體設(shè)計(jì)
3.2 網(wǎng)站分析
3.3 系統(tǒng)的實(shí)現(xiàn)
3.3.1 配置文件的設(shè)計(jì)
3.3.2 存儲(chǔ)字段的設(shè)計(jì)
3.3.3 數(shù)據(jù)存儲(chǔ)過程的設(shè)計(jì)
3.3.4 中間件的設(shè)計(jì)
3.3.5 Spider的設(shè)計(jì)
3.3.6 配置文件的設(shè)計(jì)
3.4 系統(tǒng)運(yùn)行
3.5 數(shù)據(jù)清洗及歸一化
3.6 本章小結(jié)
第4章 基于word2vec文本情感分析
4.1 情感分析整體流程
4.2 數(shù)據(jù)集的構(gòu)建
4.3 情感詞典的構(gòu)建
4.4 詞向量的構(gòu)建
4.5 情感分析模型
4.5.1 CNN模型
4.5.2 LSTM模型
4.5.3 word2vec與 TF-IDF融合模型
4.6 實(shí)驗(yàn)與結(jié)果分析
4.6.1 實(shí)驗(yàn)及評(píng)價(jià)指標(biāo)
4.6.2 結(jié)果與分析
4.7 本章小結(jié)
第5章 情感分析系統(tǒng)的實(shí)現(xiàn)
5.1 開發(fā)環(huán)境
5.2 系統(tǒng)架構(gòu)
5.3 系統(tǒng)實(shí)現(xiàn)
5.3.1 情感分析模塊
5.3.2 工具模塊
5.4 系統(tǒng)測試
5.4.1 情感分析模塊
5.4.2 工具模塊測試
5.5 本章小結(jié)
第6章 結(jié)論
參考文獻(xiàn)
致謝
作者簡介
本文編號(hào):3906961
【文章頁數(shù)】:76 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究背景及意義
1.2 相關(guān)工作研究概況
1.2.1 詞語表示研究概況
1.2.2 注意力機(jī)制研究概況
1.2.3 情感分析研究概況
1.3 本文的主要研究內(nèi)容
1.4 本文的組織結(jié)構(gòu)
第2章 相關(guān)技術(shù)介紹
2.1 數(shù)據(jù)采集技術(shù)
2.1.1 基于API的數(shù)據(jù)采集方法
2.1.2 基于網(wǎng)絡(luò)爬蟲的數(shù)據(jù)采集方法
2.1.3 Scrapy框架
2.2 數(shù)據(jù)預(yù)處理技術(shù)
2.2.1 數(shù)據(jù)預(yù)處理
2.2.2 分詞與停用詞處理
2.3 詞語表示技術(shù)
2.3.1 詞的離散表示
2.3.2 詞的分布表示
2.3.3 CBOW模型
2.3.4 Skip-Gram模型
2.3.5 CBOW和 Skip-Gram模型的優(yōu)化方法
2.3.5.1 分層Softmax優(yōu)化法
2.3.5.2 負(fù)采樣優(yōu)化法
2.4 文本語義表示技術(shù)
2.4.1 TF-IDF方法
2.4.2 word AVG方法
2.4.3 注意力機(jī)制方法
2.5 本章小結(jié)
第3章 數(shù)據(jù)采集
3.1 整體設(shè)計(jì)
3.2 網(wǎng)站分析
3.3 系統(tǒng)的實(shí)現(xiàn)
3.3.1 配置文件的設(shè)計(jì)
3.3.2 存儲(chǔ)字段的設(shè)計(jì)
3.3.3 數(shù)據(jù)存儲(chǔ)過程的設(shè)計(jì)
3.3.4 中間件的設(shè)計(jì)
3.3.5 Spider的設(shè)計(jì)
3.3.6 配置文件的設(shè)計(jì)
3.4 系統(tǒng)運(yùn)行
3.5 數(shù)據(jù)清洗及歸一化
3.6 本章小結(jié)
第4章 基于word2vec文本情感分析
4.1 情感分析整體流程
4.2 數(shù)據(jù)集的構(gòu)建
4.3 情感詞典的構(gòu)建
4.4 詞向量的構(gòu)建
4.5 情感分析模型
4.5.1 CNN模型
4.5.2 LSTM模型
4.5.3 word2vec與 TF-IDF融合模型
4.6 實(shí)驗(yàn)與結(jié)果分析
4.6.1 實(shí)驗(yàn)及評(píng)價(jià)指標(biāo)
4.6.2 結(jié)果與分析
4.7 本章小結(jié)
第5章 情感分析系統(tǒng)的實(shí)現(xiàn)
5.1 開發(fā)環(huán)境
5.2 系統(tǒng)架構(gòu)
5.3 系統(tǒng)實(shí)現(xiàn)
5.3.1 情感分析模塊
5.3.2 工具模塊
5.4 系統(tǒng)測試
5.4.1 情感分析模塊
5.4.2 工具模塊測試
5.5 本章小結(jié)
第6章 結(jié)論
參考文獻(xiàn)
致謝
作者簡介
本文編號(hào):3906961
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3906961.html
最近更新
教材專著