基于深度學(xué)習(xí)的微博短文本情感傾向分析
發(fā)布時(shí)間:2021-03-09 07:04
隨著社交網(wǎng)絡(luò)媒體的不斷快速發(fā)展與進(jìn)步,互聯(lián)網(wǎng)上的文字信息急劇膨脹。微博作為目前中國(guó)最受歡迎的微博客服務(wù),每時(shí)每刻都在產(chǎn)生海量的數(shù)據(jù),這些數(shù)據(jù)包含了大量的有關(guān)網(wǎng)民情緒與態(tài)度的信息。如果將情感分析技術(shù)應(yīng)用到微博的海量數(shù)據(jù)上,可以從海量數(shù)據(jù)中發(fā)掘出價(jià)值,利用這些數(shù)據(jù),將有助于完善互聯(lián)網(wǎng)的輿情監(jiān)測(cè)系統(tǒng),以檢測(cè)物理世界中的異�;蛞馔馐录�。本文將主要研索目標(biāo)設(shè)定為中文短文微博,為此,本文主要做了關(guān)于以下方面的研究工作:(1)在微博數(shù)據(jù)的獲取方面,本文設(shè)計(jì)了一個(gè)爬蟲架構(gòu),并基于該架構(gòu)實(shí)現(xiàn)了一個(gè)使用python語言編寫的微博數(shù)據(jù)采集系統(tǒng)。該系統(tǒng)使用selenium通過模擬人工操作瀏覽器解決微博的身份認(rèn)證問題。同時(shí),參考聚焦爬蟲的設(shè)計(jì)模式,有針對(duì)性地采集微博數(shù)據(jù)。該爬蟲系統(tǒng)解決了逆向微博工程量大實(shí)現(xiàn)復(fù)雜,完全使用瀏覽器模擬操作文本采集過慢的問題,在理想情況下該爬蟲系統(tǒng)的單線程采集速率可以達(dá)到每分鐘約800條。(2)在情感分析方面,考慮到情感詞對(duì)文本情感表達(dá)的積極影響,本文整合了幾個(gè)在中文情感分析領(lǐng)域常用的情感詞典,設(shè)計(jì)了使用情感詞對(duì)詞向量進(jìn)行權(quán)值調(diào)整的策略。為了驗(yàn)證該方法的有效性,本文通過將未調(diào)整的詞向...
【文章來源】:湘潭大學(xué)湖南省
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
微博垂直領(lǐng)域生態(tài)綜上,在微博上進(jìn)行文本數(shù)據(jù)挖掘,對(duì)個(gè)人用戶而言,可以通過挖掘個(gè)人用
基于API采集數(shù)據(jù)的流程圖
蟲(也稱為蜘蛛)是在某種已經(jīng)設(shè)定的特定規(guī)則下自動(dòng)識(shí)別和含文字、圖片流媒體等)的工具。它可以互聯(lián)網(wǎng)上遍歷網(wǎng)頁到本地或服務(wù)器,是搜索引擎的核心組件之一[31]。搜索引是通過遍歷互聯(lián)網(wǎng)上的海量信息,將其中有效的信息存儲(chǔ)到.3 給出一個(gè)較為經(jīng)典的網(wǎng)絡(luò)爬蟲框架。
本文編號(hào):3072466
【文章來源】:湘潭大學(xué)湖南省
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
微博垂直領(lǐng)域生態(tài)綜上,在微博上進(jìn)行文本數(shù)據(jù)挖掘,對(duì)個(gè)人用戶而言,可以通過挖掘個(gè)人用
基于API采集數(shù)據(jù)的流程圖
蟲(也稱為蜘蛛)是在某種已經(jīng)設(shè)定的特定規(guī)則下自動(dòng)識(shí)別和含文字、圖片流媒體等)的工具。它可以互聯(lián)網(wǎng)上遍歷網(wǎng)頁到本地或服務(wù)器,是搜索引擎的核心組件之一[31]。搜索引是通過遍歷互聯(lián)網(wǎng)上的海量信息,將其中有效的信息存儲(chǔ)到.3 給出一個(gè)較為經(jīng)典的網(wǎng)絡(luò)爬蟲框架。
本文編號(hào):3072466
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3072466.html
最近更新
教材專著