基于知識(shí)元和集成學(xué)習(xí)的中文微博情感分析
發(fā)布時(shí)間:2017-10-04 10:25
本文關(guān)鍵詞:基于知識(shí)元和集成學(xué)習(xí)的中文微博情感分析
更多相關(guān)文章: 微博 情感分析 知識(shí)元 微博情感知識(shí)集 集成學(xué)習(xí) 貝葉斯決策
【摘要】:微博是目前最流行的社交網(wǎng)絡(luò)平臺(tái)之一,是可以自由發(fā)表觀點(diǎn)的地方,這些觀點(diǎn)涉及商品評(píng)論、輿情事件、娛樂評(píng)論等,同時(shí),微博數(shù)據(jù)的易獲取性也為其情感分析的研究提供了便利性,使得微博的情感分析成為國(guó)內(nèi)外學(xué)者們研究的熱點(diǎn)。本文提出了借助知識(shí)元理論構(gòu)建的微博情感知識(shí)集的方法,并使用提取的情感知識(shí)輔助微博特征提取和擴(kuò)充以及情感對(duì)象的識(shí)別,最后使用多個(gè)不同分類器集成的方法完成對(duì)微博的情感分析任務(wù)。論文提出了構(gòu)建微博情感知識(shí)集的方法,采用知識(shí)元理論作為微博情感知識(shí)集的表示方式。該方法首先通過查閱資料和在其他新聞網(wǎng)站上搜集資料,構(gòu)建初始的微博情感先驗(yàn)知識(shí)集,然后通過基于條件隨機(jī)場(chǎng)的方法借助構(gòu)建的初始微博情感先驗(yàn)知識(shí),自動(dòng)抽取出微博語料中的情感對(duì)象知識(shí)元,進(jìn)而通過去重等程序獲取最終的微博領(lǐng)域情感知識(shí)元集,最后利用XML格式文檔將獲取的微博情感知識(shí)存儲(chǔ)起來以便使用。通過使用不同領(lǐng)域的微博語料進(jìn)行實(shí)驗(yàn),證明該方法的可行性和有效性,為后續(xù)微博情感分析提供支持。論文還提出了基于異態(tài)集成學(xué)習(xí)的微博情感分析方法,該方法針對(duì)微博數(shù)據(jù)來源廣泛,涉及領(lǐng)域較多的特點(diǎn),選用微博情感分析中常用的四類分類器進(jìn)行集成,集成方法在原來簡(jiǎn)單投票法的基礎(chǔ)上進(jìn)行了改進(jìn),引入了貝葉斯決策的方法進(jìn)行投票,利用各個(gè)分類器訓(xùn)練后的混淆矩陣作為先驗(yàn)知識(shí)進(jìn)行決策分類。微博特征稀疏的特點(diǎn)給微博情感分析帶來困難,基于這個(gè)原因,我們利用微博情感知識(shí)集對(duì)其特征進(jìn)行了擴(kuò)充,充分利用微博社交化的特點(diǎn),增加了微博結(jié)構(gòu)特征,提高了情感評(píng)價(jià)對(duì)象識(shí)別的準(zhǔn)確性。為了研究多個(gè)組合特征和不同分類器集成對(duì)微博情感分析的影響,論文采用“控制變量法”的思想進(jìn)行了交叉實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明了本文提出的微博擴(kuò)充特征和集成方法對(duì)微博情感分析是有效的和可行的。
【關(guān)鍵詞】:微博 情感分析 知識(shí)元 微博情感知識(shí)集 集成學(xué)習(xí) 貝葉斯決策
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1;TP393.092
【目錄】:
- 摘要4-5
- Abstract5-9
- 1 緒論9-15
- 1.1 研究背景和選題意義9-10
- 1.2 擬解決的科學(xué)問題10-11
- 1.3 研究?jī)?nèi)容與技術(shù)路線11-14
- 1.3.1 研究?jī)?nèi)容11-12
- 1.3.2 技術(shù)路線12-14
- 1.4 論文的內(nèi)容組織結(jié)構(gòu)14-15
- 2 國(guó)內(nèi)外研究現(xiàn)狀15-23
- 2.1 基于詞典法的微博情感分析15-18
- 2.2 基于機(jī)器學(xué)習(xí)的微博情感分析18-19
- 2.3 基于句法分析和規(guī)則的微博情感分析19-21
- 2.4 研究述評(píng)21-23
- 3 微博情感知識(shí)元的抽取和微博情感知識(shí)集的構(gòu)建23-39
- 3.1 微博領(lǐng)域中的知識(shí)元23-26
- 3.2 中文微博不同領(lǐng)域數(shù)據(jù)獲取26-27
- 3.2.1 語料獲取26
- 3.2.2 數(shù)據(jù)預(yù)處理26-27
- 3.3 基于CRFs模型的微博情感知識(shí)元自動(dòng)抽取27-32
- 3.3.1 CRFs模型27
- 3.3.2 基于CRFs的微博情感對(duì)象知識(shí)元抽取算法27-28
- 3.3.3 抽取特征選取和模版設(shè)計(jì)28-32
- 3.4 抽取實(shí)驗(yàn)分析與結(jié)果處理32-39
- 3.4.1 實(shí)驗(yàn)設(shè)計(jì)與評(píng)價(jià)32-34
- 3.4.2 微博情感評(píng)價(jià)對(duì)象知識(shí)元集后處理34-36
- 3.4.3 微博情感知識(shí)元集構(gòu)建36-39
- 4 基于異態(tài)集成學(xué)習(xí)的中文微博情感分析39-58
- 4.1 集成學(xué)習(xí)方法39-41
- 4.1.1 算法的有效性分析40
- 4.1.2 異態(tài)集成學(xué)習(xí)方法40-41
- 4.2 基于微博情感知識(shí)元的特征表示方法41-42
- 4.3 微博預(yù)處理42-47
- 4.3.1 特殊符號(hào)處理42-44
- 4.3.2 干擾信息處理44
- 4.3.3 特征提取和擴(kuò)充44-47
- 4.4 微博情感分析模型47-51
- 4.4.1 常見分類模型47-48
- 4.4.2 基于異態(tài)集成分類器的微博情感分析48-50
- 4.4.3 微博情感分析的實(shí)現(xiàn)50-51
- 4.5 實(shí)驗(yàn)結(jié)果及分析51-58
- 4.5.1 實(shí)驗(yàn)數(shù)據(jù)51-53
- 4.5.2 實(shí)驗(yàn)設(shè)計(jì)和結(jié)果評(píng)價(jià)53-58
- 5. 總結(jié)與展望58-59
- 參考文獻(xiàn)59-63
- 附錄A 微博情感對(duì)象知識(shí)元抽取結(jié)果(部分)63-66
- 附錄B 微博情感表情符號(hào)抽取結(jié)果(頻次排名前50)66-68
- 攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文及科研情況68-69
- 致謝69-70
【參考文獻(xiàn)】
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 劉程;基于隨機(jī)森林的新聞網(wǎng)頁(yè)分類系統(tǒng)應(yīng)用研究[D];西南財(cái)經(jīng)大學(xué);2013年
,本文編號(hào):970122
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/970122.html
最近更新
教材專著