天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文微博數(shù)據(jù)凈化與情感傾向分析技術(shù)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-02-04 04:20
  微博客(即微博,Microblog)作為一種新的傳播載體,已經(jīng)迅速進(jìn)入了人們的生活,其中包含了大量針對(duì)人物、事件、產(chǎn)品等有價(jià)值的評(píng)論信息,表達(dá)了人們的各種情感傾向,因而在網(wǎng)絡(luò)輿情發(fā)起和傳播中起著重要作用。本文針對(duì)中文微博的特點(diǎn),研究數(shù)據(jù)凈化及情感傾向分析技術(shù)和相關(guān)問題。首先,針對(duì)微博的噪音和近似重復(fù)問題,研究微博數(shù)據(jù)的凈化方法。近來噪音微博和近似重復(fù)微博迅猛蔓延到微博空間的各個(gè)角落,這類微博的存在嚴(yán)重影響到了信息檢索的準(zhǔn)確性,大大降低了分析的可信性;诖,本文根據(jù)統(tǒng)計(jì)數(shù)據(jù),分析了噪音微博和近似重復(fù)微博的特點(diǎn),提出一種面向微博文本的噪音檢測(cè)與近似重復(fù)內(nèi)容過濾方法:通過URL鏈接、字符率、高頻詞等特征判別,過濾噪音微博;通過構(gòu)建向量空間模型的分段過濾和基于緩沖池的內(nèi)容索引過濾的雙重過濾,檢測(cè)和剔除掉近似重復(fù)的微博。實(shí)驗(yàn)表明該方法能有效地對(duì)微博數(shù)據(jù)進(jìn)行凈化,高效準(zhǔn)確地過濾掉近似重復(fù)微博和噪音微博,提高了微博數(shù)據(jù)處理的質(zhì)量和效率。其次,針對(duì)微博的直抒性特點(diǎn),研究微博的情感傾向分析方法!爸笔阈浴奔次⒉┯脩袅(xí)慣利用表情符號(hào)、感嘆詞和程度副詞等來“直抒己見”。目前對(duì)于中文微博的情感分析,雖然面向... 

【文章來源】:東北大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:67 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 研究背景與意義
    1.2 微博客研究現(xiàn)狀
    1.3 本文研究目的與研究內(nèi)容
        1.3.1 研究目的
        1.3.2 研究內(nèi)容
        1.3.3 課題來源
    1.4 本文的組織結(jié)構(gòu)
第2章 相關(guān)理論與技術(shù)
    2.1 情感傾向性分析
    2.2 情感詞典構(gòu)建
    2.3 數(shù)據(jù)凈化
        2.3.1 向量空間模型
        2.3.2 相似度計(jì)算
    2.4 本章小結(jié)
第3章 微博噪音檢測(cè)與近似重復(fù)內(nèi)容過濾
    3.1 問題的提出
    3.2 中文微博噪音與近似重復(fù)文本的特點(diǎn)
        3.2.1 噪音微博文本特點(diǎn)
        3.2.2 近似重復(fù)微博文本的特點(diǎn)
    3.3 噪音微博和近似重復(fù)微博的過濾算法
        3.3.1 噪音微博和近似重復(fù)微博過濾框架
        3.3.2 基于特征判別的噪音微博檢測(cè)與過濾
        3.3.3 特殊類型微博文本的預(yù)處理
        3.3.4 基于內(nèi)容計(jì)算的近似重復(fù)微博雙重檢測(cè)與過濾
    3.4 實(shí)驗(yàn)與結(jié)果分析
        3.4.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)標(biāo)準(zhǔn)
        3.4.2 數(shù)據(jù)集大小對(duì)噪音微博過濾效果的影響
        3.4.3 噪音微博閾值β對(duì)判別性能的影響
        3.4.4 閾值γ雙重過濾對(duì)近似重復(fù)微博判斷算法性能影響
        3.4.5 近似重復(fù)微博雙重過濾的時(shí)間性能
    3.5 本章小結(jié)
第4章 基于微博表情符號(hào)的新情感詞典構(gòu)建
    4.1 問題的提出
    4.2 微博表情符號(hào)統(tǒng)計(jì)分析
        4.2.1 表情符號(hào)統(tǒng)計(jì)
        4.2.2 表情符號(hào)分類
    4.3 詞典構(gòu)建理論基礎(chǔ)
    4.4 基礎(chǔ)情感詞典構(gòu)建
    4.5 情感詞典的優(yōu)化
    4.6 實(shí)驗(yàn)與結(jié)果分析
        4.6.1 實(shí)驗(yàn)數(shù)據(jù)來源
        4.6.2 實(shí)驗(yàn)評(píng)價(jià)方式
        4.6.3 實(shí)驗(yàn)結(jié)果與分析
    4.7 本章小結(jié)
第5章 基于擴(kuò)展情感詞典的微博情感傾向分析
    5.1 問題的提出
    5.2 情感詞典的擴(kuò)展
    5.3 微博情感傾向分析算法設(shè)計(jì)
        5.3.1 微博句子統(tǒng)計(jì)分析
        5.3.2 中文微博情感分析算法
    5.4 實(shí)驗(yàn)與結(jié)果分析
        5.4.1 實(shí)驗(yàn)方案設(shè)計(jì)與評(píng)價(jià)標(biāo)準(zhǔn)
        5.4.2 實(shí)驗(yàn)結(jié)果與分析
    5.5 本章小結(jié)
第6章 微博數(shù)據(jù)凈化與情感傾向分析原型系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
    6.1 系統(tǒng)框架
    6.2 系統(tǒng)功能模塊
    6.3 系統(tǒng)結(jié)果展示
        6.3.1 數(shù)據(jù)下載的實(shí)現(xiàn)
        6.3.2 數(shù)據(jù)凈化的實(shí)現(xiàn)
        6.3.3 情感分析的實(shí)現(xiàn)
    6.4 系統(tǒng)評(píng)價(jià)
    6.5 本章小結(jié)
第7章 總結(jié)及未來工作
    7.1 總結(jié)
    7.2 未來工作
參考文獻(xiàn)
致謝
攻碩期間參與項(xiàng)目、發(fā)表論文及獲獎(jiǎng)情況


【參考文獻(xiàn)】:
期刊論文
[1]一種面向情感分析的微博表情情感詞典構(gòu)建及應(yīng)用[J]. 王文遠(yuǎn),王大玲,馮時(shí),李任斐,王琳.  計(jì)算機(jī)與數(shù)字工程. 2012(11)
[2]EDM:高效的微博事件檢測(cè)算法[J]. 童薇,陳威,孟小峰.  計(jì)算機(jī)科學(xué)與探索. 2012(12)
[3]基于語境歧義詞的句子情感傾向性分析[J]. 宋艷雪,張紹武,林鴻飛.  中文信息學(xué)報(bào). 2012(03)
[4]基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 謝麗星,周明,孫茂松.  中文信息學(xué)報(bào). 2012(01)
[5]網(wǎng)絡(luò)表情符號(hào)分析[J]. 姚沂婕,安宏玉.  校園心理. 2011(05)
[6]Twitter中近似重復(fù)消息的判定方法研究[J]. 曹鵬,李靜遠(yuǎn),滿彤,劉悅,程學(xué)旗.  中文信息學(xué)報(bào). 2011(01)
[7]基于語義理解的文本傾向性識(shí)別機(jī)制[J]. 徐琳宏,林鴻飛,楊志豪.  中文信息學(xué)報(bào). 2007(01)
[8]基于HowNet的詞匯語義傾向計(jì)算[J]. 朱嫣嵐,閔錦,周雅倩,黃萱菁,吳立德.  中文信息學(xué)報(bào). 2006(01)

碩士論文
[1]面向中文評(píng)論文本的情感傾向性研究[D]. 呂韶華.大連理工大學(xué) 2010
[2]中文詞語情感傾向研究[D]. 朱力.哈爾濱工業(yè)大學(xué) 2009



本文編號(hào):3017713

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3017713.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e11b9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com