基于半監(jiān)督學(xué)習(xí)的微博情感分析技術(shù)研究
發(fā)布時(shí)間:2021-01-08 17:40
web2.0技術(shù)的普及,使得廣大網(wǎng)絡(luò)用戶從傳統(tǒng)的被動(dòng)接收消息轉(zhuǎn)變?yōu)橹鲃?dòng)發(fā)布信息,人們比過(guò)去更愿意在網(wǎng)絡(luò)上分享自己的生活和觀點(diǎn)。微博以其操作簡(jiǎn)單、快捷和實(shí)時(shí)等特點(diǎn)受到大量用戶的青睞。在全球,每天都有數(shù)以億計(jì)的微博更新,這龐大的數(shù)據(jù)看似雜亂無(wú)章,毫無(wú)規(guī)律,但其中卻蘊(yùn)含著豐富的信息,對(duì)于個(gè)人決策和企業(yè)產(chǎn)品的改良具有重要意義。因此,基于微博數(shù)據(jù)的用戶情感分析已經(jīng)成為學(xué)術(shù)界熱門問(wèn)題之一。目前,基于監(jiān)督學(xué)習(xí)算法的文本情感分析取得不錯(cuò)效果,但是這種算法模型需要的標(biāo)記數(shù)據(jù)數(shù)量較多。在實(shí)際應(yīng)用中,較多數(shù)量標(biāo)記數(shù)據(jù)的獲取需要消耗較多資源,與之相對(duì),未標(biāo)記數(shù)據(jù)獲取較為簡(jiǎn)單。因此,針對(duì)中文微博情感分析,本文使用半監(jiān)督學(xué)習(xí)算法,將標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)相結(jié)合共同構(gòu)建模型。但是,由于微博噪聲多,口語(yǔ)化等特點(diǎn),傳統(tǒng)文本情感分析方法并不完全適用。因此針對(duì)微博的特點(diǎn),本文研究包括數(shù)據(jù)預(yù)處理、特征提取和模型構(gòu)建等情感分析的關(guān)鍵性問(wèn)題,主要研究?jī)?nèi)容如下:(1)對(duì)特征提取方法進(jìn)行改進(jìn)。使用傳統(tǒng)信息增益率(Information Gain Ratio)提取特征并不能很好地代表微博文本,對(duì)于微博中常見(jiàn)的表情和顏文字等不能有效的處理...
【文章來(lái)源】:成都信息工程大學(xué)四川省
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
文本情感分類流程
圖 2-2 決策樹(shù)結(jié)構(gòu)示例圖本分類中,信息增益(Information Gain)通常作為集合劃分的一種對(duì)集合進(jìn)行劃分所得的信息增益越大,則說(shuō)明使用該屬性來(lái)劃分度越高,即選擇滿足式(2-7)的屬性*a 作為劃分屬性。argmax(,)*aGainDaa A , D 表示數(shù)據(jù)集,a 表示某個(gè)屬性, Gain ( D,a)表示使用a劃分息增益。常用的 ID3 決策樹(shù)就是使用信息增益選擇最優(yōu)劃分屬性的缺點(diǎn)是它通常會(huì)偏向取值較多的特征。為了改善這個(gè)缺點(diǎn),C使用信息增益率決定最優(yōu)劃分屬性。決策樹(shù)算法原理簡(jiǎn)單,實(shí)現(xiàn)缺失數(shù)據(jù)比較敏感,并且容易過(guò)擬合。持向量機(jī)向量機(jī)(Support Vector Machine:SVM)是一種以統(tǒng)計(jì)學(xué)為基礎(chǔ)的它由 Cortes 和 Vapnik 在 1995 年提出[57]。該算法由于其性能優(yōu)越于 文 本 分 類 中 。 支 持 向 量 機(jī) 是 建 立 在 統(tǒng) 計(jì) 學(xué) 理 論 herbonenksDimension) 和 結(jié) 構(gòu) 風(fēng) 險(xiǎn) 最 小 化 理 論 (Structur
圖 2-3 支持向量機(jī)基本模型原理示意圖wx b 0T,,...)1 2nwww為法向量,b 為偏移距離,則樣本空間中任公式如式(2-9)所示。wwxbdT 所有數(shù)據(jù)都能被超平面正確分類,則對(duì)于 xyDii( ,) )。 imwxbywxbyiiTiiT,1,2,...,1,1.1,1;(2-10)中等式成立的數(shù)據(jù)點(diǎn)稱為“支持向量”。SVM類別的間隔,其中兩個(gè)類別的間隔 r 計(jì)算公式如(2-11)wr2
【參考文獻(xiàn)】:
期刊論文
[1]面向網(wǎng)絡(luò)新聞?lì)I(lǐng)域的評(píng)論情感極性分析[J]. 任聰,李石君. 計(jì)算機(jī)工程與應(yīng)用. 2017(01)
[2]基于融合特征的微博主客觀分類方法[J]. 張曉梅,李茹,王斌,吳迪,高俊杰. 中文信息學(xué)報(bào). 2014(04)
[3]基于情緒相關(guān)事件上下文的隱含情緒分類方法研究[J]. 李壽山,李逸薇,劉歡歡,黃居仁. 中文信息學(xué)報(bào). 2013(06)
[4]基于k均值聚類的直推式支持向量機(jī)學(xué)習(xí)算法[J]. 王立梅,李金鳳,岳琪. 計(jì)算機(jī)工程與應(yīng)用. 2013(14)
[5]基于馬爾科夫邏輯網(wǎng)的句子情感分析方法[J]. 楊立公,湯世平,朱儉. 北京理工大學(xué)學(xué)報(bào). 2013(06)
[6]基于主題情感混合模型的無(wú)監(jiān)督文本情感分析[J]. 孫艷,周學(xué)廣,付偉. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(01)
[7]基于CRFs的評(píng)價(jià)對(duì)象抽取特征研究[J]. 王榮洋,鞠久朋,李壽山,周國(guó)棟. 中文信息學(xué)報(bào). 2012(02)
[8]中文文本情感分析綜述[J]. 魏韡,向陽(yáng),陳千. 計(jì)算機(jī)應(yīng)用. 2011(12)
[9]一種結(jié)合K近鄰法的改進(jìn)的漸進(jìn)直推式支持向量機(jī)學(xué)習(xí)算法[J]. 廖東平,王書宏,黎湘. 電光與控制. 2010(10)
[10]情感分析研究綜述[J]. 周立柱,賀宇凱,王建勇. 計(jì)算機(jī)應(yīng)用. 2008(11)
博士論文
[1]Web評(píng)論文本的細(xì)粒度意見(jiàn)挖掘技術(shù)研究[D]. 黃勝.北京理工大學(xué) 2014
碩士論文
[1]基于FOA-SVM的中文文本分類的研究[D]. 薛博.河北工業(yè)大學(xué) 2014
[2]基于半監(jiān)督學(xué)習(xí)的隨機(jī)森林算法研究與應(yīng)用[D]. 劉孝良.中國(guó)海洋大學(xué) 2013
[3]基于機(jī)器學(xué)習(xí)的軟件缺陷預(yù)測(cè)[D]. 涂威威.南京大學(xué) 2012
[4]文本分類中特征選擇的研究與實(shí)現(xiàn)[D]. 范小麗.西北大學(xué) 2011
[5]基于人工免疫算法的Web文本挖掘研究[D]. 尹麗玲.哈爾濱工程大學(xué) 2010
[6]半監(jiān)督降維和分類算法研究[D]. 趙玲玲.西安電子科技大學(xué) 2009
本文編號(hào):2965021
【文章來(lái)源】:成都信息工程大學(xué)四川省
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
文本情感分類流程
圖 2-2 決策樹(shù)結(jié)構(gòu)示例圖本分類中,信息增益(Information Gain)通常作為集合劃分的一種對(duì)集合進(jìn)行劃分所得的信息增益越大,則說(shuō)明使用該屬性來(lái)劃分度越高,即選擇滿足式(2-7)的屬性*a 作為劃分屬性。argmax(,)*aGainDaa A , D 表示數(shù)據(jù)集,a 表示某個(gè)屬性, Gain ( D,a)表示使用a劃分息增益。常用的 ID3 決策樹(shù)就是使用信息增益選擇最優(yōu)劃分屬性的缺點(diǎn)是它通常會(huì)偏向取值較多的特征。為了改善這個(gè)缺點(diǎn),C使用信息增益率決定最優(yōu)劃分屬性。決策樹(shù)算法原理簡(jiǎn)單,實(shí)現(xiàn)缺失數(shù)據(jù)比較敏感,并且容易過(guò)擬合。持向量機(jī)向量機(jī)(Support Vector Machine:SVM)是一種以統(tǒng)計(jì)學(xué)為基礎(chǔ)的它由 Cortes 和 Vapnik 在 1995 年提出[57]。該算法由于其性能優(yōu)越于 文 本 分 類 中 。 支 持 向 量 機(jī) 是 建 立 在 統(tǒng) 計(jì) 學(xué) 理 論 herbonenksDimension) 和 結(jié) 構(gòu) 風(fēng) 險(xiǎn) 最 小 化 理 論 (Structur
圖 2-3 支持向量機(jī)基本模型原理示意圖wx b 0T,,...)1 2nwww為法向量,b 為偏移距離,則樣本空間中任公式如式(2-9)所示。wwxbdT 所有數(shù)據(jù)都能被超平面正確分類,則對(duì)于 xyDii( ,) )。 imwxbywxbyiiTiiT,1,2,...,1,1.1,1;(2-10)中等式成立的數(shù)據(jù)點(diǎn)稱為“支持向量”。SVM類別的間隔,其中兩個(gè)類別的間隔 r 計(jì)算公式如(2-11)wr2
【參考文獻(xiàn)】:
期刊論文
[1]面向網(wǎng)絡(luò)新聞?lì)I(lǐng)域的評(píng)論情感極性分析[J]. 任聰,李石君. 計(jì)算機(jī)工程與應(yīng)用. 2017(01)
[2]基于融合特征的微博主客觀分類方法[J]. 張曉梅,李茹,王斌,吳迪,高俊杰. 中文信息學(xué)報(bào). 2014(04)
[3]基于情緒相關(guān)事件上下文的隱含情緒分類方法研究[J]. 李壽山,李逸薇,劉歡歡,黃居仁. 中文信息學(xué)報(bào). 2013(06)
[4]基于k均值聚類的直推式支持向量機(jī)學(xué)習(xí)算法[J]. 王立梅,李金鳳,岳琪. 計(jì)算機(jī)工程與應(yīng)用. 2013(14)
[5]基于馬爾科夫邏輯網(wǎng)的句子情感分析方法[J]. 楊立公,湯世平,朱儉. 北京理工大學(xué)學(xué)報(bào). 2013(06)
[6]基于主題情感混合模型的無(wú)監(jiān)督文本情感分析[J]. 孫艷,周學(xué)廣,付偉. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(01)
[7]基于CRFs的評(píng)價(jià)對(duì)象抽取特征研究[J]. 王榮洋,鞠久朋,李壽山,周國(guó)棟. 中文信息學(xué)報(bào). 2012(02)
[8]中文文本情感分析綜述[J]. 魏韡,向陽(yáng),陳千. 計(jì)算機(jī)應(yīng)用. 2011(12)
[9]一種結(jié)合K近鄰法的改進(jìn)的漸進(jìn)直推式支持向量機(jī)學(xué)習(xí)算法[J]. 廖東平,王書宏,黎湘. 電光與控制. 2010(10)
[10]情感分析研究綜述[J]. 周立柱,賀宇凱,王建勇. 計(jì)算機(jī)應(yīng)用. 2008(11)
博士論文
[1]Web評(píng)論文本的細(xì)粒度意見(jiàn)挖掘技術(shù)研究[D]. 黃勝.北京理工大學(xué) 2014
碩士論文
[1]基于FOA-SVM的中文文本分類的研究[D]. 薛博.河北工業(yè)大學(xué) 2014
[2]基于半監(jiān)督學(xué)習(xí)的隨機(jī)森林算法研究與應(yīng)用[D]. 劉孝良.中國(guó)海洋大學(xué) 2013
[3]基于機(jī)器學(xué)習(xí)的軟件缺陷預(yù)測(cè)[D]. 涂威威.南京大學(xué) 2012
[4]文本分類中特征選擇的研究與實(shí)現(xiàn)[D]. 范小麗.西北大學(xué) 2011
[5]基于人工免疫算法的Web文本挖掘研究[D]. 尹麗玲.哈爾濱工程大學(xué) 2010
[6]半監(jiān)督降維和分類算法研究[D]. 趙玲玲.西安電子科技大學(xué) 2009
本文編號(hào):2965021
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2965021.html
最近更新
教材專著