基于半監(jiān)督學(xué)習(xí)的微博情感分析技術(shù)研究
發(fā)布時間:2021-01-08 17:40
web2.0技術(shù)的普及,使得廣大網(wǎng)絡(luò)用戶從傳統(tǒng)的被動接收消息轉(zhuǎn)變?yōu)橹鲃影l(fā)布信息,人們比過去更愿意在網(wǎng)絡(luò)上分享自己的生活和觀點。微博以其操作簡單、快捷和實時等特點受到大量用戶的青睞。在全球,每天都有數(shù)以億計的微博更新,這龐大的數(shù)據(jù)看似雜亂無章,毫無規(guī)律,但其中卻蘊(yùn)含著豐富的信息,對于個人決策和企業(yè)產(chǎn)品的改良具有重要意義。因此,基于微博數(shù)據(jù)的用戶情感分析已經(jīng)成為學(xué)術(shù)界熱門問題之一。目前,基于監(jiān)督學(xué)習(xí)算法的文本情感分析取得不錯效果,但是這種算法模型需要的標(biāo)記數(shù)據(jù)數(shù)量較多。在實際應(yīng)用中,較多數(shù)量標(biāo)記數(shù)據(jù)的獲取需要消耗較多資源,與之相對,未標(biāo)記數(shù)據(jù)獲取較為簡單。因此,針對中文微博情感分析,本文使用半監(jiān)督學(xué)習(xí)算法,將標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)相結(jié)合共同構(gòu)建模型。但是,由于微博噪聲多,口語化等特點,傳統(tǒng)文本情感分析方法并不完全適用。因此針對微博的特點,本文研究包括數(shù)據(jù)預(yù)處理、特征提取和模型構(gòu)建等情感分析的關(guān)鍵性問題,主要研究內(nèi)容如下:(1)對特征提取方法進(jìn)行改進(jìn)。使用傳統(tǒng)信息增益率(Information Gain Ratio)提取特征并不能很好地代表微博文本,對于微博中常見的表情和顏文字等不能有效的處理...
【文章來源】:成都信息工程大學(xué)四川省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本情感分類流程
圖 2-2 決策樹結(jié)構(gòu)示例圖本分類中,信息增益(Information Gain)通常作為集合劃分的一種對集合進(jìn)行劃分所得的信息增益越大,則說明使用該屬性來劃分度越高,即選擇滿足式(2-7)的屬性*a 作為劃分屬性。argmax(,)*aGainDaa A , D 表示數(shù)據(jù)集,a 表示某個屬性, Gain ( D,a)表示使用a劃分息增益。常用的 ID3 決策樹就是使用信息增益選擇最優(yōu)劃分屬性的缺點是它通常會偏向取值較多的特征。為了改善這個缺點,C使用信息增益率決定最優(yōu)劃分屬性。決策樹算法原理簡單,實現(xiàn)缺失數(shù)據(jù)比較敏感,并且容易過擬合。持向量機(jī)向量機(jī)(Support Vector Machine:SVM)是一種以統(tǒng)計學(xué)為基礎(chǔ)的它由 Cortes 和 Vapnik 在 1995 年提出[57]。該算法由于其性能優(yōu)越于 文 本 分 類 中 。 支 持 向 量 機(jī) 是 建 立 在 統(tǒng) 計 學(xué) 理 論 herbonenksDimension) 和 結(jié) 構(gòu) 風(fēng) 險 最 小 化 理 論 (Structur
圖 2-3 支持向量機(jī)基本模型原理示意圖wx b 0T,,...)1 2nwww為法向量,b 為偏移距離,則樣本空間中任公式如式(2-9)所示。wwxbdT 所有數(shù)據(jù)都能被超平面正確分類,則對于 xyDii( ,) )。 imwxbywxbyiiTiiT,1,2,...,1,1.1,1;(2-10)中等式成立的數(shù)據(jù)點稱為“支持向量”。SVM類別的間隔,其中兩個類別的間隔 r 計算公式如(2-11)wr2
【參考文獻(xiàn)】:
期刊論文
[1]面向網(wǎng)絡(luò)新聞領(lǐng)域的評論情感極性分析[J]. 任聰,李石君. 計算機(jī)工程與應(yīng)用. 2017(01)
[2]基于融合特征的微博主客觀分類方法[J]. 張曉梅,李茹,王斌,吳迪,高俊杰. 中文信息學(xué)報. 2014(04)
[3]基于情緒相關(guān)事件上下文的隱含情緒分類方法研究[J]. 李壽山,李逸薇,劉歡歡,黃居仁. 中文信息學(xué)報. 2013(06)
[4]基于k均值聚類的直推式支持向量機(jī)學(xué)習(xí)算法[J]. 王立梅,李金鳳,岳琪. 計算機(jī)工程與應(yīng)用. 2013(14)
[5]基于馬爾科夫邏輯網(wǎng)的句子情感分析方法[J]. 楊立公,湯世平,朱儉. 北京理工大學(xué)學(xué)報. 2013(06)
[6]基于主題情感混合模型的無監(jiān)督文本情感分析[J]. 孫艷,周學(xué)廣,付偉. 北京大學(xué)學(xué)報(自然科學(xué)版). 2013(01)
[7]基于CRFs的評價對象抽取特征研究[J]. 王榮洋,鞠久朋,李壽山,周國棟. 中文信息學(xué)報. 2012(02)
[8]中文文本情感分析綜述[J]. 魏韡,向陽,陳千. 計算機(jī)應(yīng)用. 2011(12)
[9]一種結(jié)合K近鄰法的改進(jìn)的漸進(jìn)直推式支持向量機(jī)學(xué)習(xí)算法[J]. 廖東平,王書宏,黎湘. 電光與控制. 2010(10)
[10]情感分析研究綜述[J]. 周立柱,賀宇凱,王建勇. 計算機(jī)應(yīng)用. 2008(11)
博士論文
[1]Web評論文本的細(xì)粒度意見挖掘技術(shù)研究[D]. 黃勝.北京理工大學(xué) 2014
碩士論文
[1]基于FOA-SVM的中文文本分類的研究[D]. 薛博.河北工業(yè)大學(xué) 2014
[2]基于半監(jiān)督學(xué)習(xí)的隨機(jī)森林算法研究與應(yīng)用[D]. 劉孝良.中國海洋大學(xué) 2013
[3]基于機(jī)器學(xué)習(xí)的軟件缺陷預(yù)測[D]. 涂威威.南京大學(xué) 2012
[4]文本分類中特征選擇的研究與實現(xiàn)[D]. 范小麗.西北大學(xué) 2011
[5]基于人工免疫算法的Web文本挖掘研究[D]. 尹麗玲.哈爾濱工程大學(xué) 2010
[6]半監(jiān)督降維和分類算法研究[D]. 趙玲玲.西安電子科技大學(xué) 2009
本文編號:2965021
【文章來源】:成都信息工程大學(xué)四川省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本情感分類流程
圖 2-2 決策樹結(jié)構(gòu)示例圖本分類中,信息增益(Information Gain)通常作為集合劃分的一種對集合進(jìn)行劃分所得的信息增益越大,則說明使用該屬性來劃分度越高,即選擇滿足式(2-7)的屬性*a 作為劃分屬性。argmax(,)*aGainDaa A , D 表示數(shù)據(jù)集,a 表示某個屬性, Gain ( D,a)表示使用a劃分息增益。常用的 ID3 決策樹就是使用信息增益選擇最優(yōu)劃分屬性的缺點是它通常會偏向取值較多的特征。為了改善這個缺點,C使用信息增益率決定最優(yōu)劃分屬性。決策樹算法原理簡單,實現(xiàn)缺失數(shù)據(jù)比較敏感,并且容易過擬合。持向量機(jī)向量機(jī)(Support Vector Machine:SVM)是一種以統(tǒng)計學(xué)為基礎(chǔ)的它由 Cortes 和 Vapnik 在 1995 年提出[57]。該算法由于其性能優(yōu)越于 文 本 分 類 中 。 支 持 向 量 機(jī) 是 建 立 在 統(tǒng) 計 學(xué) 理 論 herbonenksDimension) 和 結(jié) 構(gòu) 風(fēng) 險 最 小 化 理 論 (Structur
圖 2-3 支持向量機(jī)基本模型原理示意圖wx b 0T,,...)1 2nwww為法向量,b 為偏移距離,則樣本空間中任公式如式(2-9)所示。wwxbdT 所有數(shù)據(jù)都能被超平面正確分類,則對于 xyDii( ,) )。 imwxbywxbyiiTiiT,1,2,...,1,1.1,1;(2-10)中等式成立的數(shù)據(jù)點稱為“支持向量”。SVM類別的間隔,其中兩個類別的間隔 r 計算公式如(2-11)wr2
【參考文獻(xiàn)】:
期刊論文
[1]面向網(wǎng)絡(luò)新聞領(lǐng)域的評論情感極性分析[J]. 任聰,李石君. 計算機(jī)工程與應(yīng)用. 2017(01)
[2]基于融合特征的微博主客觀分類方法[J]. 張曉梅,李茹,王斌,吳迪,高俊杰. 中文信息學(xué)報. 2014(04)
[3]基于情緒相關(guān)事件上下文的隱含情緒分類方法研究[J]. 李壽山,李逸薇,劉歡歡,黃居仁. 中文信息學(xué)報. 2013(06)
[4]基于k均值聚類的直推式支持向量機(jī)學(xué)習(xí)算法[J]. 王立梅,李金鳳,岳琪. 計算機(jī)工程與應(yīng)用. 2013(14)
[5]基于馬爾科夫邏輯網(wǎng)的句子情感分析方法[J]. 楊立公,湯世平,朱儉. 北京理工大學(xué)學(xué)報. 2013(06)
[6]基于主題情感混合模型的無監(jiān)督文本情感分析[J]. 孫艷,周學(xué)廣,付偉. 北京大學(xué)學(xué)報(自然科學(xué)版). 2013(01)
[7]基于CRFs的評價對象抽取特征研究[J]. 王榮洋,鞠久朋,李壽山,周國棟. 中文信息學(xué)報. 2012(02)
[8]中文文本情感分析綜述[J]. 魏韡,向陽,陳千. 計算機(jī)應(yīng)用. 2011(12)
[9]一種結(jié)合K近鄰法的改進(jìn)的漸進(jìn)直推式支持向量機(jī)學(xué)習(xí)算法[J]. 廖東平,王書宏,黎湘. 電光與控制. 2010(10)
[10]情感分析研究綜述[J]. 周立柱,賀宇凱,王建勇. 計算機(jī)應(yīng)用. 2008(11)
博士論文
[1]Web評論文本的細(xì)粒度意見挖掘技術(shù)研究[D]. 黃勝.北京理工大學(xué) 2014
碩士論文
[1]基于FOA-SVM的中文文本分類的研究[D]. 薛博.河北工業(yè)大學(xué) 2014
[2]基于半監(jiān)督學(xué)習(xí)的隨機(jī)森林算法研究與應(yīng)用[D]. 劉孝良.中國海洋大學(xué) 2013
[3]基于機(jī)器學(xué)習(xí)的軟件缺陷預(yù)測[D]. 涂威威.南京大學(xué) 2012
[4]文本分類中特征選擇的研究與實現(xiàn)[D]. 范小麗.西北大學(xué) 2011
[5]基于人工免疫算法的Web文本挖掘研究[D]. 尹麗玲.哈爾濱工程大學(xué) 2010
[6]半監(jiān)督降維和分類算法研究[D]. 趙玲玲.西安電子科技大學(xué) 2009
本文編號:2965021
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2965021.html
最近更新
教材專著