基于圖的半監(jiān)督情感分類算法研究
本文關(guān)鍵詞:基于圖的半監(jiān)督情感分類算法研究
更多相關(guān)文章: 半監(jiān)督學(xué)習(xí) 聚類核 圖 情感分類 文本表示模型
【摘要】:在互聯(lián)網(wǎng)快速發(fā)展的今天,“大數(shù)據(jù)”的存儲(chǔ)和使用,已經(jīng)成為信息技術(shù)領(lǐng)域急需解決的問(wèn)題。文本數(shù)據(jù)作為人類知識(shí)的載體,意義非凡,如何運(yùn)用大量未標(biāo)記樣本來(lái)提升文本情感分類的精度,也變得愈發(fā)重要。本文主要研究了基于圖的半監(jiān)督情感分類算法,創(chuàng)新工作如下。(1)將半監(jiān)督學(xué)習(xí)中重要的聚類核算法應(yīng)用到情感分類問(wèn)題中,給出了基于聚類核的半監(jiān)督情感分類算法。首先在標(biāo)記樣本和未標(biāo)記樣本上,建立加權(quán)無(wú)向圖后,求解聚類核。然后將該核函數(shù)用于SVM情感分類器的訓(xùn)練上,完成分類工作。該方法直接將未標(biāo)記樣本所蘊(yùn)含的信息融合到核中,不需要建立多個(gè)分類器。實(shí)驗(yàn)表明,該算法在分類精度上明顯優(yōu)于基于Self-learning SVM和Co-training SVM的半監(jiān)督情感分類算法,且在不同數(shù)據(jù)集上都有較好的適應(yīng)性。(2)將聚類核算法同圖最小分割法相結(jié)合應(yīng)用到情感分類問(wèn)題中,建立了基于圖聚類核的半監(jiān)督情感分類算法。首先在所有樣本上進(jìn)行構(gòu)圖,對(duì)鄰近標(biāo)記點(diǎn)和未標(biāo)記點(diǎn)分別給予不同的權(quán)重。然后,求解出基于該圖的聚類核,將通過(guò)聚類核從新表示后的數(shù)據(jù)帶入到圖最小分割法中,得到更好的分類效果。該算法更好的滿足半監(jiān)督學(xué)習(xí)的基本假設(shè),有效利用了未標(biāo)記樣本中蘊(yùn)含的信息。實(shí)驗(yàn)表明,該算法在分類精度上明顯優(yōu)于其他半監(jiān)督情感分類算法,且不同數(shù)據(jù)集上都有較好結(jié)果。(3)將Graph-of-words文本表示模型引入半監(jiān)督情感分類問(wèn)題中,提出了兩種基于Graph-of-words的半監(jiān)督情感分類算法。在文本預(yù)處理過(guò)程中,使用Graph-of-words模型進(jìn)行文本向量化,然后將上述模型與前面提出的分類算法想結(jié)合,完成情感分類問(wèn)題。該算法考慮了文本表示方法對(duì)于情感分類算法的影響,進(jìn)一步了提高半監(jiān)督情感分類算法的分類精度。實(shí)驗(yàn)表明,基于Graph-of-words模型的半監(jiān)督情感分類算法在分類精度上明顯優(yōu)于前面列舉出的算法,改進(jìn)效果明顯。
【關(guān)鍵詞】:半監(jiān)督學(xué)習(xí) 聚類核 圖 情感分類 文本表示模型
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:O157.5;TP391.1
【目錄】:
- 摘要4-5
- Abstract5-8
- 專用術(shù)語(yǔ)注釋表8-9
- 第一章 緒論9-18
- 1.1 研究背景及意義9-10
- 1.2 研究現(xiàn)狀10-16
- 1.2.1 基于圖的半監(jiān)督算法研究現(xiàn)狀10-13
- 1.2.2 半監(jiān)督情感分類的研究現(xiàn)狀13-16
- 1.3 本文研究?jī)?nèi)容16-17
- 1.4 本文組織結(jié)構(gòu)17-18
- 第二章 基礎(chǔ)知識(shí)18-28
- 2.1 基于圖的半監(jiān)督算法18-22
- 2.1.1 基于圖的半監(jiān)督學(xué)習(xí)概述18-20
- 2.1.2 能量函數(shù)的定義20
- 2.1.3 基于圖的常用半監(jiān)督分類方法。20-22
- 2.2 文本情感分類研究概述22-27
- 2.2.1 情感分類流程22-25
- 2.2.2 情感分類常用文本表示方法25-26
- 2.2.3 常用情感分類算法26-27
- 2.3 本章小結(jié)27-28
- 第三章 基于聚類核的半監(jiān)督情感分類算法28-37
- 3.1 基于圖的半監(jiān)督情感分類模型28-29
- 3.2 聚類核29-31
- 3.3 基于聚類核的半監(jiān)督情感分類算法31-33
- 3.4 實(shí)驗(yàn)與結(jié)果分析33-36
- 3.4.1 數(shù)據(jù)集選取及預(yù)處理34
- 3.4.2 結(jié)果分析34-36
- 3.5 本章小結(jié)36-37
- 第四章 基于圖聚類核的半監(jiān)督情感分類算法37-44
- 4.1 圖的最小分割算法37-38
- 4.2 基于圖聚類核的半監(jiān)督情感分類算法38-41
- 4.3 實(shí)驗(yàn)與結(jié)果分析41-43
- 4.3.1 數(shù)據(jù)集選取及預(yù)處理41-42
- 4.3.2 結(jié)果分析42-43
- 4.4 本章小結(jié)43-44
- 第五章 基于Graph-of-words模型的半監(jiān)督情感分類算法44-54
- 5.1 Graph-of-words文本表示模型44-47
- 5.2 基于Graph-of-words模型的半監(jiān)督情感分類算法47-49
- 5.3 實(shí)驗(yàn)與結(jié)果分析49-53
- 5.3.1 數(shù)據(jù)集選取及預(yù)處理50
- 5.3.2 結(jié)果分析50-53
- 5.4 本章小結(jié)53-54
- 第六章 總結(jié)與展望54-56
- 參考文獻(xiàn)56-61
- 附錄1 程序清單61-62
- 附錄2 攻讀碩士學(xué)位期間撰寫(xiě)的論文62-63
- 附錄3 攻讀碩士學(xué)位期間參加的科研項(xiàng)目63-64
- 致謝64
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 陳將宏;;基于核方法的分類算法比較研究[J];甘肅聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年06期
2 谷振亞;彭新光;;基于稀有類分類算法的入侵檢測(cè)研究[J];科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì);2010年11期
3 徐淑坦;王朝勇;孫延風(fēng);;一種不均衡數(shù)據(jù)的改進(jìn)蟻群分類算法[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2011年04期
4 靳燕;;基于權(quán)值控制的誤分類算法研究[J];山西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年02期
5 何文趨;;一種數(shù)據(jù)庫(kù)文件外分類算法的復(fù)雜性[J];鄭州大學(xué)學(xué)報(bào)(自然科學(xué)版);1993年02期
6 蔡巍,王永成,李偉,尹中航;三種分類算法的實(shí)驗(yàn)比較[J];上海交通大學(xué)學(xué)報(bào);2004年04期
7 何文趨,,何玉章,曾弛;一種外分類算法[J];鄭州大學(xué)學(xué)報(bào)(自然科學(xué)版);1994年04期
8 戴雪龍;王永綱;張萬(wàn)生;;并行層壓縮樹(shù)包分類算法[J];中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào);2006年03期
9 李新國(guó);;IP分組分類算法分析與比較研究[J];邵陽(yáng)學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年01期
10 蔡賀;張睿;;k最近鄰域分類算法分析與研究[J];甘肅科技;2012年18期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 趙波;唐常杰;朱明放;魏大剛;左R
本文編號(hào):874131
本文鏈接:http://sikaile.net/kejilunwen/yysx/874131.html