基于遷移學(xué)習(xí)的中文評論情感分類方法研究
本文關(guān)鍵詞:基于遷移學(xué)習(xí)的中文評論情感分類方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:網(wǎng)絡(luò)的快速發(fā)展極大地改變了人們表達(dá)自己觀點(diǎn)與意見的途徑和方式。尤其是隨著電子商務(wù)的發(fā)展,包含消費(fèi)者對產(chǎn)品或服務(wù)的主觀態(tài)度的評論信息越來越多地出現(xiàn)在各種網(wǎng)站中,這些評論對消費(fèi)者和生產(chǎn)廠商來說包含了很多重要的信息,其商業(yè)價(jià)值越來越明顯。網(wǎng)絡(luò)評論信息來源廣泛,有時(shí)還夾雜在許多雜亂的帖子或者微博中,人們要找到相關(guān)的評論資源并從中抽取出情感信息,進(jìn)而進(jìn)行歸納總結(jié)是很困難的,因此自動化的情感分類技術(shù)應(yīng)運(yùn)而生。作為文本挖掘的一個(gè)重要分支,隨著網(wǎng)絡(luò)評論分析的應(yīng)用價(jià)值不斷突顯,需求不斷增加,情感分類已成為近年來的研究熱點(diǎn)之一。 然而,在現(xiàn)實(shí)中,需要進(jìn)行情感分類的產(chǎn)品種類時(shí)常發(fā)生變化,而在進(jìn)行情感分類時(shí),常常會遇到大量沒有標(biāo)注的評論或者只有少部分評論被標(biāo)注的情況,使得機(jī)器學(xué)習(xí)的分類效果不能令人滿意,而通過人工標(biāo)注又將耗費(fèi)大量的人力物力,因此從稀少的評論數(shù)據(jù)甚至是大量的無標(biāo)注評論數(shù)據(jù)中獲取用戶的情感態(tài)勢,目前仍是一個(gè)尚待解決的問題。 遷移學(xué)習(xí)旨在利用從其他任務(wù)學(xué)習(xí)到的知識來幫助解決目標(biāo)任務(wù),因此本文利用遷移學(xué)習(xí)策略,借助已知分類結(jié)果的其他產(chǎn)品領(lǐng)域的標(biāo)注數(shù)據(jù)來輔助解決新產(chǎn)品領(lǐng)域的中文評論情感分類問題。 首先,針對待分類的目標(biāo)產(chǎn)品領(lǐng)域沒有標(biāo)注數(shù)據(jù)的情況,借鑒人們在判斷新詞的情感傾向時(shí),一般會參考與其具有相似語義的詞語的情感傾向的方法,提出基于語義的特征遷移策略。通過源領(lǐng)域特征項(xiàng)與目標(biāo)領(lǐng)域特征項(xiàng)之間的語義相似度和語義相關(guān)度,將源領(lǐng)域的特征項(xiàng)的類別指示作用遷移到目標(biāo)領(lǐng)域,然后應(yīng)用類別空間模型進(jìn)行類別劃分。 其次利用樣本遷移的策略,解決目標(biāo)領(lǐng)域僅存在少量標(biāo)注數(shù)據(jù)的評論情感分類問題。應(yīng)用樣本權(quán)重及樣本分類置信度的雙重選擇策略從源領(lǐng)域數(shù)據(jù)中挑選出與目標(biāo)領(lǐng)域數(shù)據(jù)相對接近的數(shù)據(jù)輔助訓(xùn)練分類器,均衡積極類及消極類的分類精度,使得分類結(jié)果更具參考價(jià)值。 論文最后對研究工作進(jìn)行了總結(jié),并為以后的研究提出了一些方向。
【關(guān)鍵詞】:情感分類 語義遷移 樣本遷移 中文評論 遷移學(xué)習(xí)
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:C931.6
【目錄】:
- 摘要4-5
- Abstract5-9
- 1 緒論9-21
- 1.1 研究背景及問題提出9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-19
- 1.2.1 情感分類基礎(chǔ)理論10-12
- 1.2.2 情感分類的主要方法12-17
- 1.2.3 情感分類的應(yīng)用17-18
- 1.2.4 遷移學(xué)習(xí)18-19
- 1.3 研究內(nèi)容及論文結(jié)構(gòu)19-21
- 2 情感分類與遷移學(xué)習(xí)21-29
- 2.1 遷移學(xué)習(xí)23-25
- 2.1.1 遷移學(xué)習(xí)的定義23-24
- 2.1.2 遷移學(xué)習(xí)的數(shù)據(jù)標(biāo)注24-25
- 2.1.3 遷移學(xué)習(xí)策略25
- 2.2 情感分類中的遷移學(xué)習(xí)策略25-29
- 3 基于語義的特征遷移情感分類方法29-41
- 3.1 算法構(gòu)建29-31
- 3.2 類別向量空間模型31-32
- 3.3 語義遷移策略32-38
- 3.3.1 領(lǐng)域相關(guān)特征抽取32-33
- 3.3.2 語義相似度度量33-35
- 3.3.3 語義相關(guān)度度量35-36
- 3.3.4 語義遷移策略36-38
- 3.4 實(shí)驗(yàn)結(jié)果與分析38-41
- 3.4.1 實(shí)驗(yàn)數(shù)據(jù)與預(yù)處理38
- 3.4.2 對比算法及評價(jià)指標(biāo)38-39
- 3.4.3 實(shí)驗(yàn)結(jié)果分析39-41
- 4 基于樣本雙重選擇策略的情感分類方法41-54
- 4.1 算法構(gòu)建41-43
- 4.2 雙重選擇策略43-46
- 4.2.1 基于樣本權(quán)重的選擇策略43
- 4.2.2 基于樣本分類置信度的選擇策略43-45
- 4.2.3 雙重選擇策略45-46
- 4.3 實(shí)驗(yàn)結(jié)果與分析46-54
- 4.3.1 實(shí)驗(yàn)數(shù)據(jù)與預(yù)處理46-47
- 4.3.2 實(shí)驗(yàn)結(jié)果分析47-54
- 結(jié)論54-56
- 參考文獻(xiàn)56-62
- 攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況62-63
- 致謝63-64
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 吳瓊;譚松波;許洪波;段m#毅;程學(xué)旗;;基于隨機(jī)游走模型的跨領(lǐng)域傾向性分析研究[J];計(jì)算機(jī)研究與發(fā)展;2010年12期
2 婁德成;姚天f ;;漢語句子語義極性分析和觀點(diǎn)抽取方法的研究[J];計(jì)算機(jī)應(yīng)用;2006年11期
3 楊文讓;王中卿;李培峰;朱巧明;;基于質(zhì)心遷移的領(lǐng)域適應(yīng)性情感分類[J];計(jì)算機(jī)應(yīng)用與軟件;2011年12期
4 朱嫣嵐;閔錦;周雅倩;黃萱菁;吳立德;;基于HowNet的詞匯語義傾向計(jì)算[J];中文信息學(xué)報(bào);2006年01期
5 唐慧豐;譚松波;程學(xué)旗;;基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J];中文信息學(xué)報(bào);2007年06期
6 夏火松;劉建;朱慧毅;;中文情感分類挖掘預(yù)處理關(guān)鍵技術(shù)比較研究[J];情報(bào)雜志;2011年09期
7 段建勇;謝宇超;張梅;;基于句法語義的網(wǎng)絡(luò)輿論情感傾向性評價(jià)技術(shù)研究[J];情報(bào)雜志;2012年01期
8 趙妍妍;秦兵;劉挺;;文本情感分析[J];軟件學(xué)報(bào);2010年08期
9 鄧煜;唐大麟;于夢;;社會化媒體時(shí)代的品牌營銷之道[J];現(xiàn)代營銷(學(xué)苑版);2011年11期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 孟佳娜;遷移學(xué)習(xí)在文本分類中的應(yīng)用研究[D];大連理工大學(xué);2011年
本文關(guān)鍵詞:基于遷移學(xué)習(xí)的中文評論情感分類方法研究,,由筆耕文化傳播整理發(fā)布。
本文編號:254017
本文鏈接:http://sikaile.net/guanlilunwen/yunyingzuzhiguanlilunwen/254017.html