Web評論文本情感分類方法研究
本文關(guān)鍵詞:Web評論文本情感分類方法研究
更多相關(guān)文章: 情感分類 特征擴展 半監(jiān)督學習 自訓練 協(xié)同訓練
【摘要】:隨著電子商務及社會媒體的快速發(fā)展,用戶越來越習慣于在互聯(lián)網(wǎng)上針對商品、新聞事件、公眾人物等各種對象及主題發(fā)表評論。面對不斷涌現(xiàn)的海量Web評論文本,傳統(tǒng)的人工方式難以對其中的觀點信息進行全面有效的分析利用,因此,近年來文本情感分析研究得到了廣泛關(guān)注。作為文本情感分析中的一項核心任務,文本情感分類旨在對帶有情感色彩的文本進行情感傾向性分類,具有重要的學術(shù)研究價值及廣泛的應用前景,同時也面臨諸多挑戰(zhàn)性問題。本文圍繞文本情感分類研究所面臨的數(shù)據(jù)稀疏性、標注樣本獲取困難、情感資源的不平衡性等問題,開展了一系列研究。主要工作及貢獻包括以下幾點:①提出了基于特征擴展與集成學習的句子級情感分類方法。針對句子級評論文本中的數(shù)據(jù)稀疏性問題,本文在大規(guī)模無標注數(shù)據(jù)集上訓練主題模型和詞向量表示模型。通過主題模型來獲得主題特征,通過詞向量表示模型來獲得相關(guān)詞特征。然后分別利用這兩種特征來對文本進行特征擴展,并相應訓練分類器。在此基礎(chǔ)上,本文進一步利用集成學習方法將不同分類器的分類結(jié)果進行集成,得到最終分類器。實驗結(jié)果表明:基于特征擴展與集成學習的情感分類方法中,主題特征及相關(guān)詞特征均能有效地對文本進行特征擴展,緩解數(shù)據(jù)稀疏性問題。最終分類器由于集成了兩類不同分類器的分類結(jié)果,能綜合利用主題特征及相關(guān)詞特征的語義信息,進一步提升分類性能。②提出了基于情感詞典與機器學習的無監(jiān)督情感分類框架。針對有監(jiān)督情感分類方法中標注樣本獲取困難的問題,本文提出一種不依賴于人工標注語料的無監(jiān)督情感分類框架。該框架分兩階段來進行情感分類:第一階段利用情感詞典資源從無標注語料中挑選置信度高的樣本來構(gòu)成偽標注訓練集;第二階段則使用半監(jiān)督學習方法,利用偽標注訓練集及無標注數(shù)據(jù)來學習分類器,獲得分類結(jié)果。在四個公共數(shù)據(jù)集上的實驗結(jié)果表明:無監(jiān)督情感分類框架通過對情感詞典及語料的有效應用,能夠有效改善分類性能;進一步,本文還比較了各種半監(jiān)督學習算法在分類框架中的分類效果,發(fā)現(xiàn)自訓練方法具有分類性能好、適應性強等特點,適用于該情感分類框架。③提出了基于數(shù)據(jù)集劃分與自訓練的無監(jiān)督文檔情感分類方法。在第②項研究工作的基礎(chǔ)上,針對自訓練法在迭代過程中所累積的樣本噪聲導致分類性能下降的問題,本文提出一種基于數(shù)據(jù)集劃分的改進自訓練法。該方法在數(shù)據(jù)子集上學習分類器,并在迭代過程中由兩個分類器對無標注樣本的分類結(jié)果進行一致性檢驗。在四個公共數(shù)據(jù)集上的實驗結(jié)果表明:基于改進自訓練分類器的無監(jiān)督情感分類方法能有效地降低錯誤標記樣本帶來的影響,相比其他一系列基準方法有顯著的性能提升,在部分數(shù)據(jù)集上的分類性能甚至超出了有監(jiān)督學習方法的分類性能。④提出了基于隨機子空間與協(xié)同訓練的跨語言情感分類方法。針對情感資源的不平衡性問題,本文研究跨語言情感分類問題,以充分利用不同語言的資源。在利用語言學知識的基礎(chǔ)上,提出了一種基于詞性組合的隨機子空間法,并將其應用于中文及英文這兩種語言視圖上,然后將得到的多個子視圖應用于協(xié)同訓練方法中來進行跨語言情感分類。實驗結(jié)果表明:將基于詞性組合的隨機子空間法應用于協(xié)同訓練框架中,由于得到更多冗余視圖,能有效地利用不同語言中的標注語料及無標注語料,從而顯著地提升跨語言情感分類性能。
【關(guān)鍵詞】:情感分類 特征擴展 半監(jiān)督學習 自訓練 協(xié)同訓練
【學位授予單位】:重慶大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 中文摘要3-5
- 英文摘要5-11
- 1 緒論11-25
- 1.1 研究背景與意義11-12
- 1.2 研究現(xiàn)狀及分析12-21
- 1.2.1 文檔級情感分類13-16
- 1.2.2 句子級情感分類16-18
- 1.2.3 詞語級情感分類18-20
- 1.2.4 跨領(lǐng)域情感分類20
- 1.2.5 跨語言情感分類20-21
- 1.3 面臨的問題及挑戰(zhàn)21-22
- 1.4 本文的主要工作22-23
- 1.5 本文的內(nèi)容安排23-25
- 2 文本情感分類基礎(chǔ)知識25-33
- 2.1 引言25
- 2.2 向量空間模型25-26
- 2.3 常用分類方法26-30
- 2.3.1 樸素貝葉斯法26-27
- 2.3.2 支持向量機27-28
- 2.3.3 最大熵模型28-30
- 2.4 評價指標30-31
- 2.5 常用情感資源31-32
- 2.5.1 情感詞典31
- 2.5.2 情感語料31-32
- 2.6 本章小結(jié)32-33
- 3 基于特征擴展與集成學習的句子級情感分類方法33-57
- 3.1 引言33-35
- 3.2 相關(guān)工作35-36
- 3.2.1 短文本分類/聚類35
- 3.2.2 句子級情感分類35-36
- 3.3 概率主題模型36-39
- 3.3.1 LDA模型36-37
- 3.3.2 JST模型37-39
- 3.4 詞向量表示模型39-40
- 3.5 基于特征擴展及集成學習的情感分類算法40-44
- 3.5.1 算法框架40-41
- 3.5.2 基于主題的特征擴展41
- 3.5.3 基于相關(guān)詞的特征擴展41-42
- 3.5.4 集成分類器構(gòu)建42
- 3.5.5 算法的整體描述42-44
- 3.6 實驗及分析44-56
- 3.6.1 實驗數(shù)據(jù)集及設置44-45
- 3.6.2 數(shù)據(jù)預處理45-46
- 3.6.3 對比方法46-47
- 3.6.4 實驗結(jié)果及分析47-52
- 3.6.5 數(shù)據(jù)驅(qū)動特征與基于情感詞典的特征的對比52
- 3.6.6 參數(shù)分析52-54
- 3.6.7 外部數(shù)據(jù)集大小的影響54-56
- 3.7 本章小結(jié)56-57
- 4 基于情感詞典與機器學習的無監(jiān)督情感分類框架57-73
- 4.1 引言57-58
- 4.2 相關(guān)工作58-59
- 4.3 半監(jiān)督學習方法59-62
- 4.3.1 自訓練59
- 4.3.2 直推式支持向量機59-61
- 4.3.3 譜圖直推器61-62
- 4.4 詞典與統(tǒng)計相結(jié)合的無監(jiān)督情感分類框架62-65
- 4.4.1 基于情感詞典的分類階段62-64
- 4.4.2 基于語料的學習階段64-65
- 4.5 實驗及分析65-71
- 4.5.1 實驗數(shù)據(jù)集65-66
- 4.5.2 情感詞典66
- 4.5.3 實驗設置66-67
- 4.5.4 對比方法67-68
- 4.5.5 實驗結(jié)果及分析68-71
- 4.6 小結(jié)71-73
- 5 基于數(shù)據(jù)集劃分與自訓練的無監(jiān)督文檔情感分類方法73-93
- 5.1 引言73
- 5.2 相關(guān)工作73-74
- 5.3 基于數(shù)據(jù)集劃分與自訓練的情感分類算法74-80
- 5.3.1 文檔的情感傾向性分值計算75-76
- 5.3.2 數(shù)據(jù)集劃分76-77
- 5.3.3 改進的自訓練方法77-78
- 5.3.4 算法的整體過程78-80
- 5.4 實驗及分析80-91
- 5.4.1 實驗設置80
- 5.4.2 對比方法80-81
- 5.4.3 實驗結(jié)果及分析81-85
- 5.4.4 參數(shù)分析85-88
- 5.4.5 數(shù)據(jù)集大小的影響88-91
- 5.5 小結(jié)91-93
- 6 基于隨機子空間與協(xié)同訓練的跨語言情感分類方法93-105
- 6.1 引言93-94
- 6.2 相關(guān)工作94-95
- 6.3 跨語言情感分類算法95-98
- 6.3.1 基于詞性組合的隨機子空間法96-97
- 6.3.2 基于特征子空間的協(xié)同訓練算法97-98
- 6.4 實驗及分析98-104
- 6.4.1 實驗設置98-100
- 6.4.2 對比方法100
- 6.4.3 實驗結(jié)果及分析100-102
- 6.4.4 參數(shù)分析102-104
- 6.5 小結(jié)104-105
- 7 總結(jié)與展望105-107
- 7.1 論文的主要貢獻及創(chuàng)新之處105-106
- 7.2 后續(xù)研究工作的展望106-107
- 致謝107-109
- 參考文獻109-123
- 附錄123-124
- A作者在攻讀博士學位期間發(fā)表的論文目錄123-124
- B作者在攻讀博士學位期間參加的科研項目124
- C作者在攻讀博士學位期間所獲科研獎勵124
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李廣洲,丁金芳,鄧海山;基于Web的化學計算機化自適應測驗系統(tǒng)的實現(xiàn)[J];計算機與應用化學;2002年05期
2 趙松林;基于Web服務的企業(yè)應用集成[J];微型機與應用;2003年08期
3 杜保華,劉彈,侯成剛,徐光華;XML WebService在基于Web遠程分析工具集中的應用[J];儀器儀表用戶;2004年02期
4 嚴毅,唐天兵,寧葵;Web服務實現(xiàn)開放式的企業(yè)應用集成[J];廣西大學學報(自然科學版);2005年03期
5 邵文田;;去除使用Web服務尋找適當?shù)某绦蝽椖縖J];電腦迷;2007年15期
6 宋平;;基于Web服務的企業(yè)應用集成[J];福建電腦;2007年10期
7 鄒丹;;基于Web服務的醫(yī)院信息管理系統(tǒng)的設計與實現(xiàn)[J];大眾科技;2007年06期
8 彭玉華;;基于Web的學生信息管理系統(tǒng)的設計與實現(xiàn)[J];民營科技;2010年09期
9 陳波;師惠忠;;一種新型Web應用安全漏洞統(tǒng)一描述語言[J];小型微型計算機系統(tǒng);2011年10期
10 ;借會獻技——國際軟件博覽會中心議題web計算及應用[J];每周電腦報;1997年43期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 劉正濤;毛宇光;應毅;;基于Web服務的分布式Web應用框架研究[A];第一屆全國Web信息系統(tǒng)及其應用會議(WISA2004)論文集[C];2004年
2 戴琦;;Web上的數(shù)據(jù)挖掘[A];全國計算機網(wǎng)絡應用年會論文集(2001)[C];2001年
3 王衛(wèi);;基于Web的數(shù)據(jù)庫應用[A];第十八屆中國(天津)’2004IT、網(wǎng)絡、信息技術(shù)、電子、儀器儀表創(chuàng)新學術(shù)會議論文集[C];2004年
4 張默;廖湖聲;杜金蓮;;基于Web服務的開放式地理信息系統(tǒng)的研究[A];2006年全國開放式分布與并行計算機學術(shù)會議論文集(三)[C];2006年
5 鄭菊艷;續(xù)愛民;;基于WEB模式的科研項目管理系統(tǒng)的設計與實現(xiàn)[A];第十四屆中國科協(xié)年會第5分會場:綠色船舶與海洋裝備創(chuàng)新發(fā)展及產(chǎn)業(yè)化論壇論文集[C];2012年
6 鄭菊艷;續(xù)愛民;;基于WEB模式的科研項目管理系統(tǒng)的設計與實現(xiàn)[A];2012年MIS/S&A學術(shù)交流會議論文集[C];2012年
7 李勤;;基于WEB的計算機模擬病例考試系統(tǒng)在全科醫(yī)師培訓實踐能力測試中應用研究[A];2012年浙江省全科醫(yī)學學術(shù)年會論文匯編[C];2012年
8 黃海林;孫向陽;;基于Web的大學物理試題管理系統(tǒng)的設計[A];湖北省物理學會、武漢物理學會成立70周年慶典暨2002年學術(shù)年會論文集[C];2002年
9 于莉莉;張毅;;基于Web的人力資源管理系統(tǒng)研究與設計[A];2008全國制造業(yè)信息化標準化論壇論文集[C];2008年
10 李中華;;企業(yè)Web應用安全威脅與防護[A];創(chuàng)新·融合·發(fā)展——創(chuàng)新型煤炭企業(yè)發(fā)展與信息化高峰論壇論文集[C];2010年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 劉繼安;準備好了嗎?WEB教師[N];中國教育報;2001年
2 張承東;Web智能考核廣告[N];網(wǎng)絡世界;2009年
3 科訊;WEB教師——一個全新職業(yè)的透析[N];科技日報;2001年
4 王雅麗;博客社區(qū)齊上陣 銀行借Web 2.0拉攏未來客戶[N];中國計算機報;2008年
5 本報記者 黃智軍;Web應用呼喚新型安全系統(tǒng)[N];計算機世界;2009年
6 居易;WEB教師熱門起來[N];組織人事報;2001年
7 本報記者 趙曉濤;四問“Web防御與云安全”[N];網(wǎng)絡世界;2008年
8 本報記者 徐恒;手機瀏覽器:競爭不斷加劇 Web大勢所趨[N];中國電子報;2009年
9 電腦商報記者 張戈;Web應用安全正當時[N];電腦商報;2010年
10 李晨;Web應用安全應貫穿生命周期[N];人民郵電;2009年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 萬志遠;Web應用程序漏洞檢測關(guān)鍵技術(shù)研究[D];浙江大學;2014年
2 黃治虎;基于網(wǎng)頁信息和圖像特征的Web圖像檢索研究[D];重慶大學;2015年
3 張璞;Web評論文本情感分類方法研究[D];重慶大學;2015年
4 孫慧峰;基于協(xié)同過濾的個性化Web推薦[D];北京郵電大學;2012年
5 何儒漢;Web圖像的多模融合檢索研究[D];華中科技大學;2007年
6 張建武;面向Web應用的安全評測技術(shù)研究[D];北京郵電大學;2012年
7 龍慧云;基于進程代數(shù)的Web服務數(shù)據(jù)和組合的形式化方法研究[D];貴州大學;2009年
8 孫濤;面向市場情報分析的Web實體事件融合問題研究[D];山東大學;2014年
9 謝琪;基于協(xié)同過濾與QoS的個性化Web服務推薦研究[D];重慶大學;2012年
10 劉方方;Web服務合成與可用性的若干關(guān)鍵技術(shù)研究[D];復旦大學;2007年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 李林蓉;基于Restful和OSGI的Web應用轉(zhuǎn)換容器的研究與實現(xiàn)[D];華南理工大學;2015年
2 陳彬彬;基于QoS隨機性的Web服務質(zhì)量偏離監(jiān)測方法研究與實現(xiàn)[D];昆明理工大學;2015年
3 徐超;機頂盒中基于Web交互方式的設計與實現(xiàn)[D];西南交通大學;2015年
4 張銳;基于Web技術(shù)下的出差管理系統(tǒng)[D];西安工業(yè)大學;2015年
5 游維;基于Rest的Web業(yè)務系統(tǒng)日志采集與分析系統(tǒng)的研究與開發(fā)[D];山東大學;2015年
6 陶瑩昌;基于Web的校園二手圖書拍賣平臺的設計與實現(xiàn)[D];西華師范大學;2015年
7 周贏;基于WEB的績效管理系統(tǒng)的設計與實現(xiàn)[D];電子科技大學;2015年
8 宋平亮;基于MongoDB的航道數(shù)據(jù)Web服務研究[D];大連海事大學;2015年
9 汪洋;基于web的普通話新聞檢索技術(shù)研究[D];電子科技大學;2014年
10 吳朝云;基于eyeOS的Web操作系統(tǒng)云存儲研究[D];電子科技大學;2014年
,本文編號:730966
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/730966.html