基于集成學習的短文本主客觀分類研究
本文關鍵詞:基于集成學習的短文本主客觀分類研究
更多相關文章: 主客觀分類 集成學習 動態(tài)集成 Bagging
【摘要】:隨著信息化的進一步發(fā)展,人們迫切需要一種能夠在短時間內從海量文本中獲取有用知識的技術。為此,搜索引擎、自動摘要、意見挖掘、觀點句抽取等信息提取技術得到了飛速發(fā)展。主客觀分類作為文本分類中的基礎問題,也受到廣大研究者們的重視。傳統(tǒng)主客觀分類一般采用機器學習方法進行訓練和分類,但由于中文文本內在的復雜性,使用傳統(tǒng)機器學習進行主客觀分類的性能遇到了瓶頸。本文在主客觀分類中引入集成學習思想,將有利于提高分類器的泛化能力,同時也有助于改善分類的準確性和穩(wěn)定性。本文使用集成學習方法解決主客觀分類問題,首先介紹了主客觀分類方法和集成學習相關理論知識,然后根據(jù)主客觀文本的基本特征進行集成分類器的構建工作,主要完成了以下的研究內容:(1)收集和整理了主觀線索特征,引入主觀線索密度的概念,并描述了文本主觀線索密度的計算方法。在此基礎上,將文本依據(jù)主觀線索特征進行劃分,并使用樸素貝葉斯分類器進行主客觀分類工作。最后針對上述分類器提出了一種基于Bagging方法的集成化方案。實驗結果表明,基于主觀線索特征進行主客觀分類的方法具有一定的效果,在集成學習環(huán)境下表現(xiàn)更佳。同時這種分類方法對新測試樣本具有良好的適應性。(2)針對文本中的詞匯、詞性、語義依存等多類特征,本文將其融合后進行主客觀分類。對各類特征進行CHI值的計算并排序,確定各類特征的最優(yōu)特征維度。在融合實驗中,為了達到更好的效果,嘗試各種特征組合方式進行實驗,并最終確定了較優(yōu)的特征組合方式。為了應對復雜多變的主客觀分類問題,本文將動態(tài)集成學習引入到主客觀分類問題中,提出一種改進的動態(tài)集成分類方法。這種方法能夠針對特定區(qū)域的分類樣本進行基分類器的重選擇。實驗數(shù)據(jù)表明,與傳統(tǒng)主客觀分類方法比較,在使用動態(tài)集成學習方法后,分類效果較好,尤其是在準確率指標上有較大提升。
【關鍵詞】:主客觀分類 集成學習 動態(tài)集成 Bagging
【學位授予單位】:安徽工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-8
- 第一章 緒論8-13
- 1.1 研究背景及意義8-9
- 1.2 主客觀分類研究現(xiàn)狀9-10
- 1.3 集成學習研究現(xiàn)狀10-11
- 1.4 本文研究內容11
- 1.5 論文組織結構11-13
- 第二章 相關理論概述13-25
- 2.1 主客觀分類13-16
- 2.1.1 主客觀分類問題描述13
- 2.1.2 主客觀分類流程13-16
- 2.2 文本分類方法16-18
- 2.2.1 樸素貝葉斯分類器16-17
- 2.2.2 支持向量機基分類器17-18
- 2.2.3 KNN分類方法18
- 2.3 集成學習理論基礎18-24
- 2.3.1 集成學習的概念18-19
- 2.3.2 集成學習的作用19-20
- 2.3.3 集成學習的有效性原理20-21
- 2.3.4 集成學習的主要算法21-24
- 2.4 本章小結24-25
- 第三章 基于主觀線索的集成主客觀分類25-36
- 3.1 主觀線索特征25-27
- 3.2 文本線索密度的計算27-28
- 3.3 基于線索密度的集成主客觀分類28-32
- 3.3.1 基于樸素貝葉斯的主客觀分類28-29
- 3.3.2 樸素貝葉斯分類器集成29-32
- 3.4 實驗結果與分析32-35
- 3.4.1 實驗設置32-33
- 3.4.2 結果分析33-35
- 3.5 本章小結35-36
- 第四章 基于融合特征的動態(tài)集成主客觀分類36-50
- 4.1 主客觀分類特征36-38
- 4.2 主客觀特征選擇38-40
- 4.2.1 特征選擇流程38-39
- 4.2.2 基于CHI統(tǒng)計量的特征選擇39-40
- 4.3 動態(tài)集成主客觀分類器構建40-46
- 4.3.1 動態(tài)集成框架40-41
- 4.3.2 兩類動態(tài)集成學習方法的比較41-43
- 4.3.3 基于KNN和k-means的改進動態(tài)集成學習43-46
- 4.4 實驗結果與分析46-49
- 4.4.1 實驗設置46
- 4.4.2 結果分析46-49
- 4.5 本章小結49-50
- 第五章 總結與展望50-52
- 5.1 總結50
- 5.2 展望50-52
- 參考文獻52-56
- 在學研究成果56-57
- 致謝57
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 袁漢寧;;雙層多示例集成學習[J];武漢理工大學學報(信息與管理工程版);2011年05期
2 俞揚;周志華;;集成學習中完全隨機學習策略研究[J];計算機工程;2006年17期
3 張滄生;崔麗娟;楊剛;倪志宏;;集成學習算法的比較研究[J];河北大學學報(自然科學版);2007年05期
4 陳凱;;基于聚類技術的集成學習差異性研究[J];南京工業(yè)職業(yè)技術學院學報;2008年04期
5 李凱;崔麗娟;;集成學習算法的差異性及性能比較[J];計算機工程;2008年06期
6 潘志松;燕繼坤;;少數(shù)類的集成學習[J];南京航空航天大學學報;2009年04期
7 陳凱;馬景義;;一種選擇性SER-BagBoosting Trees集成學習研究[J];計算機科學;2009年09期
8 陳全;趙文輝;李潔;江雨燕;;選擇性集成學習算法的研究[J];計算機技術與發(fā)展;2010年02期
9 張燕平;曹振田;趙姝;鄭堯軍;杜玲;竇蓉蓉;;一種新的決策樹選擇性集成學習方法[J];計算機工程與應用;2010年17期
10 饒峰;;核機器集成學習算法的誤差分析[J];重慶文理學院學報(自然科學版);2010年04期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 關菁華;劉大有;賈海洋;;自適應多分類器集成學習算法[A];第二十五屆中國數(shù)據(jù)庫學術會議論文集(二)[C];2008年
2 劉伍穎;王挺;;一種多過濾器集成學習垃圾郵件過濾方法[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
3 葉紅云;倪志偉;陳恩紅;;一種混合型集成學習演化決策樹算法[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
4 李燁;蔡云澤;許曉鳴;;基于支持向量機集成的故障診斷[A];第16屆中國過程控制學術年會暨第4屆全國故障診斷與安全性學術會議論文集[C];2005年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 阿里木·賽買提(Alim.Samat);基于集成學習的全極化SAR圖像分類研究[D];南京大學;2015年
2 王永明;集成回歸問題若干關鍵技術研究[D];華東師范大學;2015年
3 常征;基于混合集成學習的眼部與四肢交互動作建模與識別[D];北京科技大學;2016年
4 張春霞;集成學習中有關算法的研究[D];西安交通大學;2010年
5 劉天羽;基于特征選擇技術的集成學習方法及其應用研究[D];上海大學;2007年
6 尹華;面向高維和不平衡數(shù)據(jù)分類的集成學習研究[D];武漢大學;2012年
7 王清;集成學習中若干關鍵問題的研究[D];復旦大學;2011年
8 方育柯;集成學習理論研究及其在個性化推薦中的應用[D];電子科技大學;2011年
9 侯勇;特征提取與集成學習算法的研究及應用[D];北京科技大學;2015年
10 李燁;基于支持向量機的集成學習研究[D];上海交通大學;2007年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 高偉;基于半監(jiān)督集成學習的情感分類方法研究[D];蘇州大學;2015年
2 宋文展;基于抽樣的集成進化算法研究[D];廣西大學;2015年
3 湯瑩;遷移與集成學習在文本分類中的應用研究[D];江蘇科技大學;2015年
4 劉政;基于知識元和集成學習的中文微博情感分析[D];大連理工大學;2015年
5 丘橋云;結合文本傾向性分析的股評可信度計算研究[D];哈爾濱工業(yè)大學;2014年
6 秦海;融合非標記樣本選擇的集成學習研究[D];湘潭大學;2015年
7 李想;基于多示例的集成學習理論與應用研究[D];合肥工業(yè)大學;2014年
8 李震宇;基于集成學習的數(shù)字圖像隱寫定量分析[D];解放軍信息工程大學;2014年
9 王希玲;基于選擇性集成學習的網(wǎng)絡入侵檢測方法研究[D];青島科技大學;2016年
10 陳范曙;基于信息整合的藥物相關信息挖掘方法研究[D];華東師范大學;2016年
,本文編號:749275
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/749275.html