基于松弛策略的文本層次分類(lèi)體系構(gòu)建與分類(lèi)方法研究
本文關(guān)鍵詞:基于松弛策略的文本層次分類(lèi)體系構(gòu)建與分類(lèi)方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著數(shù)字化信息資源的日益增長(zhǎng),大量的文本數(shù)據(jù)不斷涌現(xiàn),為了有效的管理和使用這些文本數(shù)據(jù),人們提出了文本自動(dòng)分類(lèi)技術(shù),它可以處理和組織龐大的非結(jié)構(gòu)化的文本數(shù)據(jù),提高文本數(shù)據(jù)的檢索效率。通常的文本分類(lèi)多采用平面分類(lèi)方法,當(dāng)文本數(shù)量和類(lèi)別數(shù)量較多時(shí),平面分類(lèi)方法的分類(lèi)性能急劇下降,尤其表現(xiàn)在分類(lèi)時(shí)間上。層次分類(lèi)被用在文本的多類(lèi)分類(lèi)任務(wù)中,在保證分類(lèi)準(zhǔn)確率基本不受影響的前提下,文本層次分類(lèi)的分類(lèi)速度更快。為了進(jìn)一步提高文本層次分類(lèi)的準(zhǔn)確率,在文本層次結(jié)構(gòu)構(gòu)建方面,本文提出了基于松弛策略的層次結(jié)構(gòu)構(gòu)建算法,并且針對(duì)層次結(jié)構(gòu)的特點(diǎn)提出了基于松弛策略層次結(jié)構(gòu)的軟決策分類(lèi)算法。另外,本文嘗試了將不同的文本特征提取方法應(yīng)用在層次分類(lèi)任務(wù)中。本文的主要工作包括:(1)層次分類(lèi)中“阻滯”問(wèn)題的解決——松弛策略文本層次分類(lèi)中普遍存在“阻滯”問(wèn)題,為了進(jìn)一步提高準(zhǔn)確性,緩解“阻滯”問(wèn)題引起的性能下降問(wèn)題,本文對(duì)文本層次結(jié)構(gòu)構(gòu)建方法進(jìn)行研究和改進(jìn),提出了基于松弛策略的層次結(jié)構(gòu)構(gòu)建方法,并在該層次結(jié)構(gòu)上進(jìn)行文本層次分類(lèi)。(2)提高層次分類(lèi)性能——軟決策方法利用文本層次方法得到的最終的分類(lèi)結(jié)果并不一定是全局最優(yōu)的,再加上“阻滯”問(wèn)題的存在,使得文本層次分類(lèi)的準(zhǔn)確率普遍較低。對(duì)此,本文在松弛策略層次結(jié)構(gòu)中使用軟決策方法進(jìn)行文本層次分類(lèi),并且針對(duì)松弛策略層次結(jié)構(gòu)自身的特點(diǎn),對(duì)層次分類(lèi)算法進(jìn)行改進(jìn),從而進(jìn)一步提高了文本層次分類(lèi)性能。(3)特征選擇與特征計(jì)算方法的有效運(yùn)用——最小信息熵理論(LIT)本文對(duì)不同的文本特征提取方法進(jìn)行了嘗試,引入了最小信息熵模型LIT(Least Information Theory),考查不同的特征提取方法對(duì)文本層次分類(lèi)算法的適用性。在特征選擇方面,引入了最少信息增益LIG(Least Information Gain)進(jìn)行實(shí)驗(yàn);在特征計(jì)算方面,本文引入了最少信息熵理論中的LIB(Least Information Binary)、LIF(Least Information Frequency)、LIB*LIF方法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,使用本文提出的方法構(gòu)建出來(lái)的文本層次結(jié)構(gòu)更加合理,在該結(jié)構(gòu)上使用軟決策方法進(jìn)行層次分類(lèi)算法改進(jìn)后,分類(lèi)準(zhǔn)確性逐步提升,性能優(yōu)于傳統(tǒng)的分類(lèi)算法。同時(shí),LIT特征選擇和特征計(jì)算方法的引入能夠大幅度提升分類(lèi)性能。
【關(guān)鍵詞】:松弛策略 軟決策 層次構(gòu)建 層次分類(lèi) 特征提取
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-10
- 第1章 緒論10-20
- 1.1 選題背景和研究意義10-11
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀11-17
- 1.2.1 文本特征提取11-12
- 1.2.2 文本層次結(jié)構(gòu)構(gòu)建12-15
- 1.2.3 文本層次分類(lèi)15-17
- 1.3 本文主要的研究?jī)?nèi)容17-18
- 1.4 本文組織結(jié)構(gòu)18-20
- 第2章 文本分類(lèi)知識(shí)20-30
- 2.1 文本分類(lèi)概述20-21
- 2.2 文本特征提取方法21-25
- 2.2.1 特征選擇22-24
- 2.2.2 特征計(jì)算24-25
- 2.3 文本分類(lèi)方法25-29
- 2.3.1 支持向量機(jī)25-26
- 2.3.2 樸素貝葉斯26-27
- 2.3.3 決策樹(shù)27-28
- 2.3.4 隨機(jī)森林28-29
- 2.3.5 k-近鄰29
- 2.4 本章小結(jié)29-30
- 第3章 基于松弛策略的層次結(jié)構(gòu)構(gòu)建方法30-38
- 3.1 松弛策略類(lèi)別分割30-32
- 3.1.1 K-Means聚類(lèi)30
- 3.1.2 松弛策略30-31
- 3.1.3 基于松弛因子的類(lèi)別分割31-32
- 3.2 層次結(jié)構(gòu)構(gòu)建32-34
- 3.3 節(jié)點(diǎn)分類(lèi)器訓(xùn)練34-36
- 3.3.1 分類(lèi)器訓(xùn)練集劃分34-35
- 3.3.2 分類(lèi)器訓(xùn)練算法35-36
- 3.4 本章小結(jié)36-38
- 第4章 基于軟決策的層次分類(lèi)方法38-48
- 4.1 基于LIT(Least Information Theory)的特征計(jì)算方法38-39
- 4.1.1 最少信息熵(LIT)模型38-39
- 4.1.2 最少信息熵二項(xiàng)模型39
- 4.1.3 最少信息熵頻率模型39
- 4.2 基于LIG(Least Information Gain)的特征選擇方法39-40
- 4.2.1 最少信息增益(LIG)模型39-40
- 4.2.2 DF*LIG特征選擇方法40
- 4.2.3 DF*IG特征選擇方法40
- 4.3 軟決策層次分類(lèi)40-43
- 4.3.1 軟決策方法40-42
- 4.3.2 基于軟決策的層次分類(lèi)算法42-43
- 4.4 松弛策略層次結(jié)構(gòu)中的應(yīng)用43-46
- 4.4.1 基于松弛策略層次結(jié)構(gòu)的改進(jìn)43-44
- 4.4.2 基于松弛策略層次結(jié)構(gòu)的軟決策分類(lèi)算法44-46
- 4.5 本章小結(jié)46-48
- 第5章 實(shí)驗(yàn)結(jié)果與分析48-72
- 5.1 數(shù)據(jù)集48-50
- 5.1.1 路透社新聞故事語(yǔ)料庫(kù)(RCV1)48-49
- 5.1.2 譚松波中文文本分類(lèi)語(yǔ)料庫(kù)(TanCorp)49-50
- 5.2 層次結(jié)構(gòu)構(gòu)建結(jié)果50-57
- 5.3 性能評(píng)測(cè)標(biāo)準(zhǔn)57-58
- 5.4 基于松弛策略的層次結(jié)構(gòu)構(gòu)建方法評(píng)測(cè)58-66
- 5.4.1 參數(shù) 對(duì)分類(lèi)性能的影響58-59
- 5.4.2 與其他分類(lèi)方法的性能比較59-60
- 5.4.3 特征數(shù)量對(duì)分類(lèi)性能的影響60-62
- 5.4.4 特征選擇方法對(duì)分類(lèi)性能的影響62-63
- 5.4.5 特征計(jì)算方法對(duì)分類(lèi)性能的影響63-64
- 5.4.6 不同類(lèi)型的節(jié)點(diǎn)分類(lèi)器對(duì)分類(lèi)性能的影響64-66
- 5.5 基于軟決策的層次分類(lèi)方法評(píng)測(cè)66-69
- 5.5.1 基于軟決策的層次分類(lèi)算法評(píng)測(cè)66-68
- 5.5.2 基于松弛策略層次結(jié)構(gòu)的軟決策分類(lèi)算法評(píng)測(cè)68-69
- 5.6 層次分類(lèi)方法之間的性能比較69-71
- 5.7 本章小結(jié)71-72
- 結(jié)論72-74
- 參考文獻(xiàn)74-78
- 攻讀碩士期間的主要科研成果78-80
- 致謝80
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王義章;層次分類(lèi)模型的構(gòu)造及實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;1994年04期
2 陸彥婷;陸建峰;楊靜宇;;層次分類(lèi)方法綜述[J];模式識(shí)別與人工智能;2013年12期
3 古平;羅志恒;歐陽(yáng)源怞;;基于增量模式的文檔層次分類(lèi)研究[J];計(jì)算機(jī)工程;2014年01期
4 何力;丁兆云;賈焰;韓偉紅;;大規(guī)模層次分類(lèi)中的候選類(lèi)別搜索[J];計(jì)算機(jī)學(xué)報(bào);2014年01期
5 譚金波;;一種改進(jìn)的文檔層次分類(lèi)方法[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2007年02期
6 古平;朱慶生;張程;莊致;;一種融合本體和上下文的自適應(yīng)層次分類(lèi)模型[J];北京理工大學(xué)學(xué)報(bào);2009年10期
7 史鐵林,王雪,何濤,楊叔子;層次分類(lèi)診斷模型[J];華中理工大學(xué)學(xué)報(bào);1993年01期
8 張金;王橋;陳卓寧;;基于規(guī)則動(dòng)態(tài)解析的層次分類(lèi)樹(shù)控件[J];機(jī)械工程師;2007年01期
9 李文;苗奪謙;衛(wèi)志華;王煒立;;基于阻塞先驗(yàn)知識(shí)的文本層次分類(lèi)模型[J];模式識(shí)別與人工智能;2010年04期
10 高波;趙政;;文本層次分類(lèi)系統(tǒng)的研究[J];計(jì)算機(jī)工程與應(yīng)用;2006年11期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 周毅;江云亮;張銘;熊宇紅;馮是聰;;基于“鏈接”層次分類(lèi)的主題爬取[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 何力;面向互聯(lián)網(wǎng)文本的大規(guī)模層次分類(lèi)技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2014年
2 祝翠玲;基于類(lèi)別結(jié)構(gòu)的文本層次分類(lèi)方法研究[D];山東大學(xué);2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 朱麗;基于層次分類(lèi)的病性分析[D];南京理工大學(xué);2015年
2 杜曉燕;基于松弛策略的文本層次分類(lèi)體系構(gòu)建與分類(lèi)方法研究[D];北京工業(yè)大學(xué);2016年
3 張薇娟;基于模糊認(rèn)知圖的分步文本層次分類(lèi)研究[D];天津師范大學(xué);2008年
4 肖雪;中文文本層次分類(lèi)研究及其在唐詩(shī)分類(lèi)中的應(yīng)用[D];重慶大學(xué);2006年
5 孔照昆;中文文本層次分類(lèi)方法研究及應(yīng)用[D];揚(yáng)州大學(xué);2013年
6 王棟;基于SVM的分類(lèi)方法在內(nèi)容管理中的應(yīng)用[D];西北大學(xué);2006年
7 谷峰;中文網(wǎng)頁(yè)層次分類(lèi)研究[D];華僑大學(xué);2007年
8 李慧;蛋白質(zhì)功能預(yù)測(cè)的層次化分類(lèi)方法研究[D];吉林大學(xué);2010年
9 白振田;基于向量空間模型與規(guī)則匹配相結(jié)合的文本層次分類(lèi)系統(tǒng)的研究[D];南京農(nóng)業(yè)大學(xué);2006年
10 藺燕;西藏民族學(xué)院分層次分類(lèi)型教學(xué)研究[D];西藏民族學(xué)院;2014年
本文關(guān)鍵詞:基于松弛策略的文本層次分類(lèi)體系構(gòu)建與分類(lèi)方法研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):432132
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/432132.html