基于多標(biāo)簽學(xué)習(xí)的特征降維和文本分類(lèi)方法研究
發(fā)布時(shí)間:2021-05-25 17:43
隨著互聯(lián)網(wǎng)時(shí)代下網(wǎng)絡(luò)信息的爆炸式增長(zhǎng),多標(biāo)簽文本分類(lèi)已經(jīng)成為處理文本信息數(shù)據(jù)的一種有效手段。信息數(shù)據(jù)可以通過(guò)多標(biāo)簽文本分類(lèi)快速準(zhǔn)確地定位到所屬類(lèi)別,多標(biāo)簽文本分類(lèi)算法漸漸成為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)。但是目前的多標(biāo)簽分類(lèi)算法還存在著數(shù)據(jù)的類(lèi)不平衡和計(jì)算復(fù)雜度高的問(wèn)題,而且通過(guò)網(wǎng)絡(luò)產(chǎn)生的多標(biāo)簽數(shù)據(jù)存在特征維度高、數(shù)據(jù)復(fù)雜等特點(diǎn),當(dāng)直接用于分類(lèi)任務(wù)時(shí),容易對(duì)分類(lèi)效率和分類(lèi)準(zhǔn)確率產(chǎn)生影響;谶@些問(wèn)題,本文對(duì)多標(biāo)簽文本特征降維方法和分類(lèi)算法進(jìn)行研究,分別改進(jìn)出基于Kullback-Leibler散度依賴(lài)性最大化的多標(biāo)簽降維方法和基于引力的多標(biāo)簽文本分類(lèi)模型。針對(duì)多標(biāo)簽分類(lèi)過(guò)程中多標(biāo)簽數(shù)據(jù)的高維特征會(huì)導(dǎo)致計(jì)算難度大和分類(lèi)效率低等問(wèn)題,通過(guò)對(duì)基于依賴(lài)性最大化的降維方法進(jìn)行改進(jìn),得出一種基于Kullback-Leibler散度依賴(lài)性最大化的多標(biāo)簽降維方法。在分類(lèi)過(guò)程的特征降維階段,將原始矩陣映射到低維空間中并通過(guò)Kullback-Leibler散度最大化原始特征描述與類(lèi)標(biāo)簽之間的依賴(lài)性,由于不需要特征分解,使得計(jì)算量得到很大降低。實(shí)驗(yàn)結(jié)果表明該降維方法能夠有效進(jìn)行多標(biāo)簽數(shù)據(jù)降維,提高了分類(lèi)效率。...
【文章來(lái)源】:重慶郵電大學(xué)重慶市
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
注釋表
第1章 緒論
1.1 課題研究背景及意義
1.2 多標(biāo)簽分類(lèi)
1.3 課題研究現(xiàn)狀及分析
1.3.1 國(guó)內(nèi)外研究現(xiàn)狀
1.3.2 存在的問(wèn)題
1.4 論文主要工作及組織結(jié)構(gòu)
1.4.1 論文的研究?jī)?nèi)容
1.4.2 論文的結(jié)構(gòu)安排
1.5 本章小結(jié)
第2章 多標(biāo)簽文本分類(lèi)相關(guān)技術(shù)
2.1 文本分類(lèi)的相關(guān)知識(shí)
2.1.1 文本分類(lèi)的定義
2.1.2 文本分類(lèi)的過(guò)程
2.1.3 文本特征表示方法
2.1.4 特征選擇方法
2.1.5 文本分類(lèi)的評(píng)估準(zhǔn)則
2.2 特征降維
2.2.1 線(xiàn)性判別分析法
2.2.2 主成分分析法
2.2.3 典型關(guān)聯(lián)分析法
2.2.4 多標(biāo)簽線(xiàn)性判別分析法
2.3 多標(biāo)簽分類(lèi)算法
2.3.1 多標(biāo)簽k近鄰算法
2.3.2 多標(biāo)簽決策樹(shù)算法
2.3.3 二元關(guān)聯(lián)算法
2.3.4 分類(lèi)器鏈算法
2.3.5 校準(zhǔn)標(biāo)簽排序算法
2.4 本章小結(jié)
第3章 一種基于依賴(lài)性最大化的特征降維方法
3.1 引言
3.2 方法思想及流程
3.2.1 MDDM方法
3.2.2 改進(jìn)的依賴(lài)性最大化的特征降維方法
3.3 實(shí)驗(yàn)結(jié)果及分析
3.3.1 實(shí)驗(yàn)數(shù)據(jù)集分析
3.3.2 結(jié)果分析
3.4 本章小結(jié)
第4章 一種基于引力模型的多標(biāo)簽文本分類(lèi)算法
4.1 引言
4.2 算法思想及流程
4.2.1 質(zhì)心分類(lèi)算法
4.2.2 GM分類(lèi)模型
4.2.3 改進(jìn)的多標(biāo)簽引力分類(lèi)模型
4.2.4 算法分析
4.3 實(shí)驗(yàn)結(jié)果及分析
4.3.1 實(shí)驗(yàn)數(shù)據(jù)集分析
4.3.2 結(jié)果分析
4.4 本章小結(jié)
第5章 總結(jié)與展望
5.1 全文總結(jié)
5.2 未來(lái)工作展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]面向多標(biāo)簽文本分類(lèi)的深度主題特征提取[J]. 陳文實(shí),劉心惠,魯明羽. 模式識(shí)別與人工智能. 2019(09)
[2]基于標(biāo)簽相關(guān)性的卷積神經(jīng)網(wǎng)絡(luò)多標(biāo)簽分類(lèi)[J]. 余曉龍,林國(guó)平. 閩南師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(02)
[3]Web文檔分類(lèi)中TFIDF特征選擇算法的改進(jìn)[J]. 段國(guó)侖,謝鈞,郭蕾蕾,王曉瑩. 計(jì)算機(jī)技術(shù)與發(fā)展. 2019(05)
[4]基于主題分布優(yōu)化的模糊文本分類(lèi)研究[J]. 梁艷紅,坎啟軒,蘇翌. 計(jì)算機(jī)工程. 2019(10)
[5]文本分類(lèi)中一種特征選擇方法研究[J]. 趙婧,邵雄凱,劉建舟,王春枝. 計(jì)算機(jī)應(yīng)用研究. 2019(08)
[6]基于隱馬爾科夫模型與語(yǔ)義融合的文本分類(lèi)[J]. 高知新,徐林會(huì). 計(jì)算機(jī)應(yīng)用與軟件. 2017(07)
[7]基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)研究進(jìn)展[J]. 蘇金樹(shù),張博鋒,徐昕. 軟件學(xué)報(bào). 2006(09)
碩士論文
[1]基于標(biāo)簽相關(guān)特征的多標(biāo)簽降維研究[D]. 李裕.合肥工業(yè)大學(xué) 2018
[2]中文多標(biāo)簽文本分類(lèi)算法研究[D]. 周浩.上海交通大學(xué) 2014
[3]多標(biāo)簽文本分類(lèi)算法研究[D]. 呂小勇.山西財(cái)經(jīng)大學(xué) 2010
本文編號(hào):3205747
【文章來(lái)源】:重慶郵電大學(xué)重慶市
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
注釋表
第1章 緒論
1.1 課題研究背景及意義
1.2 多標(biāo)簽分類(lèi)
1.3 課題研究現(xiàn)狀及分析
1.3.1 國(guó)內(nèi)外研究現(xiàn)狀
1.3.2 存在的問(wèn)題
1.4 論文主要工作及組織結(jié)構(gòu)
1.4.1 論文的研究?jī)?nèi)容
1.4.2 論文的結(jié)構(gòu)安排
1.5 本章小結(jié)
第2章 多標(biāo)簽文本分類(lèi)相關(guān)技術(shù)
2.1 文本分類(lèi)的相關(guān)知識(shí)
2.1.1 文本分類(lèi)的定義
2.1.2 文本分類(lèi)的過(guò)程
2.1.3 文本特征表示方法
2.1.4 特征選擇方法
2.1.5 文本分類(lèi)的評(píng)估準(zhǔn)則
2.2 特征降維
2.2.1 線(xiàn)性判別分析法
2.2.2 主成分分析法
2.2.3 典型關(guān)聯(lián)分析法
2.2.4 多標(biāo)簽線(xiàn)性判別分析法
2.3 多標(biāo)簽分類(lèi)算法
2.3.1 多標(biāo)簽k近鄰算法
2.3.2 多標(biāo)簽決策樹(shù)算法
2.3.3 二元關(guān)聯(lián)算法
2.3.4 分類(lèi)器鏈算法
2.3.5 校準(zhǔn)標(biāo)簽排序算法
2.4 本章小結(jié)
第3章 一種基于依賴(lài)性最大化的特征降維方法
3.1 引言
3.2 方法思想及流程
3.2.1 MDDM方法
3.2.2 改進(jìn)的依賴(lài)性最大化的特征降維方法
3.3 實(shí)驗(yàn)結(jié)果及分析
3.3.1 實(shí)驗(yàn)數(shù)據(jù)集分析
3.3.2 結(jié)果分析
3.4 本章小結(jié)
第4章 一種基于引力模型的多標(biāo)簽文本分類(lèi)算法
4.1 引言
4.2 算法思想及流程
4.2.1 質(zhì)心分類(lèi)算法
4.2.2 GM分類(lèi)模型
4.2.3 改進(jìn)的多標(biāo)簽引力分類(lèi)模型
4.2.4 算法分析
4.3 實(shí)驗(yàn)結(jié)果及分析
4.3.1 實(shí)驗(yàn)數(shù)據(jù)集分析
4.3.2 結(jié)果分析
4.4 本章小結(jié)
第5章 總結(jié)與展望
5.1 全文總結(jié)
5.2 未來(lái)工作展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]面向多標(biāo)簽文本分類(lèi)的深度主題特征提取[J]. 陳文實(shí),劉心惠,魯明羽. 模式識(shí)別與人工智能. 2019(09)
[2]基于標(biāo)簽相關(guān)性的卷積神經(jīng)網(wǎng)絡(luò)多標(biāo)簽分類(lèi)[J]. 余曉龍,林國(guó)平. 閩南師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(02)
[3]Web文檔分類(lèi)中TFIDF特征選擇算法的改進(jìn)[J]. 段國(guó)侖,謝鈞,郭蕾蕾,王曉瑩. 計(jì)算機(jī)技術(shù)與發(fā)展. 2019(05)
[4]基于主題分布優(yōu)化的模糊文本分類(lèi)研究[J]. 梁艷紅,坎啟軒,蘇翌. 計(jì)算機(jī)工程. 2019(10)
[5]文本分類(lèi)中一種特征選擇方法研究[J]. 趙婧,邵雄凱,劉建舟,王春枝. 計(jì)算機(jī)應(yīng)用研究. 2019(08)
[6]基于隱馬爾科夫模型與語(yǔ)義融合的文本分類(lèi)[J]. 高知新,徐林會(huì). 計(jì)算機(jī)應(yīng)用與軟件. 2017(07)
[7]基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)研究進(jìn)展[J]. 蘇金樹(shù),張博鋒,徐昕. 軟件學(xué)報(bào). 2006(09)
碩士論文
[1]基于標(biāo)簽相關(guān)特征的多標(biāo)簽降維研究[D]. 李裕.合肥工業(yè)大學(xué) 2018
[2]中文多標(biāo)簽文本分類(lèi)算法研究[D]. 周浩.上海交通大學(xué) 2014
[3]多標(biāo)簽文本分類(lèi)算法研究[D]. 呂小勇.山西財(cái)經(jīng)大學(xué) 2010
本文編號(hào):3205747
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3205747.html
最近更新
教材專(zhuān)著