基于Labeled-LDA的文本分類研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-08-04 17:14
本文關(guān)鍵詞:基于Labeled-LDA的文本分類研究與實(shí)現(xiàn)
更多相關(guān)文章: 標(biāo)簽隱含狄利克雷分布 主題模型 多標(biāo)簽分類 特征提取 數(shù)據(jù)偏斜處理
【摘要】:隨著移動(dòng)互聯(lián)網(wǎng)與社會(huì)網(wǎng)絡(luò)的高速發(fā)展,人們可以隨時(shí)隨地產(chǎn)生和分享信息,這些信息大多都可以轉(zhuǎn)化成為文本內(nèi)容而沉淀下來(lái)。對(duì)這些文本內(nèi)容的快速、高質(zhì)量的進(jìn)行分類處理已成為文本挖掘和自然語(yǔ)言處理領(lǐng)域?qū)W者們的研究重點(diǎn)。 目前,文本分類技術(shù)已經(jīng)在搜索引擎、個(gè)性化推薦系統(tǒng)、輿情監(jiān)控等應(yīng)用領(lǐng)域得到了廣泛的應(yīng)用,是實(shí)現(xiàn)高效管理和準(zhǔn)確定位海量信息的重要一環(huán)。但是當(dāng)前文本分類的性能并不理想,有非常大的改進(jìn)空間。 本文重點(diǎn)研究基于主題模型(Topic Model,標(biāo)簽LDA)的文本分類技術(shù)。主要的研究?jī)?nèi)容包括: 1)針對(duì)傳統(tǒng)LDA模型無(wú)法納入標(biāo)簽信息的問(wèn)題,Labeled-LDA通過(guò)將標(biāo)簽和類別進(jìn)行映射起來(lái),能夠很好的對(duì)原始數(shù)據(jù)和標(biāo)簽信息進(jìn)行建模。但是這種硬性的關(guān)聯(lián)會(huì)造成過(guò)擬合,導(dǎo)致分類性能的降低。而且Labeled-LDA模型中的標(biāo)簽和類別是一一映射的,本文提出一種改進(jìn)的標(biāo)簽LDA模型,將類別映射為若干個(gè)主題之間的組合,同時(shí)將主題分為共享和自有的部分,來(lái)使得更好的符合真實(shí)文本的產(chǎn)生式過(guò)程。改進(jìn)的標(biāo)簽LDA模型生成的結(jié)果具有更好的多標(biāo)簽分類的能力,同時(shí)還可以用于摘要和聚類等應(yīng)用。 2)原始數(shù)據(jù)的偏斜是影響分類系統(tǒng)性能的一大問(wèn)題。在總結(jié)處理該問(wèn)題的基礎(chǔ)上,提出了一種基于主題模型的偏斜處理方法。實(shí)驗(yàn)表明,經(jīng)過(guò)該步驟處理后的分類系統(tǒng)性能優(yōu)于傳統(tǒng)方法,并且在不同偏斜程度的語(yǔ)料集上效果比較穩(wěn)定。
【關(guān)鍵詞】:標(biāo)簽隱含狄利克雷分布 主題模型 多標(biāo)簽分類 特征提取 數(shù)據(jù)偏斜處理
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-17
- 1.1 研究背景及意義9-12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-15
- 1.3 本文的主要研究?jī)?nèi)容15-16
- 1.4 論文的結(jié)構(gòu)安排16-17
- 第二章 主題模型的發(fā)展17-32
- 2.1 淺層語(yǔ)義分析LSA17-20
- 2.1.1 LSA的原理18-19
- 2.1.2 LSA的優(yōu)缺點(diǎn)19-20
- 2.2 概率淺層語(yǔ)義分析PLSA20-22
- 2.2.1 PLSA的原理20-21
- 2.2.2 PLSA的特點(diǎn)21-22
- 2.3 隱含狄利克雷分布LDA22-30
- 2.3.1 基本概念22-25
- 2.3.2 文檔產(chǎn)生過(guò)程25-27
- 2.3.3 訓(xùn)練及推導(dǎo)27-30
- 2.3.4 LDA的應(yīng)用30
- 2.4 監(jiān)督主題模型SUPERVISED TOPIC MODEL30-32
- 2.4.1 Supervised Topic Model的代表31-32
- 第三章 文本分類32-48
- 3.1 文本分類概述32-33
- 3.2 文本分類系統(tǒng)構(gòu)成33-36
- 3.3 常用文本分類方法36-41
- 3.3.1 樸素貝葉斯37-38
- 3.3.2 決策樹(shù)38
- 3.3.3 支持向量機(jī)SVM38-41
- 3.4 分類評(píng)價(jià)方法41-44
- 3.4.1 準(zhǔn)確率與召回率42-43
- 3.4.2 宏平均和微平均43-44
- 3.4.3 多標(biāo)簽分類評(píng)價(jià)44
- 3.5 傳統(tǒng)主題模型用于文本分類44-48
- 3.5.1 LDA用于特征提取45-46
- 3.5.2 CTM結(jié)合SVM進(jìn)行分類46-48
- 第四章 改進(jìn)LABELED LDA用于文本分類48-60
- 4.1 標(biāo)簽狄利克雷分配LABELED LDA48-50
- 4.1.1 Labeled LDA的原理48-50
- 4.1.2 Labeled LDA的特點(diǎn)50
- 4.2 改進(jìn)LABELED LDA文本分類過(guò)程50-56
- 4.2.1 模型描述50-53
- 4.2.2 參數(shù)推導(dǎo)53-54
- 4.2.3 實(shí)驗(yàn)效果分析54-56
- 4.3 語(yǔ)料數(shù)據(jù)偏斜問(wèn)題56-60
- 4.3.1 基于Labeled-LDA模型的偏斜數(shù)據(jù)處理57-58
- 4.3.2 實(shí)現(xiàn)效果分析58-60
- 第五章 總結(jié)與展望60-62
- 5.1 本文的總結(jié)工作60-61
- 5.2 未來(lái)展望61-62
- 參考文獻(xiàn)62-64
- 致謝64
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前6條
1 李文波;孫樂(lè);張大鯤;;基于Labeled-LDA模型的文本分類新算法[J];計(jì)算機(jī)學(xué)報(bào);2008年04期
2 代六玲,黃河燕,陳肇雄;中文文本分類中特征抽取方法的比較研究[J];中文信息學(xué)報(bào);2004年01期
3 邱均平,沙勇忠,劉煥成;論數(shù)字圖書(shū)館的知識(shí)管理[J];情報(bào)資料工作;2001年05期
4 艾丹祥,張玉峰;利用主題圖建立概念知識(shí)庫(kù)[J];圖書(shū)情報(bào)知識(shí);2003年02期
5 劉海峰;陳琦;劉守生;蘇展;;一種基于數(shù)據(jù)偏斜的改進(jìn)KNN文本分類[J];微電子學(xué)與計(jì)算機(jī);2010年03期
6 劉建國(guó);周濤;汪秉宏;;個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J];自然科學(xué)進(jìn)展;2009年01期
,本文編號(hào):620757
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/620757.html
最近更新
教材專著