基于SentenceLDA主題模型的短文本分類研究
發(fā)布時間:2022-07-02 13:27
短文本已經(jīng)成為互聯(lián)網(wǎng)個體在個人獨立網(wǎng)絡(luò)平臺上發(fā)表意見和分享信息的重要形式。大量的日常信息,如微博、新聞源、網(wǎng)絡(luò)搜索、論壇信息,已經(jīng)遠(yuǎn)遠(yuǎn)超出了人工所能處理和理解的能力范圍。短文本內(nèi)容簡單凝練,含義高度歸納,具有極為豐富的信息資源。對海量的短文本進(jìn)行理解、處理和分類,可以發(fā)掘出用戶感興趣的相關(guān)信息。短文本分類是文本數(shù)據(jù)挖掘的重要手段之一,也是信息過濾、信息檢索、用戶推薦等領(lǐng)域的一項自然語言處理基礎(chǔ)任務(wù)。如何快速準(zhǔn)確地實現(xiàn)較大規(guī)模自動化短文本分類,已經(jīng)是當(dāng)前自然語言處理領(lǐng)域內(nèi)的熱點和難點之一。短文本的特點包括:本身文本長度極短、內(nèi)容信息稀疏,上下文共現(xiàn)信息不足;上下文依賴性強(qiáng);即時性強(qiáng)且數(shù)據(jù)規(guī)模巨大。目前,傳統(tǒng)的基于長文本的自動化文本分類技術(shù)已經(jīng)比較成熟并且應(yīng)用頗廣,但由于短文本的上述特點,導(dǎo)致較為成熟的長文本分類技術(shù)直接應(yīng)用在短文本分類上的效果并不是很出色。針對短文本長度極短、特征稀疏的特點,本文從擴(kuò)展原始短文本特征入手,在訓(xùn)練好的主題模型上訓(xùn)練短文本,對短文本進(jìn)行特征擴(kuò)展;針對傳統(tǒng)離散化文本表示的不足,利用Word2Vec工具訓(xùn)練詞向量,對短文本進(jìn)行分布式表示,將加權(quán)的詞向量短文本表示與...
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文的主要內(nèi)容
1.4 論文的組織結(jié)構(gòu)
2 文本分類相關(guān)理論
2.1 文本表示模型
2.1.1 文本離散表示
2.1.2 文本分散式表示
2.2 特征選擇方法
2.2.1 文檔頻率特征選擇
2.2.2 信息增益方法
2.2.3 卡方統(tǒng)計量法
2.2.4 互信息法
2.3 機(jī)器學(xué)習(xí)文本分類算法
2.3.1 樸素貝葉斯
2.3.2 支持向量機(jī)
2.4 本章小結(jié)
3 基于S-LDA的短文本特征擴(kuò)展
3.1 LDA主題模型
3.2 S-LDA主題模型
3.3 S-LDA主題模型迭代
3.3.1 文本生成過程
3.3.2 吉布斯采樣
3.3.3 S-LDA模型評估
3.4 基于S-LDA的短文本特征擴(kuò)展
3.4.1 S-LDA的主題-詞分布
3.4.2 基于S-LDA進(jìn)行特征詞擴(kuò)展
3.4.3 擴(kuò)展后的短文本向量表示
3.5 實驗及分析
3.5.1 基于S-LDA的短文本分類框架
3.5.2 短文本分類實驗環(huán)境
3.5.3 復(fù)旦語料數(shù)據(jù)預(yù)處理
3.5.4 短文本分類評價標(biāo)準(zhǔn)
3.5.5 短文本分類實驗設(shè)置
3.5.6 實驗結(jié)果及分析
3.6 基于S-LDA特征擴(kuò)展的局限性
3.7 本章小結(jié)
4 S-LDA-WV短文本分類
4.1 神經(jīng)網(wǎng)絡(luò)語言模型
4.2 Word2Vec詞向量
4.2.1 CBOW模型
4.2.2 Skip-gram模型
4.3 S-LDA-WV聯(lián)合短文本表示
4.3.1 Word2Vec_AVG短文本表示
4.3.2 Word2Vec_TF-IDF短文本表示
4.3.3 基于S-LDA主題模型進(jìn)行特征擴(kuò)展
4.3.4 聯(lián)合短文本表示
4.4 實驗結(jié)果及分析
4.4.1 S-LDA-WV短文本分類框架
4.4.2 頭條標(biāo)題數(shù)據(jù)預(yù)處理
4.4.3 短文本分類實驗設(shè)置
4.4.4 實驗結(jié)果及分析
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 本文工作總結(jié)
5.2 未來研究展望
參考文獻(xiàn)
致謝
附錄1 攻讀碩士學(xué)位期間參與的項目和發(fā)表的論文
本文編號:3654447
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文的主要內(nèi)容
1.4 論文的組織結(jié)構(gòu)
2 文本分類相關(guān)理論
2.1 文本表示模型
2.1.1 文本離散表示
2.1.2 文本分散式表示
2.2 特征選擇方法
2.2.1 文檔頻率特征選擇
2.2.2 信息增益方法
2.2.3 卡方統(tǒng)計量法
2.2.4 互信息法
2.3 機(jī)器學(xué)習(xí)文本分類算法
2.3.1 樸素貝葉斯
2.3.2 支持向量機(jī)
2.4 本章小結(jié)
3 基于S-LDA的短文本特征擴(kuò)展
3.1 LDA主題模型
3.2 S-LDA主題模型
3.3 S-LDA主題模型迭代
3.3.1 文本生成過程
3.3.2 吉布斯采樣
3.3.3 S-LDA模型評估
3.4 基于S-LDA的短文本特征擴(kuò)展
3.4.1 S-LDA的主題-詞分布
3.4.2 基于S-LDA進(jìn)行特征詞擴(kuò)展
3.4.3 擴(kuò)展后的短文本向量表示
3.5 實驗及分析
3.5.1 基于S-LDA的短文本分類框架
3.5.2 短文本分類實驗環(huán)境
3.5.3 復(fù)旦語料數(shù)據(jù)預(yù)處理
3.5.4 短文本分類評價標(biāo)準(zhǔn)
3.5.5 短文本分類實驗設(shè)置
3.5.6 實驗結(jié)果及分析
3.6 基于S-LDA特征擴(kuò)展的局限性
3.7 本章小結(jié)
4 S-LDA-WV短文本分類
4.1 神經(jīng)網(wǎng)絡(luò)語言模型
4.2 Word2Vec詞向量
4.2.1 CBOW模型
4.2.2 Skip-gram模型
4.3 S-LDA-WV聯(lián)合短文本表示
4.3.1 Word2Vec_AVG短文本表示
4.3.2 Word2Vec_TF-IDF短文本表示
4.3.3 基于S-LDA主題模型進(jìn)行特征擴(kuò)展
4.3.4 聯(lián)合短文本表示
4.4 實驗結(jié)果及分析
4.4.1 S-LDA-WV短文本分類框架
4.4.2 頭條標(biāo)題數(shù)據(jù)預(yù)處理
4.4.3 短文本分類實驗設(shè)置
4.4.4 實驗結(jié)果及分析
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 本文工作總結(jié)
5.2 未來研究展望
參考文獻(xiàn)
致謝
附錄1 攻讀碩士學(xué)位期間參與的項目和發(fā)表的論文
本文編號:3654447
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3654447.html
最近更新
教材專著