基于LDA-WO混合模型的微博話題有序特征抽取算法研究
發(fā)布時間:2023-03-18 21:09
隨著web2.0時代到來,互聯(lián)網(wǎng)數(shù)據(jù)爆炸式增長,每天有上億條新微博產(chǎn)生,遠(yuǎn)遠(yuǎn)超出個人信息處理能力,如何從中快速、準(zhǔn)確獲取有用信息,即主題信息抽取,變得十分必要。當(dāng)前LDA主題模型,在微博文本主題抽取中得到廣泛應(yīng)用,但仍存以下問題:(1)忽略了不同詞語對主題區(qū)分能力的不同,導(dǎo)致抽取結(jié)果不夠準(zhǔn)確;(2)抽取到的特征詞是無序的,可讀性較差,給用戶從主題推測文檔內(nèi)容帶來困難。因此,本文提出了一種新的微博主題抽取算法,以提高抽取結(jié)果的準(zhǔn)確性和可讀性。本文首先對信息抽取、主題模型和詞序相關(guān)的理論進(jìn)行梳理與總結(jié),選擇相關(guān)部分作為本文的研究基礎(chǔ);然后為了解決LDA模型抽取結(jié)果不準(zhǔn)確的問題,本文在傳統(tǒng)LDA模型的基礎(chǔ)上,考慮不同詞語對主題區(qū)分能力的不同,構(gòu)建了擴(kuò)展LDA主題模型;接著,為解決抽取結(jié)果可讀性差的問題,本文基于詞序理論和語言圖模型思想,構(gòu)建了WO詞序模型,對主題建模抽取到的特征詞進(jìn)行排序,并基于詞間有序的共現(xiàn)信息,設(shè)計(jì)了OPMI算法,獲取了有序特征詞組表示主題;之后,將擴(kuò)展LDA模型與WO模型結(jié)合,構(gòu)建了LDA-WO混合模型,并設(shè)計(jì)了基于LDAWO混合模型的微博話題有序特征抽取算法,以獲取到...
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 選題背景及意義
1.1.1 選題背景
1.1.2 選題意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 話題信息抽取研究現(xiàn)狀
1.2.2 主題模型研究現(xiàn)狀
1.2.3 詞序相關(guān)研究現(xiàn)狀
1.2.4 研究現(xiàn)狀小結(jié)
1.3 研究內(nèi)容及技術(shù)路線
1.3.1 研究內(nèi)容
1.3.2 技術(shù)路線
1.4 主要工作及創(chuàng)新點(diǎn)
第二章 相關(guān)基礎(chǔ)理論研究
2.1 文本抽取技術(shù)簡介
2.2 主題模型
2.2.1 主題模型的發(fā)展
2.2.2 LDA主題模型
2.3 主題抽取相關(guān)評價指標(biāo)
2.4 本章小結(jié)
第三章 LDA-WO混合模型構(gòu)建
3.1 微博特征分析
3.2 可擴(kuò)展的LDA主題模型構(gòu)建
3.3 WO詞序模型構(gòu)建
3.4 LDA-WO混合模型構(gòu)建
3.4.1 語料相似度判別
3.4.2 特征詞組構(gòu)造
3.4.3 LDA-WO混合模型結(jié)構(gòu)
3.5 本章小結(jié)
第四章 基于LDA-WO混合模型的微博有序特征抽取算法設(shè)計(jì)
4.1 有序特征詞組文本主題表示模型
4.2 基于LDA-WO混合模型的微博話題有序特征抽取算法
4.2.1 基于擴(kuò)展LDA模型的無序主題抽取算法
4.2.2 基于WO詞序模型的詞序調(diào)整算法
4.2.3 基于OPMI的有序特征詞組構(gòu)建算法
4.3 本章小結(jié)
第五章 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
5.1 實(shí)驗(yàn)環(huán)境
5.2 實(shí)驗(yàn)數(shù)據(jù)
5.2.1 實(shí)驗(yàn)數(shù)據(jù)獲取
5.2.2 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理
5.3 基于LDA-WO混合模型的微博話題有序特征抽取對比實(shí)驗(yàn)
5.3.1 擴(kuò)展LDA主題建模
5.3.2 WO特征詞詞序調(diào)整
5.3.3 有序特征詞組構(gòu)造
5.4 實(shí)驗(yàn)分析
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
在學(xué)期間的研究成果及發(fā)表的學(xué)術(shù)論文
本文編號:3763871
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 選題背景及意義
1.1.1 選題背景
1.1.2 選題意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 話題信息抽取研究現(xiàn)狀
1.2.2 主題模型研究現(xiàn)狀
1.2.3 詞序相關(guān)研究現(xiàn)狀
1.2.4 研究現(xiàn)狀小結(jié)
1.3 研究內(nèi)容及技術(shù)路線
1.3.1 研究內(nèi)容
1.3.2 技術(shù)路線
1.4 主要工作及創(chuàng)新點(diǎn)
第二章 相關(guān)基礎(chǔ)理論研究
2.1 文本抽取技術(shù)簡介
2.2 主題模型
2.2.1 主題模型的發(fā)展
2.2.2 LDA主題模型
2.3 主題抽取相關(guān)評價指標(biāo)
2.4 本章小結(jié)
第三章 LDA-WO混合模型構(gòu)建
3.1 微博特征分析
3.2 可擴(kuò)展的LDA主題模型構(gòu)建
3.3 WO詞序模型構(gòu)建
3.4 LDA-WO混合模型構(gòu)建
3.4.1 語料相似度判別
3.4.2 特征詞組構(gòu)造
3.4.3 LDA-WO混合模型結(jié)構(gòu)
3.5 本章小結(jié)
第四章 基于LDA-WO混合模型的微博有序特征抽取算法設(shè)計(jì)
4.1 有序特征詞組文本主題表示模型
4.2 基于LDA-WO混合模型的微博話題有序特征抽取算法
4.2.1 基于擴(kuò)展LDA模型的無序主題抽取算法
4.2.2 基于WO詞序模型的詞序調(diào)整算法
4.2.3 基于OPMI的有序特征詞組構(gòu)建算法
4.3 本章小結(jié)
第五章 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
5.1 實(shí)驗(yàn)環(huán)境
5.2 實(shí)驗(yàn)數(shù)據(jù)
5.2.1 實(shí)驗(yàn)數(shù)據(jù)獲取
5.2.2 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理
5.3 基于LDA-WO混合模型的微博話題有序特征抽取對比實(shí)驗(yàn)
5.3.1 擴(kuò)展LDA主題建模
5.3.2 WO特征詞詞序調(diào)整
5.3.3 有序特征詞組構(gòu)造
5.4 實(shí)驗(yàn)分析
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
在學(xué)期間的研究成果及發(fā)表的學(xué)術(shù)論文
本文編號:3763871
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3763871.html
最近更新
教材專著