面向文本語(yǔ)義分析應(yīng)用的話題模型研究
發(fā)布時(shí)間:2021-04-30 22:48
隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和快速普及,人們?cè)诰W(wǎng)絡(luò)上的活動(dòng)日益頻繁,導(dǎo)致互聯(lián)網(wǎng)數(shù)據(jù)爆炸式增長(zhǎng),特別是海量的非結(jié)構(gòu)化文本和無(wú)標(biāo)簽的文本,包括電子郵件,社交媒體,新聞報(bào)道和電子商務(wù)等。如何有效地分析和處理海量的非結(jié)構(gòu)化文本數(shù)據(jù),迅速、精準(zhǔn)地挖掘出有效的語(yǔ)義信息,成為文本智能處理研究領(lǐng)域所面臨的巨大挑戰(zhàn)之一。大量研究工作致力于使用無(wú)監(jiān)督學(xué)習(xí)的方式,比如話題模型,對(duì)非結(jié)構(gòu)化文本進(jìn)行分析。然而,文本信息涉及的各個(gè)領(lǐng)域,具有不同的統(tǒng)計(jì)特征,同時(shí),文本語(yǔ)義分析涵蓋多種分析應(yīng)用,各類應(yīng)用的側(cè)重點(diǎn)和目標(biāo)也不盡相同。例如在輿情監(jiān)測(cè)領(lǐng)域模型需要關(guān)注語(yǔ)義在時(shí)間上的演化,在社交媒體上的語(yǔ)義挖掘則著重處理短文本建模,而以用戶作為出發(fā)點(diǎn)的應(yīng)用如個(gè)性化推薦系統(tǒng)更重視基于用戶興趣點(diǎn)的細(xì)粒度分析,傳統(tǒng)的話題模型難以滿足各類分析任務(wù),因此,為解決互聯(lián)網(wǎng)海量文本數(shù)據(jù)帶來(lái)的各類問(wèn)題,不同的變種話題模型應(yīng)運(yùn)而生。本文在基于話題模型的文本語(yǔ)義分析的基礎(chǔ)上,針對(duì)話題動(dòng)態(tài)演化,短文本話題建模和基于用戶興趣點(diǎn)的有針對(duì)性挖掘這三個(gè)應(yīng)用方面進(jìn)行研究。具體研究?jī)?nèi)容如下:(1)在話題動(dòng)態(tài)演化方面,本文提出了一種使用深度學(xué)習(xí)算法進(jìn)行基于語(yǔ)義連接的話題...
【文章來(lái)源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:117 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
致謝
摘要
abstract
第一章 緒論
1.1 研究背景
1.2 本文的主要工作和創(chuàng)新點(diǎn)
1.3 課題來(lái)源與本文組織結(jié)構(gòu)
1.3.1 課題來(lái)源
1.3.2 本文組織結(jié)構(gòu)
1.4 本章小結(jié)
第二章 基于話題模型的文本語(yǔ)義分析綜述
2.1 傳統(tǒng)話題模型
2.1.1 概率方法
2.1.2 矩陣分解方法
2.2 混合話題模型
2.2.1 動(dòng)態(tài)話題模型
2.2.2 多維度話題模型
2.3 短文本話題模型
2.3.1 經(jīng)典的短文本話題模型
2.3.2 基于外部輔助信息的短文本話題模型
2.4 話題模型的評(píng)測(cè)標(biāo)準(zhǔn)
2.4.1 話題可解釋性評(píng)測(cè)
2.4.2 話題質(zhì)量評(píng)測(cè)
第三章 基于語(yǔ)義連接的話題演化框架
3.1 引言
3.2 相關(guān)工作
3.2.1 話題演化
3.2.2 潛在的狄利克雷分配
3.2.3 深度學(xué)習(xí)算法Deep Walk
3.3 模型描述
3.3.1 事件與話題
3.3.2 演化的類型
3.3.3 語(yǔ)義連接
3.3.4 話題演化流程框架
3.4 實(shí)驗(yàn)結(jié)果
3.4.1 數(shù)據(jù)集
3.4.2 對(duì)比算法
3.4.3 事件演化和話題演化
3.4.4 新聞數(shù)據(jù)實(shí)驗(yàn)結(jié)果
3.4.5 郵件數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果
3.4.6 Twitter數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果
3.4.7 對(duì)比算法的實(shí)驗(yàn)結(jié)果
3.5 小結(jié)
第四章 結(jié)合分布式詞嵌入表達(dá)的短文本話題模型
4.1 引言
4.2 相關(guān)工作
4.2.1 使用詞嵌入技術(shù)的話題模型
4.2.2 基于注意力的話題模型
4.3 基于注意力分割的話題模型
4.3.1 模型描述和生成過(guò)程
4.3.2 算法
4.3.3 學(xué)習(xí)話題嵌入
4.4 實(shí)驗(yàn)結(jié)果
4.4.1 數(shù)據(jù)集描述和實(shí)驗(yàn)設(shè)置
4.4.2 話題一致性評(píng)估
4.4.3 短文本分類評(píng)估
4.4.4 片段分割實(shí)例展示
4.4.5 閾值討論
4.5 小結(jié)
第五章 基于核心詞對(duì)的有針對(duì)性話題模型
5.1 引言
5.2 相關(guān)工作
5.2.1 有針對(duì)性話題模型(Targeted Topic Models)
5.2.2 Biterm Topic Model
5.2.3 其他相關(guān)話題模型
5.3 模型描述
5.3.1 核心詞對(duì)
5.3.2 模型描述和生成過(guò)程
5.3.3 公式推導(dǎo)
5.4 實(shí)驗(yàn)結(jié)果
5.4.1 對(duì)比算法與評(píng)估標(biāo)準(zhǔn)
5.4.2 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置
5.4.3 定量評(píng)估
5.4.4 時(shí)效性分析
5.4.5 定性評(píng)估
5.5 小結(jié)
第六章 結(jié)束語(yǔ)
6.1 主要研究工作總結(jié)
6.2 未來(lái)工作展望
參考文獻(xiàn)
攻讀博士學(xué)位期間的學(xué)術(shù)活動(dòng)及成果情況
【參考文獻(xiàn)】:
期刊論文
[1]一種基于LDA的在線主題演化挖掘模型[J]. 崔凱,周斌,賈焰,梁政. 計(jì)算機(jī)科學(xué). 2010(11)
本文編號(hào):3169628
【文章來(lái)源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:117 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
致謝
摘要
abstract
第一章 緒論
1.1 研究背景
1.2 本文的主要工作和創(chuàng)新點(diǎn)
1.3 課題來(lái)源與本文組織結(jié)構(gòu)
1.3.1 課題來(lái)源
1.3.2 本文組織結(jié)構(gòu)
1.4 本章小結(jié)
第二章 基于話題模型的文本語(yǔ)義分析綜述
2.1 傳統(tǒng)話題模型
2.1.1 概率方法
2.1.2 矩陣分解方法
2.2 混合話題模型
2.2.1 動(dòng)態(tài)話題模型
2.2.2 多維度話題模型
2.3 短文本話題模型
2.3.1 經(jīng)典的短文本話題模型
2.3.2 基于外部輔助信息的短文本話題模型
2.4 話題模型的評(píng)測(cè)標(biāo)準(zhǔn)
2.4.1 話題可解釋性評(píng)測(cè)
2.4.2 話題質(zhì)量評(píng)測(cè)
第三章 基于語(yǔ)義連接的話題演化框架
3.1 引言
3.2 相關(guān)工作
3.2.1 話題演化
3.2.2 潛在的狄利克雷分配
3.2.3 深度學(xué)習(xí)算法Deep Walk
3.3 模型描述
3.3.1 事件與話題
3.3.2 演化的類型
3.3.3 語(yǔ)義連接
3.3.4 話題演化流程框架
3.4 實(shí)驗(yàn)結(jié)果
3.4.1 數(shù)據(jù)集
3.4.2 對(duì)比算法
3.4.3 事件演化和話題演化
3.4.4 新聞數(shù)據(jù)實(shí)驗(yàn)結(jié)果
3.4.5 郵件數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果
3.4.6 Twitter數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果
3.4.7 對(duì)比算法的實(shí)驗(yàn)結(jié)果
3.5 小結(jié)
第四章 結(jié)合分布式詞嵌入表達(dá)的短文本話題模型
4.1 引言
4.2 相關(guān)工作
4.2.1 使用詞嵌入技術(shù)的話題模型
4.2.2 基于注意力的話題模型
4.3 基于注意力分割的話題模型
4.3.1 模型描述和生成過(guò)程
4.3.2 算法
4.3.3 學(xué)習(xí)話題嵌入
4.4 實(shí)驗(yàn)結(jié)果
4.4.1 數(shù)據(jù)集描述和實(shí)驗(yàn)設(shè)置
4.4.2 話題一致性評(píng)估
4.4.3 短文本分類評(píng)估
4.4.4 片段分割實(shí)例展示
4.4.5 閾值討論
4.5 小結(jié)
第五章 基于核心詞對(duì)的有針對(duì)性話題模型
5.1 引言
5.2 相關(guān)工作
5.2.1 有針對(duì)性話題模型(Targeted Topic Models)
5.2.2 Biterm Topic Model
5.2.3 其他相關(guān)話題模型
5.3 模型描述
5.3.1 核心詞對(duì)
5.3.2 模型描述和生成過(guò)程
5.3.3 公式推導(dǎo)
5.4 實(shí)驗(yàn)結(jié)果
5.4.1 對(duì)比算法與評(píng)估標(biāo)準(zhǔn)
5.4.2 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置
5.4.3 定量評(píng)估
5.4.4 時(shí)效性分析
5.4.5 定性評(píng)估
5.5 小結(jié)
第六章 結(jié)束語(yǔ)
6.1 主要研究工作總結(jié)
6.2 未來(lái)工作展望
參考文獻(xiàn)
攻讀博士學(xué)位期間的學(xué)術(shù)活動(dòng)及成果情況
【參考文獻(xiàn)】:
期刊論文
[1]一種基于LDA的在線主題演化挖掘模型[J]. 崔凱,周斌,賈焰,梁政. 計(jì)算機(jī)科學(xué). 2010(11)
本文編號(hào):3169628
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3169628.html
最近更新
教材專著