基于主題模型與知識圖譜的電子公文主題標(biāo)引方法研究
發(fā)布時間:2023-05-09 22:32
世界已經(jīng)從信息時代逐步進(jìn)入到大數(shù)據(jù)時代,海量數(shù)據(jù)中很大一部分是用自然語言記錄的文本數(shù)據(jù)。而電子公文作為文本數(shù)據(jù)類型的一種,它是政府機關(guān)、企事業(yè)單位等形成、具有法律效力和規(guī)范體式的數(shù)字形式的文件。歷年累積的電子公文歸檔保存后一般按照內(nèi)容進(jìn)行人工主題標(biāo)引、分類組織或者建立專題數(shù)據(jù)庫以方便檢索和開發(fā)利用。但人工標(biāo)引主題方式存在勞動量大、速度慢、標(biāo)引不一致等弊端,因此需要研究電子公文主題自動標(biāo)引方法。針對非結(jié)構(gòu)化公文的主題分析和標(biāo)引問題,本文提出一種融合主題模型和知識圖譜技術(shù)的電子公文主題自動標(biāo)引方法,與當(dāng)前存在的主題自動標(biāo)引方法相比,它將電子公文文檔集作為一個整體識別主題,基于主題詞表構(gòu)建外部知識庫以實現(xiàn)對識別的主題用規(guī)范化的正式主題詞和范疇進(jìn)行統(tǒng)一標(biāo)引。本文研究的內(nèi)容包括以下三個方面:(1)基于主題模型的電子公文主題分析研究。從整體的視角進(jìn)行電子公文的主題分析,應(yīng)用多種自然語言處理技術(shù)將其轉(zhuǎn)換成文檔語料庫,采用主題模型進(jìn)行主題識別與分析,包括融合主題詞表語義特征和通用主題模型進(jìn)行主題識別,以及綜合共詞網(wǎng)絡(luò)特征和層次主題模型進(jìn)行主題層次結(jié)構(gòu)分析。(2)基于知識圖譜的主題詞表語義自動轉(zhuǎn)換研究。...
【文章頁數(shù)】:151 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
第1章 引言
1.1 研究背景與意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究內(nèi)容
1.2.1 研究問題
1.2.2 研究對象
1.2.3 研究內(nèi)容
1.3 研究思路與方法
1.3.1 研究思路
1.3.2 研究方法和工具
1.4 論文結(jié)構(gòu)與創(chuàng)新點
1.4.1 論文結(jié)構(gòu)
1.4.2 論文創(chuàng)新點
第2章 相關(guān)研究現(xiàn)狀
2.1 主題標(biāo)引的相關(guān)研究
2.1.1 主題標(biāo)引的基本概念
2.1.2 主題標(biāo)引的演進(jìn)歷史
2.1.3 主題標(biāo)引的技術(shù)方法
2.2 主題模型的相關(guān)研究
2.2.1 主題模型概述
2.2.2 主題模型應(yīng)用研究
2.3 研究述評
第3章 研究框架
3.1 研究設(shè)計
3.2 研究整體框架
3.2.1 自由文本數(shù)據(jù)和詞典數(shù)據(jù)的預(yù)處理
3.2.2 電子公文文檔集主題識別和分析
3.2.3 主題詞表語義轉(zhuǎn)換
3.2.4 電子公文主題的自動標(biāo)引
3.3 數(shù)據(jù)集的構(gòu)建與清洗
3.3.1 實證數(shù)據(jù)
3.3.2 驗證數(shù)據(jù)
第4章 基于主題模型的電子公文主題分析研究
4.1 融合主題詞表語言特征和通用主題模型LDA的主題分析
4.1.1 研究方法及流程
4.1.2 實證研究
4.2 融合共詞網(wǎng)絡(luò)特征和層次主題模型hLDA的主題分析
4.2.1 層次主題模型及共詞網(wǎng)絡(luò)概述
4.2.2 研究方法及流程
4.2.3 實證研究
4.3 小結(jié)
第5章 基于知識圖譜的主題詞表語義自動轉(zhuǎn)換研究
5.1 主題詞表及語義轉(zhuǎn)化的理論研究
5.2 研究方法及流程
5.2.1 分析主題詞表構(gòu)成及其語義關(guān)系類型
5.2.2 構(gòu)建基于SKOS數(shù)據(jù)模型的語義轉(zhuǎn)換映射方案
5.2.3 主題詞表的SKOS語義自動轉(zhuǎn)換
5.2.4 SKOS語義化主題詞表自動轉(zhuǎn)換知識圖譜
5.3 實證研究
5.3.1 數(shù)據(jù)來源
5.3.2 分析結(jié)果
5.4 小結(jié)
第6章 綜合應(yīng)用主題模型與知識圖譜的電子公文主題標(biāo)引研究
6.1 基于LDA和知識圖譜的電子公文主題標(biāo)引研究
6.1.1 方案及流程
6.1.2 實證研究
6.1.3 有效性分析
6.2 基于hLDA和知識圖譜的電子公文主題標(biāo)引研究
6.2.1 方法及流程
6.2.2 實證研究
6.2.3 有效性分析
6.3 有效性驗證
6.4 總結(jié)
第7章 總結(jié)與展望
7.1 總結(jié)
7.2 不足與展望
參考文獻(xiàn)
附錄1 實證數(shù)據(jù)
附錄2 驗證數(shù)據(jù)
附錄3 主題詞表數(shù)據(jù)
致謝
作者簡歷及攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文與研究成果
本文編號:3812504
【文章頁數(shù)】:151 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
第1章 引言
1.1 研究背景與意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究內(nèi)容
1.2.1 研究問題
1.2.2 研究對象
1.2.3 研究內(nèi)容
1.3 研究思路與方法
1.3.1 研究思路
1.3.2 研究方法和工具
1.4 論文結(jié)構(gòu)與創(chuàng)新點
1.4.1 論文結(jié)構(gòu)
1.4.2 論文創(chuàng)新點
第2章 相關(guān)研究現(xiàn)狀
2.1 主題標(biāo)引的相關(guān)研究
2.1.1 主題標(biāo)引的基本概念
2.1.2 主題標(biāo)引的演進(jìn)歷史
2.1.3 主題標(biāo)引的技術(shù)方法
2.2 主題模型的相關(guān)研究
2.2.1 主題模型概述
2.2.2 主題模型應(yīng)用研究
2.3 研究述評
第3章 研究框架
3.1 研究設(shè)計
3.2 研究整體框架
3.2.1 自由文本數(shù)據(jù)和詞典數(shù)據(jù)的預(yù)處理
3.2.2 電子公文文檔集主題識別和分析
3.2.3 主題詞表語義轉(zhuǎn)換
3.2.4 電子公文主題的自動標(biāo)引
3.3 數(shù)據(jù)集的構(gòu)建與清洗
3.3.1 實證數(shù)據(jù)
3.3.2 驗證數(shù)據(jù)
第4章 基于主題模型的電子公文主題分析研究
4.1 融合主題詞表語言特征和通用主題模型LDA的主題分析
4.1.1 研究方法及流程
4.1.2 實證研究
4.2 融合共詞網(wǎng)絡(luò)特征和層次主題模型hLDA的主題分析
4.2.1 層次主題模型及共詞網(wǎng)絡(luò)概述
4.2.2 研究方法及流程
4.2.3 實證研究
4.3 小結(jié)
第5章 基于知識圖譜的主題詞表語義自動轉(zhuǎn)換研究
5.1 主題詞表及語義轉(zhuǎn)化的理論研究
5.2 研究方法及流程
5.2.1 分析主題詞表構(gòu)成及其語義關(guān)系類型
5.2.2 構(gòu)建基于SKOS數(shù)據(jù)模型的語義轉(zhuǎn)換映射方案
5.2.3 主題詞表的SKOS語義自動轉(zhuǎn)換
5.2.4 SKOS語義化主題詞表自動轉(zhuǎn)換知識圖譜
5.3 實證研究
5.3.1 數(shù)據(jù)來源
5.3.2 分析結(jié)果
5.4 小結(jié)
第6章 綜合應(yīng)用主題模型與知識圖譜的電子公文主題標(biāo)引研究
6.1 基于LDA和知識圖譜的電子公文主題標(biāo)引研究
6.1.1 方案及流程
6.1.2 實證研究
6.1.3 有效性分析
6.2 基于hLDA和知識圖譜的電子公文主題標(biāo)引研究
6.2.1 方法及流程
6.2.2 實證研究
6.2.3 有效性分析
6.3 有效性驗證
6.4 總結(jié)
第7章 總結(jié)與展望
7.1 總結(jié)
7.2 不足與展望
參考文獻(xiàn)
附錄1 實證數(shù)據(jù)
附錄2 驗證數(shù)據(jù)
附錄3 主題詞表數(shù)據(jù)
致謝
作者簡歷及攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文與研究成果
本文編號:3812504
本文鏈接:http://sikaile.net/tushudanganlunwen/3812504.html
最近更新
教材專著