云模型在文本挖掘應(yīng)用中的關(guān)鍵問題研究
發(fā)布時間:2021-02-18 23:29
文本挖掘(Text Mining,簡稱TM)是以文本信息作為挖掘?qū)ο?從中尋找信息的結(jié)構(gòu)、模型、模式等隱含的、具有潛在價值知識的過程。TM在信息檢索、模式識別、自然語言處理等等多個領(lǐng)域均有所涉及。由于文本是信息存儲的最主要途徑,因此TM的重要性也日益凸顯。在目前TM的研究中,傳統(tǒng)的數(shù)據(jù)挖掘方法依然占據(jù)著主導(dǎo)地位。然而隨著TM技術(shù)研究的進一步深入,將傳統(tǒng)的數(shù)據(jù)挖掘方法應(yīng)用于TM面臨著越來越嚴峻的挑戰(zhàn)。例如文本對象的高維稀疏性、算法復(fù)雜度過高及需要先驗知識等等問題,已經(jīng)嚴重阻礙了TM技術(shù)的推廣應(yīng)用。TM面臨的這些難題歸根到底都是由于自然語言的不確定性造成的。自然語言中(尤其是文本語言)的不確定性,本質(zhì)上來源于人腦思維的不確定性。這種不確定性使得人們具有更為豐富的理解空間與更為深入的認知能力,然而隨之而來也形成了TM的眾多難題。因此,若能從降低自然語言的復(fù)雜性入手,在充分利用現(xiàn)有技術(shù)的基礎(chǔ)上勇于創(chuàng)新,探索出適用于TM的不確定性人工智能處理方法,將會大大促進TM技術(shù)的快速發(fā)展。借助不確定性知識研究的重要工具——云模型在定性概念與定量數(shù)據(jù)間的轉(zhuǎn)換作用,作者將云理論引入TM關(guān)鍵問題研究當中。用以拋...
【文章來源】:重慶大學重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:110 頁
【學位級別】:博士
【文章目錄】:
中文摘要
英文摘要
圖、表、公式目錄
1 緒論
1.1 課題的研究背景
1.2 課題的選題意義
1.2.1 推進信息化建設(shè)
1.2.2 提高信息利用效率
1.2.3 提高人工智能水平
1.2.4 保障決策支撐
1.3 課題的研究基礎(chǔ)
1.3.1 國內(nèi)外研究現(xiàn)狀
1.3.2 面臨的問題
1.3.3 云模型在不確定性知識發(fā)現(xiàn)中的重要意義
1.4 本文的工作
1.4.1 本文的創(chuàng)新點
1.4.2 本文結(jié)構(gòu)安排
2 文本挖掘及其關(guān)鍵問題
2.1 引言
2.2 文本挖掘
2.2.1 文本挖掘定義
2.2.2 文本挖掘流程
2.3 文本挖掘關(guān)鍵問題
2.3.1 文本表示及特征提取
2.3.2 文本分類系統(tǒng)概述及應(yīng)用
2.3.3 文本聚類系統(tǒng)概述及應(yīng)用
2.4 文本挖掘面臨的挑戰(zhàn)
2.5 本章小結(jié)
3 云模型及其在文本挖掘中的理論擴充
3.1 引言
3.2 知識的不確定性
3.2.1 知識的隨機性
3.2.2 知識的模糊性
3.2.3 隨機性與模糊性之間的內(nèi)在聯(lián)系
3.2.4 自然語言的不確定性
3.3 云模型
3.3.1 自然語言中的概念
3.3.2 概念中隨機性與模糊性的關(guān)聯(lián)性
3.3.3 云模型
3.3.4 云模型數(shù)字特征
3.3.5 正態(tài)云及其普適性
3.3.6 云模型常用算法
3.4 基于云模型的概念層次劃分
3.4.1 概念層次
3.4.2 概念層次的自動生成
3.4.3 云變換
3.5 基于VSM 模型的文本知識表示
3.5.1 基于VSM 模型的文本表示
3.5.2 基于信息表的文本知識表示
3.5.3 基于云模型的文本信息表轉(zhuǎn)換
3.6 基于云相似度的文本相似度量
3.6.1 文本挖掘中的相似度量
3.6.2 云相似度及文本云相似度量
3.7 本章小結(jié)
4 基于云模型的文本特征自動提取
4.1 引言
4.2 文本特征降維
4.2.1 文本特征矩陣降維
4.2.2 文本特征選擇
4.2.3 常用特征選擇方法
4.3 基于云模型的文本特征自動提取算法
2 統(tǒng)計量的文本特征分布矩陣"> 4.3.1 基于χ2 統(tǒng)計量的文本特征分布矩陣
4.3.2 算法描述
4.3.3 實驗及分析
4.4 本章小結(jié)
5 基于云概念躍升的文本分類
5.1 引言
5.2 文本分類常用方法
5.2.1 常用文本分類方法
5.2.2 性能分析
5.3 文本分類模型的評估
5.3.1 采樣方法
5.3.2 評估指標
5.4 基于云概念躍升的文本分類
5.4.1 虛擬泛概念樹及概念躍升
5.4.2 算法描述
5.4.3 實驗及分析
5.5 本章小結(jié)
6 基于云相似度量的無監(jiān)督文本聚類
6.1 引言
6.2 文本聚類常用方法
6.2.1 常用文本聚類方法
6.2.2 算法性能比較
6.3 文本聚類性能評價指標
6.4 基于云相似度量的無監(jiān)督文本聚類
6.4.1 算法提出背景
6.4.2 算法描述
6.4.3 實驗及分析
6.5 本章小結(jié)
7 結(jié)束語
7.1 本文的工作總結(jié)
7.2 未來的工作展望
致謝
參考文獻
附錄
A. 作者在攻讀學位期間發(fā)表的論文目錄
B. 作者在攻讀學位期間參加的科研項目
本文編號:3040259
【文章來源】:重慶大學重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:110 頁
【學位級別】:博士
【文章目錄】:
中文摘要
英文摘要
圖、表、公式目錄
1 緒論
1.1 課題的研究背景
1.2 課題的選題意義
1.2.1 推進信息化建設(shè)
1.2.2 提高信息利用效率
1.2.3 提高人工智能水平
1.2.4 保障決策支撐
1.3 課題的研究基礎(chǔ)
1.3.1 國內(nèi)外研究現(xiàn)狀
1.3.2 面臨的問題
1.3.3 云模型在不確定性知識發(fā)現(xiàn)中的重要意義
1.4 本文的工作
1.4.1 本文的創(chuàng)新點
1.4.2 本文結(jié)構(gòu)安排
2 文本挖掘及其關(guān)鍵問題
2.1 引言
2.2 文本挖掘
2.2.1 文本挖掘定義
2.2.2 文本挖掘流程
2.3 文本挖掘關(guān)鍵問題
2.3.1 文本表示及特征提取
2.3.2 文本分類系統(tǒng)概述及應(yīng)用
2.3.3 文本聚類系統(tǒng)概述及應(yīng)用
2.4 文本挖掘面臨的挑戰(zhàn)
2.5 本章小結(jié)
3 云模型及其在文本挖掘中的理論擴充
3.1 引言
3.2 知識的不確定性
3.2.1 知識的隨機性
3.2.2 知識的模糊性
3.2.3 隨機性與模糊性之間的內(nèi)在聯(lián)系
3.2.4 自然語言的不確定性
3.3 云模型
3.3.1 自然語言中的概念
3.3.2 概念中隨機性與模糊性的關(guān)聯(lián)性
3.3.3 云模型
3.3.4 云模型數(shù)字特征
3.3.5 正態(tài)云及其普適性
3.3.6 云模型常用算法
3.4 基于云模型的概念層次劃分
3.4.1 概念層次
3.4.2 概念層次的自動生成
3.4.3 云變換
3.5 基于VSM 模型的文本知識表示
3.5.1 基于VSM 模型的文本表示
3.5.2 基于信息表的文本知識表示
3.5.3 基于云模型的文本信息表轉(zhuǎn)換
3.6 基于云相似度的文本相似度量
3.6.1 文本挖掘中的相似度量
3.6.2 云相似度及文本云相似度量
3.7 本章小結(jié)
4 基于云模型的文本特征自動提取
4.1 引言
4.2 文本特征降維
4.2.1 文本特征矩陣降維
4.2.2 文本特征選擇
4.2.3 常用特征選擇方法
4.3 基于云模型的文本特征自動提取算法
2 統(tǒng)計量的文本特征分布矩陣"> 4.3.1 基于χ2 統(tǒng)計量的文本特征分布矩陣
4.3.2 算法描述
4.3.3 實驗及分析
4.4 本章小結(jié)
5 基于云概念躍升的文本分類
5.1 引言
5.2 文本分類常用方法
5.2.1 常用文本分類方法
5.2.2 性能分析
5.3 文本分類模型的評估
5.3.1 采樣方法
5.3.2 評估指標
5.4 基于云概念躍升的文本分類
5.4.1 虛擬泛概念樹及概念躍升
5.4.2 算法描述
5.4.3 實驗及分析
5.5 本章小結(jié)
6 基于云相似度量的無監(jiān)督文本聚類
6.1 引言
6.2 文本聚類常用方法
6.2.1 常用文本聚類方法
6.2.2 算法性能比較
6.3 文本聚類性能評價指標
6.4 基于云相似度量的無監(jiān)督文本聚類
6.4.1 算法提出背景
6.4.2 算法描述
6.4.3 實驗及分析
6.5 本章小結(jié)
7 結(jié)束語
7.1 本文的工作總結(jié)
7.2 未來的工作展望
致謝
參考文獻
附錄
A. 作者在攻讀學位期間發(fā)表的論文目錄
B. 作者在攻讀學位期間參加的科研項目
本文編號:3040259
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3040259.html
最近更新
教材專著