基于決策樹的多維屬性文本推理識別
發(fā)布時間:2023-03-04 13:08
隨著當今世界逐漸從信息化轉(zhuǎn)型為數(shù)據(jù)化,數(shù)據(jù)量呈現(xiàn)爆炸式增長,大量結(jié)構(gòu)化數(shù)據(jù)充斥著人們的生活。與此同時,由于人們認知世界的維度不同,使得不同數(shù)據(jù)源中同一屬性有不同的描述,導致數(shù)據(jù)在對接的過程中出現(xiàn)不一致的問題,更有甚者由于數(shù)據(jù)量大,導致數(shù)據(jù)在爬取、采集和清洗等一序列處理中丟失了原有屬性類型,給數(shù)據(jù)的存儲、管理以及分析帶來了極大的挑戰(zhàn)。因此,如何有效地對這些屬性類別未知的結(jié)構(gòu)化數(shù)據(jù)進行快速自動地分類、識別及整理,成為模式識別和數(shù)據(jù)挖潛領(lǐng)域中急需解決的問題。文本分類作為數(shù)據(jù)挖掘中用來描述和區(qū)分數(shù)據(jù)類型的模型,能夠?qū)ξ粗畔⑦M行有效的整理和分類。常用的文本分類算法有:決策樹算法、貝葉斯算法、支持向量機方法、神經(jīng)網(wǎng)絡(luò)算法等,其中大部分都是有監(jiān)督的機器學習算法。由于,有監(jiān)督學習的分類訓練集是需要事先給出類別標簽的,而往往這些標簽都是靠人工標注的,實際操作中既費時又費力;加上傳統(tǒng)分類算法對于已有標簽之外的屬性文本是無法做到自動推理分類的,使得現(xiàn)有的決策樹分類在屬性文本識別的應(yīng)用中存在著一定的不足。針對監(jiān)督學習方法實現(xiàn)無類別標簽分類和未知屬性文本自動分類識別問題,本文以機器學習中決策樹分類模型為基礎(chǔ),...
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本課題主要內(nèi)容及創(chuàng)新點
第2章 屬性分類相關(guān)技術(shù)及理論介紹
2.1 屬性文本分類預處理
2.1.1 缺失值及噪音數(shù)據(jù)處理
2.1.2 數(shù)據(jù)集成處理
2.1.3 數(shù)據(jù)規(guī)范及離散化處理
2.2 屬性文本特征選擇算法
2.2.1 TF-IDF與特征屬性選擇
2.2.2 信息增益與特征屬性選擇
2.2.3 Relief算法與屬性特征選擇
2.3 高維特征降維方法
2.3.1 主成分分析PCA
2.3.2 線性判別分析LDA
2.4 決策樹分類算法
2.4.1 ID3算法
2.4.2 C4.5 算法
2.4.3 CART算法
2.5 屬性分類的評測指標
2.5.1 召回率、正確率和F-測度值
2.5.2 微平均和宏平均
2.6 本章小結(jié)
第3章 基于決策樹的屬性自動推理算法
3.1 基于決策樹與相似度策略的屬性融合算法
3.1.1 C4.5 算法改進
3.1.2 屬性類別相似度策略
3.1.3 屬性融合
3.2 基于改進融合的屬性自動推理算法
3.2.1 基于改進融合算法的判決器
3.2.2 基于判決結(jié)果的機器學習
3.3 本章小結(jié)
第4章 屬性自動推理識別系統(tǒng)的設(shè)計
4.1 系統(tǒng)框架概述
4.2 屬性文本預處理子系統(tǒng)
4.2.1 預處理子系統(tǒng)概述
4.2.2 特征選取及降維處理
4.3 屬性文本自動分類子系統(tǒng)
4.3.1 自動分類子系統(tǒng)概述
4.3.2 決策樹生成模塊
4.3.3 屬性融合判決模塊
4.3.4 融合結(jié)果改進模塊
4.4 屬性文本定向識別子系統(tǒng)
4.4.1 定向識別子系統(tǒng)概述
4.4.2 基于正則表達式的規(guī)則識別模塊
4.4.3 基于Trie樹和有限狀態(tài)自動機的實體識別模塊
4.5 本章小結(jié)
第5章 實驗結(jié)果及分析
5.1 實驗環(huán)境及數(shù)據(jù)
5.2 實驗過程及評價指標
5.3 實驗結(jié)果對比分析
5.4 本章小結(jié)
第6章 總結(jié)與展望
參考文獻
致謝
附錄1 攻讀碩士學位期間參與的項目和發(fā)表的論文
附錄2 主要英文縮寫語對照表
本文編號:3754343
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本課題主要內(nèi)容及創(chuàng)新點
第2章 屬性分類相關(guān)技術(shù)及理論介紹
2.1 屬性文本分類預處理
2.1.1 缺失值及噪音數(shù)據(jù)處理
2.1.2 數(shù)據(jù)集成處理
2.1.3 數(shù)據(jù)規(guī)范及離散化處理
2.2 屬性文本特征選擇算法
2.2.1 TF-IDF與特征屬性選擇
2.2.2 信息增益與特征屬性選擇
2.2.3 Relief算法與屬性特征選擇
2.3 高維特征降維方法
2.3.1 主成分分析PCA
2.3.2 線性判別分析LDA
2.4 決策樹分類算法
2.4.1 ID3算法
2.4.2 C4.5 算法
2.4.3 CART算法
2.5 屬性分類的評測指標
2.5.1 召回率、正確率和F-測度值
2.5.2 微平均和宏平均
2.6 本章小結(jié)
第3章 基于決策樹的屬性自動推理算法
3.1 基于決策樹與相似度策略的屬性融合算法
3.1.1 C4.5 算法改進
3.1.2 屬性類別相似度策略
3.1.3 屬性融合
3.2 基于改進融合的屬性自動推理算法
3.2.1 基于改進融合算法的判決器
3.2.2 基于判決結(jié)果的機器學習
3.3 本章小結(jié)
第4章 屬性自動推理識別系統(tǒng)的設(shè)計
4.1 系統(tǒng)框架概述
4.2 屬性文本預處理子系統(tǒng)
4.2.1 預處理子系統(tǒng)概述
4.2.2 特征選取及降維處理
4.3 屬性文本自動分類子系統(tǒng)
4.3.1 自動分類子系統(tǒng)概述
4.3.2 決策樹生成模塊
4.3.3 屬性融合判決模塊
4.3.4 融合結(jié)果改進模塊
4.4 屬性文本定向識別子系統(tǒng)
4.4.1 定向識別子系統(tǒng)概述
4.4.2 基于正則表達式的規(guī)則識別模塊
4.4.3 基于Trie樹和有限狀態(tài)自動機的實體識別模塊
4.5 本章小結(jié)
第5章 實驗結(jié)果及分析
5.1 實驗環(huán)境及數(shù)據(jù)
5.2 實驗過程及評價指標
5.3 實驗結(jié)果對比分析
5.4 本章小結(jié)
第6章 總結(jié)與展望
參考文獻
致謝
附錄1 攻讀碩士學位期間參與的項目和發(fā)表的論文
附錄2 主要英文縮寫語對照表
本文編號:3754343
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3754343.html