天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于決策樹(shù)的多維屬性文本推理識(shí)別

發(fā)布時(shí)間:2023-03-04 13:08
  隨著當(dāng)今世界逐漸從信息化轉(zhuǎn)型為數(shù)據(jù)化,數(shù)據(jù)量呈現(xiàn)爆炸式增長(zhǎng),大量結(jié)構(gòu)化數(shù)據(jù)充斥著人們的生活。與此同時(shí),由于人們認(rèn)知世界的維度不同,使得不同數(shù)據(jù)源中同一屬性有不同的描述,導(dǎo)致數(shù)據(jù)在對(duì)接的過(guò)程中出現(xiàn)不一致的問(wèn)題,更有甚者由于數(shù)據(jù)量大,導(dǎo)致數(shù)據(jù)在爬取、采集和清洗等一序列處理中丟失了原有屬性類型,給數(shù)據(jù)的存儲(chǔ)、管理以及分析帶來(lái)了極大的挑戰(zhàn)。因此,如何有效地對(duì)這些屬性類別未知的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行快速自動(dòng)地分類、識(shí)別及整理,成為模式識(shí)別和數(shù)據(jù)挖潛領(lǐng)域中急需解決的問(wèn)題。文本分類作為數(shù)據(jù)挖掘中用來(lái)描述和區(qū)分?jǐn)?shù)據(jù)類型的模型,能夠?qū)ξ粗畔⑦M(jìn)行有效的整理和分類。常用的文本分類算法有:決策樹(shù)算法、貝葉斯算法、支持向量機(jī)方法、神經(jīng)網(wǎng)絡(luò)算法等,其中大部分都是有監(jiān)督的機(jī)器學(xué)習(xí)算法。由于,有監(jiān)督學(xué)習(xí)的分類訓(xùn)練集是需要事先給出類別標(biāo)簽的,而往往這些標(biāo)簽都是靠人工標(biāo)注的,實(shí)際操作中既費(fèi)時(shí)又費(fèi)力;加上傳統(tǒng)分類算法對(duì)于已有標(biāo)簽之外的屬性文本是無(wú)法做到自動(dòng)推理分類的,使得現(xiàn)有的決策樹(shù)分類在屬性文本識(shí)別的應(yīng)用中存在著一定的不足。針對(duì)監(jiān)督學(xué)習(xí)方法實(shí)現(xiàn)無(wú)類別標(biāo)簽分類和未知屬性文本自動(dòng)分類識(shí)別問(wèn)題,本文以機(jī)器學(xué)習(xí)中決策樹(shù)分類模型為基礎(chǔ),...

【文章頁(yè)數(shù)】:71 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 研究背景及意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
    1.3 本課題主要內(nèi)容及創(chuàng)新點(diǎn)
第2章 屬性分類相關(guān)技術(shù)及理論介紹
    2.1 屬性文本分類預(yù)處理
        2.1.1 缺失值及噪音數(shù)據(jù)處理
        2.1.2 數(shù)據(jù)集成處理
        2.1.3 數(shù)據(jù)規(guī)范及離散化處理
    2.2 屬性文本特征選擇算法
        2.2.1 TF-IDF與特征屬性選擇
        2.2.2 信息增益與特征屬性選擇
        2.2.3 Relief算法與屬性特征選擇
    2.3 高維特征降維方法
        2.3.1 主成分分析PCA
        2.3.2 線性判別分析LDA
    2.4 決策樹(shù)分類算法
        2.4.1 ID3算法
        2.4.2 C4.5 算法
        2.4.3 CART算法
    2.5 屬性分類的評(píng)測(cè)指標(biāo)
        2.5.1 召回率、正確率和F-測(cè)度值
        2.5.2 微平均和宏平均
    2.6 本章小結(jié)
第3章 基于決策樹(shù)的屬性自動(dòng)推理算法
    3.1 基于決策樹(shù)與相似度策略的屬性融合算法
        3.1.1 C4.5 算法改進(jìn)
        3.1.2 屬性類別相似度策略
        3.1.3 屬性融合
    3.2 基于改進(jìn)融合的屬性自動(dòng)推理算法
        3.2.1 基于改進(jìn)融合算法的判決器
        3.2.2 基于判決結(jié)果的機(jī)器學(xué)習(xí)
    3.3 本章小結(jié)
第4章 屬性自動(dòng)推理識(shí)別系統(tǒng)的設(shè)計(jì)
    4.1 系統(tǒng)框架概述
    4.2 屬性文本預(yù)處理子系統(tǒng)
        4.2.1 預(yù)處理子系統(tǒng)概述
        4.2.2 特征選取及降維處理
    4.3 屬性文本自動(dòng)分類子系統(tǒng)
        4.3.1 自動(dòng)分類子系統(tǒng)概述
        4.3.2 決策樹(shù)生成模塊
        4.3.3 屬性融合判決模塊
        4.3.4 融合結(jié)果改進(jìn)模塊
    4.4 屬性文本定向識(shí)別子系統(tǒng)
        4.4.1 定向識(shí)別子系統(tǒng)概述
        4.4.2 基于正則表達(dá)式的規(guī)則識(shí)別模塊
        4.4.3 基于Trie樹(shù)和有限狀態(tài)自動(dòng)機(jī)的實(shí)體識(shí)別模塊
    4.5 本章小結(jié)
第5章 實(shí)驗(yàn)結(jié)果及分析
    5.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)
    5.2 實(shí)驗(yàn)過(guò)程及評(píng)價(jià)指標(biāo)
    5.3 實(shí)驗(yàn)結(jié)果對(duì)比分析
    5.4 本章小結(jié)
第6章 總結(jié)與展望
參考文獻(xiàn)
致謝
附錄1 攻讀碩士學(xué)位期間參與的項(xiàng)目和發(fā)表的論文
附錄2 主要英文縮寫(xiě)語(yǔ)對(duì)照表



本文編號(hào):3754343

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3754343.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3b12d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com