基于貝葉斯邏輯回歸文本分類模型的改進(jìn)及其應(yīng)用
發(fā)布時(shí)間:2020-03-23 08:45
【摘要】:文本分類是數(shù)據(jù)挖掘中一個(gè)研究熱點(diǎn)問題。自文本挖掘技術(shù)出現(xiàn)以來(lái),眾多研究者不斷對(duì)文本挖掘技術(shù)進(jìn)行改進(jìn)。出現(xiàn)基于文本相似度方法、基于機(jī)器學(xué)習(xí)方法、基于規(guī)則方法以及基于知識(shí)庫(kù)的方法等。這幾類方法有各自的優(yōu)點(diǎn)和不足。本文以文本分類方法的不足為研究出發(fā)點(diǎn),重點(diǎn)提高語(yǔ)義深層挖掘和分類精確度從而實(shí)現(xiàn)海量文本信息處理。本文結(jié)合關(guān)聯(lián)規(guī)則和貝葉斯邏輯回歸模型,提出一種融合關(guān)聯(lián)規(guī)則和貝葉斯方法的改進(jìn)文本分類模型。關(guān)聯(lián)規(guī)則模型利用文本語(yǔ)義規(guī)則進(jìn)行分詞和詞頻關(guān)聯(lián)度度量,使得該模型具有較大的適用范圍。貝葉斯邏輯回歸模型具有很好的魯棒性,能夠有效避免過擬合現(xiàn)象。綜上所述,本文將兩種方法結(jié)合提出加入關(guān)聯(lián)規(guī)則的貝葉斯邏輯回歸模型。改進(jìn)模型首先利用關(guān)聯(lián)規(guī)則對(duì)文本語(yǔ)義信息進(jìn)行深入挖掘,得到相似度參數(shù),根據(jù)相似度參數(shù)構(gòu)造高斯先驗(yàn)加入到貝葉斯邏輯回歸模型。模型估計(jì)采用引入Polya-Gamma輔助變量的采樣方法估計(jì)。并與函數(shù)近似的估計(jì)方法進(jìn)行比較。作為應(yīng)用,對(duì)復(fù)旦大學(xué)中文新聞?wù)Z料庫(kù)對(duì)提出的改進(jìn)模型進(jìn)行實(shí)例應(yīng)用。該語(yǔ)料庫(kù)包含2815篇文章,共10個(gè)新聞主題。數(shù)據(jù)量和主題類別較為適合進(jìn)行文本分類。為驗(yàn)證本文模型的分類效率,分別與關(guān)聯(lián)規(guī)則模型、貝葉斯邏輯回歸模型、加入Polya-Gamma輔助變量的貝葉斯邏輯回歸模型分類效率進(jìn)行比較。實(shí)例結(jié)果表明:本文提出的改進(jìn)模型能夠提高文本分類效率。在垃圾郵件處理、新聞主題分類等實(shí)際領(lǐng)域具有一定實(shí)際應(yīng)用價(jià)值。
【圖文】:
類前1
圖 4.4 本文改進(jìn)圖 4.4 橫坐標(biāo)表示中文新聞數(shù)據(jù)集 結(jié)果表明,不同主題類別的文本分類精較小。其中第 8 類主題分類精確度最小過比較圖 4.1、圖 4.2、圖 4.3、圖 4.4 的類精確度要高于關(guān)聯(lián)規(guī)則模型分類精確精確度、加入 輔助變量確度。為便于展示,本文在最后對(duì)四種圖 4.1、圖 4.2、圖 4.3、圖 4.4 的比精確度也在提升。下一步對(duì)四種文本分
【學(xué)位授予單位】:蘭州財(cái)經(jīng)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.1;O212.8
本文編號(hào):2596486
【圖文】:
類前1
圖 4.4 本文改進(jìn)圖 4.4 橫坐標(biāo)表示中文新聞數(shù)據(jù)集 結(jié)果表明,不同主題類別的文本分類精較小。其中第 8 類主題分類精確度最小過比較圖 4.1、圖 4.2、圖 4.3、圖 4.4 的類精確度要高于關(guān)聯(lián)規(guī)則模型分類精確精確度、加入 輔助變量確度。為便于展示,本文在最后對(duì)四種圖 4.1、圖 4.2、圖 4.3、圖 4.4 的比精確度也在提升。下一步對(duì)四種文本分
【學(xué)位授予單位】:蘭州財(cái)經(jīng)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.1;O212.8
【相似文獻(xiàn)】
相關(guān)期刊論文 前2條
1 張巖峰;陳長(zhǎng)松;楊濤;左俐俐;丁飛;;微博用戶的個(gè)性分類分析[J];計(jì)算機(jī)工程與科學(xué);2015年02期
2 譚詠梅;王志浩;;基于多特征的中文文本蘊(yùn)含識(shí)別[J];北京郵電大學(xué)學(xué)報(bào);2015年06期
相關(guān)重要報(bào)紙文章 前1條
1 ;貝葉斯邏輯和過濾器[N];計(jì)算機(jī)世界;2006年
相關(guān)碩士學(xué)位論文 前2條
1 許騰騰;基于貝葉斯邏輯回歸文本分類模型的改進(jìn)及其應(yīng)用[D];蘭州財(cái)經(jīng)大學(xué);2018年
2 周奉蘭;面向多領(lǐng)域的異構(gòu)關(guān)系數(shù)據(jù)遷移學(xué)習(xí)界限研究[D];哈爾濱工業(yè)大學(xué);2017年
,本文編號(hào):2596486
本文鏈接:http://sikaile.net/kejilunwen/yysx/2596486.html
最近更新
教材專著