天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于機(jī)器學(xué)習(xí)的中文文本分類算法的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-05-23 01:49
【摘要】:隨著大數(shù)據(jù)時(shí)代的快速發(fā)展,文本信息數(shù)據(jù)量急劇增加,為了獲取有價(jià)值的信息,提升信息獲取效率,就需對這些文本信息進(jìn)行分類。因此,文本分類系統(tǒng)的研究與實(shí)現(xiàn)具有重要意義。新聞文本是文本信息的一個(gè)重要組成部分,也是人們獲取信息的重要方式。本文以新聞文本分類為依托,對當(dāng)下文本分類算法進(jìn)行改進(jìn),以新聞文本分類系統(tǒng)為實(shí)例對文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行說明,完成文本分類算法的研究工作。本文以大數(shù)據(jù)時(shí)代背景及分類技術(shù)的發(fā)展為背景,對貝葉斯分類算法以及卷積神經(jīng)網(wǎng)絡(luò)分類算法進(jìn)行了改進(jìn),以提升分類的準(zhǔn)確度,主要工作內(nèi)容有以下幾個(gè)方面:第一,本文針對不同種類的文本分類方法做了調(diào)研,通過閱讀文獻(xiàn)資料,了解了文本分類的發(fā)展歷史,分析了貝葉斯、KNN、SVM、決策樹、Fasttext及CNN等各分類算法的利與弊;第二,對樸素貝葉斯分類算法進(jìn)行了改進(jìn),提出了一種結(jié)合特征詞分布情況的k-Bayes分類算法,增加了意義突出的特征詞的權(quán)重,提升文本分類效率;第三,對卷積神經(jīng)網(wǎng)絡(luò)分類算法進(jìn)行了改進(jìn),加入了注意力層的特征提取操作,形成基于注意力層的卷積神將網(wǎng)絡(luò),重新分配特征詞權(quán)重值,將特征詞進(jìn)行進(jìn)一步提煉,符合人們對于分類的理解——專注于有意義的某些詞語,這對提升文本分類的準(zhǔn)確度有較好的效果;第四,本文以新聞文本分類系統(tǒng)為例說明了文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。系統(tǒng)可以為用戶展示直觀的分類結(jié)果。分類算法的改進(jìn)都是從精煉特征詞的角度出發(fā),通過實(shí)驗(yàn)驗(yàn)證,本文的分類算法確實(shí)提升了分類的準(zhǔn)確率。
【圖文】:

示意圖,基本結(jié)構(gòu),示意圖,分類結(jié)果


(Convolutional邋Layer)、池化層(Pooling邋Layer)和全連接層(Connection邋Layer)。輸逡逑入層接收數(shù)據(jù),卷積層和池化層主要負(fù)責(zé)復(fù)雜的特征提取工作,,全連接層負(fù)責(zé)進(jìn)逡逑行文本分類操作,然后輸出層展示分類結(jié)果;窘Y(jié)構(gòu)如圖2-5所示:逡逑i邐n=L,邋!邐|邐;逡逑;邐,邋rp.,邐?邐;邋邐邋:逡逑;Convolutional邋rh邐[邋Max-Pooling]Pooling邋layer邋:逡逑.邋layer邐—邐_邐—邐.邐;邋I邐1邐:逡逑二二亞:二:逡逑 ̄J邋:邐;邐Connection邋?逡逑;邐邐;邐丨丨邋soft ̄maK邋—邋j逡逑■邋Input邋layer邐-k'邐邐邐邐邐邐^邐?逡逑!邋邐;逡逑邐—1-邐1邐1邋i邋j邋?邐Result逡逑i邐1邐:邐邐邐邐逡逑1?邋合逡逑Data邋Source逡逑圖2-5邋CNN基本結(jié)構(gòu)示意圖逡逑2.3分類算法評價(jià)方法逡逑利用分類算法得到分類結(jié)果后,需要對結(jié)果進(jìn)行評估,再對分類算法的設(shè)計(jì)逡逑進(jìn)行評價(jià),文本自動化分類的目的就是希望快速高效地得到較為正確的分類結(jié)果。逡逑常見的分類算法評價(jià)方法|57]有個(gè)方面:準(zhǔn)確率、召回率以及?!值。根據(jù)分類預(yù)逡逑測可能發(fā)生的情況,設(shè)TP代表實(shí)際為正類且預(yù)測也為正類的文檔數(shù)目,FN代逡逑表實(shí)際為正類而預(yù)測為反類的文檔數(shù)目,FP代表實(shí)際為反類而預(yù)測為正類的文逡逑檔數(shù)目

基于機(jī)器學(xué)習(xí)的中文文本分類算法的研究與實(shí)現(xiàn)


計(jì)腳
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.1;TP181

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 景寧,劉雨,彭甫陽;一種實(shí)用外分類算法—快速分類-折半插入算法的研究及實(shí)現(xiàn)[J];小型微型計(jì)算機(jī)系統(tǒng);1988年09期

2 劉隆和;許俊剛;朱平云;;一種復(fù)合自適應(yīng)分類算法[J];自動化學(xué)報(bào);1989年03期

3 段凡丁;;O(n)時(shí)間復(fù)雜性的超快速分類算法[J];西南交通大學(xué)學(xué)報(bào);1992年03期

4 孫夢夢;唐旭清;;基于粒度空間的最小生成樹分類算法[J];南京大學(xué)學(xué)報(bào)(自然科學(xué));2017年05期

5 董賀;榮光怡;;數(shù)據(jù)挖掘中數(shù)據(jù)分類算法的比較分析[J];吉林師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年04期

6 程建華;;數(shù)據(jù)挖掘分類算法研究綜述[J];中國高新技術(shù)企業(yè);2008年24期

7 鄭智捷;幻序合并分類算法[J];計(jì)算機(jī)學(xué)報(bào);1984年05期

8 劉紅巖,陳劍,陳國青;數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法綜述[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年06期

9 張杰鑫;張錚;;包分類算法研究綜述[J];計(jì)算機(jī)工程;2015年12期

10 劉文娟;;基于貝葉斯理論的分類算法研究[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2014年16期

相關(guān)會議論文 前10條

1 肖健華;孫德山;吳今培;;基于支持向量數(shù)據(jù)描述的多類分類算法及其在人臉識別中的應(yīng)用[A];2005年中國智能自動化會議論文集[C];2005年

2 高紅霞;蔡錦龍;;基于支持向量機(jī)的印刷電路板焊點(diǎn)分類算法[A];中國自動化學(xué)會中南六省(區(qū))2010年第28屆年會·論文集[C];2010年

3 趙波;唐常杰;朱明放;魏大剛;左R

本文編號:2676943


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2676943.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2a150***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com