天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于python的中文文本分類研究

發(fā)布時間:2020-08-09 21:35
【摘要】:伴隨著大數(shù)據(jù)時代的到來,互聯(lián)網(wǎng)包含了越來越多的各種格式的數(shù)據(jù)和信息,而這些信息中的大部分都是以text或者hypertext的格式出現(xiàn)的,那么如何有效的組織和管理這些大規(guī)模的文本數(shù)據(jù)和信息,并且能夠精準地從中挖掘出有用的信息正是我們目前所面臨的困難,所以基于機器學習的中文文本分類技術已經(jīng)成為一項非常有意義的研究課題。本文選取網(wǎng)頁新聞作為語料庫,針對中文文本分類問題進行了深切的探討和研究。本文首先介紹了文本分類領域的研究現(xiàn)狀;接著對文本分類的相關技術進行了探索和研究,包括信息檢索模型、文本的向量表示和中文文本分詞的相關技術。在傳統(tǒng)的TFIDF算法基礎上,本文創(chuàng)新性地采用詞頻放大法弱化文本長度對特征項權重的影響;在處理文本高維稀疏性向量矩陣時引入哈希技巧,提高了整個分類過程的空間和時間效率。在此基礎上,本文進一步介紹了各種分類算法,包括樸素Bayes算法、K近鄰算法、隨機森林算法以及支持向量機算法。最后本文通過Python軟件編程完整實現(xiàn)了中文文本分類系統(tǒng),將數(shù)據(jù)集其中的80%作為訓練集,20%作為測試集,進行交叉驗證,建立準確率、召回率和!"值一系列指標對各種分類算法性能進行評價,得出支持向量機算法的分類效果最好,其精確率、召回率和!"值都高達92%;K近鄰分類算法分類效果最差,雖然平均精確率為75%,但是回召率和!"值分別只有19%和12%的結論,并且深入分析了導致分類效果的原因和相關的改進方法,同時對下一步文本研究工作提出了展望。
【學位授予單位】:華中科技大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:C81

【參考文獻】

相關期刊論文 前10條

1 許曉昕;李安貴;;一種基于TFIDF的網(wǎng)絡聊天關鍵詞提取算法[J];計算機技術與發(fā)展;2006年03期

2 朱靖波,陳文亮;基于領域知識的文本分類[J];東北大學學報;2005年08期

3 李榮陸,王建會,陳曉云,陶曉鵬,胡運發(fā);使用最大熵模型進行中文文本分類[J];計算機研究與發(fā)展;2005年01期

4 劉斌,黃鐵軍,程軍,高文;一種新的基于統(tǒng)計的自動文本分類方法[J];中文信息學報;2002年06期

5 周水庚,關佶紅,胡運發(fā);隱含語義索引及其在中文文本處理中的應用研究[J];小型微型計算機系統(tǒng);2001年02期

6 黃萱菁,吳立德,石崎洋之,徐國偉;獨立于語種的文本分類方法[J];中文信息學報;2000年06期

7 李曉黎,劉繼敏,史忠植;概念推理網(wǎng)及其在文本分類中的應用[J];計算機研究與發(fā)展;2000年09期

8 王繼成,潘金貴,張福炎;Web文本挖掘技術研究[J];計算機研究與發(fā)展;2000年05期

9 刁倩,王永成,張惠惠;中文信息自動分類系統(tǒng)及其神經(jīng)網(wǎng)絡優(yōu)化算法[J];信息與控制;1999年03期

10 張月杰,姚天順;基于特征相關性的漢語文本自動分類模型的研究[J];小型微型計算機系統(tǒng);1998年08期

相關博士學位論文 前1條

1 李榮陸;文本分類及其相關技術研究[D];復旦大學;2005年



本文編號:2787586

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/2787586.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶7b2ba***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com