天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

一種基于改進的TF-IDF和支持向量機的中文文本分類研究

發(fā)布時間:2018-03-12 13:54

  本文選題:文本分類 切入點:TF-IDF 出處:《軟件》2016年12期  論文類型:期刊論文


【摘要】:TF-IDF是一種應(yīng)用在文本分類中常用的權(quán)值計算方法,傳統(tǒng)的TD-IDF單純考慮特征詞頻率以及包含特征詞的文本數(shù)量,并沒有很好的考慮特征詞在文本中的重要程度以及類內(nèi)分布均勻情況和類間分布離散的問題,可能會導(dǎo)致文本分類結(jié)果的偏差。本文引入卡方統(tǒng)計量CHI和特征詞在文本中的位置作為修正因子并結(jié)合傳統(tǒng)TF-IDF權(quán)值計算公式,很好的解決了特征詞在類間分布以及關(guān)鍵詞重要程度不足的問題,并應(yīng)用支持向量機構(gòu)建分類器,進行文本分類的實驗驗證。改進后的TF-IDF計算公式與傳統(tǒng)TF-IDF相比,在查準率、查全率、F1測試值上都有一定程度的提升。
[Abstract]:TF-IDF is a kind of weight calculation method used in text classification. Traditional TD-IDF only considers the frequency of feature words and the number of text containing feature words. The importance of feature words in the text is not well considered, and the problem of uniform distribution within classes and discrete distribution among classes is not well considered. This paper introduces the chi-square statistic CHI and the position of feature words in the text as the correction factors and combines with the traditional TF-IDF weight calculation formula. The problem of the distribution of feature words among classes and the lack of importance of keywords is well solved, and the support vector mechanism is used to build classifier to verify the text classification. Compared with the traditional TF-IDF, the improved TF-IDF calculation formula is compared with the traditional TF-IDF. Recall rate of F _ 1 test value has a certain degree of improvement.
【作者單位】: 北京郵電大學網(wǎng)絡(luò)空間安全學院;
【分類號】:TP391.1

【參考文獻】

相關(guān)期刊論文 前4條

1 鐘磊;;基于貝葉斯分類器的中文文本分類[J];電子技術(shù)與軟件工程;2016年22期

2 奉國和;吳敬學;;KNN分類算法改進研究進展[J];圖書情報工作;2012年21期

3 臺德藝;王俊;;文本分類特征權(quán)重改進算法[J];計算機工程;2010年09期

4 張玉芳;彭時名;呂佳;;基于文本分類TFIDF方法的改進與應(yīng)用[J];計算機工程;2006年19期

【共引文獻】

相關(guān)期刊論文 前10條

1 韓戟;何成浩;蘇星;施成云;劉東映;;一種基于SVM的電力行業(yè)物資需求預(yù)測方法[J];電氣技術(shù);2016年12期

2 李濤;劉斌;;Spark平臺下的高效Web文本分類系統(tǒng)的研究[J];計算機應(yīng)用與軟件;2016年11期

3 王立;王欣;馬朝東;;一種基于本體KNN的分布式緩存數(shù)據(jù)交換策略[J];計算機科學;2016年S2期

4 祝仰凱;高茂庭;;基于增量式潛在語義分析的構(gòu)件檢索算法[J];現(xiàn)代計算機(專業(yè)版);2016年32期

5 崔振新;盧昊文;;民航安全信息中實現(xiàn)關(guān)鍵詞提取的方法[J];交通信息與安全;2016年05期

6 劉龍繁;李彥;侯超異;李文強;;基于功能基的專利信息挖掘與自動分類實驗研究[J];四川大學學報(工程科學版);2016年05期

7 賀科達;朱錚濤;程昱;;基于改進TF-IDF算法的文本分類方法研究[J];廣東工業(yè)大學學報;2016年05期

8 趙文濤;孟令軍;趙好好;韓炳權(quán);成亞飛;;分布式樸素貝葉斯算法在文本分類中的應(yīng)用[J];測控技術(shù);2016年06期

9 李廣麗;陳婧琳;劉斌;殷依;張紅斌;;基于Tag-rank和典型相關(guān)性分析的在線商品跨媒體檢索研究[J];科學技術(shù)與工程;2016年14期

10 蘭秋軍;李衛(wèi)康;劉文星;;不同情境下中文文本分類模型的表現(xiàn)及選擇[J];湖南大學學報(自然科學版);2016年04期

【二級參考文獻】

相關(guān)期刊論文 前10條

1 黃杰;郭躬德;陳黎飛;;增量KNN模型的修剪策略研究[J];小型微型計算機系統(tǒng);2011年05期

2 李凱齊;刁興春;曹建軍;李峰;;基于改進蟻群算法的高精度文本特征選擇方法[J];解放軍理工大學學報(自然科學版);2010年06期

3 郭躬德;黃杰;陳黎飛;;基于KNN模型的增量學習算法[J];模式識別與人工智能;2010年05期

4 鄧箴;包宏;;用模擬退火改進的KNN分類算法[J];計算機與應(yīng)用化學;2010年03期

5 劉海峰;陳琦;劉守生;蘇展;;一種基于數(shù)據(jù)偏斜的改進KNN文本分類[J];微電子學與計算機;2010年03期

6 張孝飛;黃河燕;;一種采用聚類技術(shù)改進的KNN文本分類方法[J];模式識別與人工智能;2009年06期

7 季鐸;鄭偉;蔡東風;;潛在語義索引中特征優(yōu)化技術(shù)的研究[J];中文信息學報;2009年02期

8 劉海峰;姚澤清;汪澤焱;張學仁;;基于位置的文本特征加權(quán)方法研究[J];微電子學與計算機;2009年02期

9 吳春穎;王士同;;一種改進的KNN Web文本分類方法[J];計算機應(yīng)用研究;2008年11期

10 李歡;焦建民;;簡化的粒子群優(yōu)化快速KNN分類算法[J];計算機工程與應(yīng)用;2008年32期

【相似文獻】

相關(guān)期刊論文 前10條

1 吳娟;范玉妹;王麗;;關(guān)于改進的支持向量機的研究[J];攀枝花學院學報;2006年05期

2 劉碩明;劉佳;楊海濱;;一種新的多類支持向量機算法[J];計算機應(yīng)用;2008年S2期

3 尹傳環(huán);牟少敏;田盛豐;黃厚寬;;單類支持向量機的研究進展[J];計算機工程與應(yīng)用;2012年12期

4 王云英;閻滿富;;C-支持向量機及其改進[J];唐山師范學院學報;2012年05期

5 李逢煥;;試述不確定支持向量機應(yīng)用分析及改進思路[J];中國證券期貨;2012年12期

6 邵惠鶴;支持向量機理論及其應(yīng)用[J];自動化博覽;2003年S1期

7 曾嶸,蔣新華,劉建成;基于支持向量機的異常值檢測的兩種方法[J];信息技術(shù);2004年05期

8 張凡,賀蘇寧;模糊判決支持向量機在自動語種辨識中的研究[J];計算機工程與應(yīng)用;2004年21期

9 魏玲,張文修;基于支持向量機集成的分類[J];計算機工程;2004年13期

10 沈翠華,鄧乃揚,肖瑞彥;基于支持向量機的個人信用評估[J];計算機工程與應(yīng)用;2004年23期

相關(guān)會議論文 前10條

1 余樂安;姚瀟;;基于中心化支持向量機的信用風險評估模型[A];第六屆(2011)中國管理學年會——商務(wù)智能分會場論文集[C];2011年

2 劉希玉;徐志敏;段會川;;基于支持向量機的創(chuàng)新分類器[A];山東省計算機學會2005年信息技術(shù)與信息化研討會論文集(一)[C];2005年

3 史曉濤;劉建麗;駱玉榮;;一種抗噪音的支持向量機學習方法[A];全國第19屆計算機技術(shù)與應(yīng)用(CACIS)學術(shù)會議論文集(下冊)[C];2008年

4 何琴淑;劉信恩;肖世富;;基于支持向量機的系統(tǒng)辨識方法研究及應(yīng)用[A];中國力學大會——2013論文摘要集[C];2013年

5 劉駿;;基于支持向量機方法的衢州降雪模型[A];第五屆長三角氣象科技論壇論文集[C];2008年

6 王婷;胡秀珍;;基于組合向量的支持向量機方法預(yù)測膜蛋白類型[A];第十一次中國生物物理學術(shù)大會暨第九屆全國會員代表大會摘要集[C];2009年

7 趙晶;高雋;張旭東;謝昭;;支持向量機綜述[A];全國第十五屆計算機科學與技術(shù)應(yīng)用學術(shù)會議論文集[C];2003年

8 周星宇;王思元;;智能數(shù)學與支持向量機[A];2005年中國智能自動化會議論文集[C];2005年

9 顏根廷;馬廣富;朱良寬;宋斌;;一種魯棒支持向量機算法[A];2006中國控制與決策學術(shù)年會論文集[C];2006年

10 侯澍e,

本文編號:1601856


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1601856.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0c7f2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com