天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

一種基于改進(jìn)的TF-IDF和支持向量機(jī)的中文文本分類研究

發(fā)布時(shí)間:2018-03-12 13:54

  本文選題:文本分類 切入點(diǎn):TF-IDF 出處:《軟件》2016年12期  論文類型:期刊論文


【摘要】:TF-IDF是一種應(yīng)用在文本分類中常用的權(quán)值計(jì)算方法,傳統(tǒng)的TD-IDF單純考慮特征詞頻率以及包含特征詞的文本數(shù)量,并沒有很好的考慮特征詞在文本中的重要程度以及類內(nèi)分布均勻情況和類間分布離散的問題,可能會(huì)導(dǎo)致文本分類結(jié)果的偏差。本文引入卡方統(tǒng)計(jì)量CHI和特征詞在文本中的位置作為修正因子并結(jié)合傳統(tǒng)TF-IDF權(quán)值計(jì)算公式,很好的解決了特征詞在類間分布以及關(guān)鍵詞重要程度不足的問題,并應(yīng)用支持向量機(jī)構(gòu)建分類器,進(jìn)行文本分類的實(shí)驗(yàn)驗(yàn)證。改進(jìn)后的TF-IDF計(jì)算公式與傳統(tǒng)TF-IDF相比,在查準(zhǔn)率、查全率、F1測試值上都有一定程度的提升。
[Abstract]:TF-IDF is a kind of weight calculation method used in text classification. Traditional TD-IDF only considers the frequency of feature words and the number of text containing feature words. The importance of feature words in the text is not well considered, and the problem of uniform distribution within classes and discrete distribution among classes is not well considered. This paper introduces the chi-square statistic CHI and the position of feature words in the text as the correction factors and combines with the traditional TF-IDF weight calculation formula. The problem of the distribution of feature words among classes and the lack of importance of keywords is well solved, and the support vector mechanism is used to build classifier to verify the text classification. Compared with the traditional TF-IDF, the improved TF-IDF calculation formula is compared with the traditional TF-IDF. Recall rate of F _ 1 test value has a certain degree of improvement.
【作者單位】: 北京郵電大學(xué)網(wǎng)絡(luò)空間安全學(xué)院;
【分類號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前4條

1 鐘磊;;基于貝葉斯分類器的中文文本分類[J];電子技術(shù)與軟件工程;2016年22期

2 奉國和;吳敬學(xué);;KNN分類算法改進(jìn)研究進(jìn)展[J];圖書情報(bào)工作;2012年21期

3 臺(tái)德藝;王俊;;文本分類特征權(quán)重改進(jìn)算法[J];計(jì)算機(jī)工程;2010年09期

4 張玉芳;彭時(shí)名;呂佳;;基于文本分類TFIDF方法的改進(jìn)與應(yīng)用[J];計(jì)算機(jī)工程;2006年19期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 韓戟;何成浩;蘇星;施成云;劉東映;;一種基于SVM的電力行業(yè)物資需求預(yù)測方法[J];電氣技術(shù);2016年12期

2 李濤;劉斌;;Spark平臺(tái)下的高效Web文本分類系統(tǒng)的研究[J];計(jì)算機(jī)應(yīng)用與軟件;2016年11期

3 王立;王欣;馬朝東;;一種基于本體KNN的分布式緩存數(shù)據(jù)交換策略[J];計(jì)算機(jī)科學(xué);2016年S2期

4 祝仰凱;高茂庭;;基于增量式潛在語義分析的構(gòu)件檢索算法[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2016年32期

5 崔振新;盧昊文;;民航安全信息中實(shí)現(xiàn)關(guān)鍵詞提取的方法[J];交通信息與安全;2016年05期

6 劉龍繁;李彥;侯超異;李文強(qiáng);;基于功能基的專利信息挖掘與自動(dòng)分類實(shí)驗(yàn)研究[J];四川大學(xué)學(xué)報(bào)(工程科學(xué)版);2016年05期

7 賀科達(dá);朱錚濤;程昱;;基于改進(jìn)TF-IDF算法的文本分類方法研究[J];廣東工業(yè)大學(xué)學(xué)報(bào);2016年05期

8 趙文濤;孟令軍;趙好好;韓炳權(quán);成亞飛;;分布式樸素貝葉斯算法在文本分類中的應(yīng)用[J];測控技術(shù);2016年06期

9 李廣麗;陳婧琳;劉斌;殷依;張紅斌;;基于Tag-rank和典型相關(guān)性分析的在線商品跨媒體檢索研究[J];科學(xué)技術(shù)與工程;2016年14期

10 蘭秋軍;李衛(wèi)康;劉文星;;不同情境下中文文本分類模型的表現(xiàn)及選擇[J];湖南大學(xué)學(xué)報(bào)(自然科學(xué)版);2016年04期

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 黃杰;郭躬德;陳黎飛;;增量KNN模型的修剪策略研究[J];小型微型計(jì)算機(jī)系統(tǒng);2011年05期

2 李凱齊;刁興春;曹建軍;李峰;;基于改進(jìn)蟻群算法的高精度文本特征選擇方法[J];解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年06期

3 郭躬德;黃杰;陳黎飛;;基于KNN模型的增量學(xué)習(xí)算法[J];模式識(shí)別與人工智能;2010年05期

4 鄧箴;包宏;;用模擬退火改進(jìn)的KNN分類算法[J];計(jì)算機(jī)與應(yīng)用化學(xué);2010年03期

5 劉海峰;陳琦;劉守生;蘇展;;一種基于數(shù)據(jù)偏斜的改進(jìn)KNN文本分類[J];微電子學(xué)與計(jì)算機(jī);2010年03期

6 張孝飛;黃河燕;;一種采用聚類技術(shù)改進(jìn)的KNN文本分類方法[J];模式識(shí)別與人工智能;2009年06期

7 季鐸;鄭偉;蔡?hào)|風(fēng);;潛在語義索引中特征優(yōu)化技術(shù)的研究[J];中文信息學(xué)報(bào);2009年02期

8 劉海峰;姚澤清;汪澤焱;張學(xué)仁;;基于位置的文本特征加權(quán)方法研究[J];微電子學(xué)與計(jì)算機(jī);2009年02期

9 吳春穎;王士同;;一種改進(jìn)的KNN Web文本分類方法[J];計(jì)算機(jī)應(yīng)用研究;2008年11期

10 李歡;焦建民;;簡化的粒子群優(yōu)化快速KNN分類算法[J];計(jì)算機(jī)工程與應(yīng)用;2008年32期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 吳娟;范玉妹;王麗;;關(guān)于改進(jìn)的支持向量機(jī)的研究[J];攀枝花學(xué)院學(xué)報(bào);2006年05期

2 劉碩明;劉佳;楊海濱;;一種新的多類支持向量機(jī)算法[J];計(jì)算機(jī)應(yīng)用;2008年S2期

3 尹傳環(huán);牟少敏;田盛豐;黃厚寬;;單類支持向量機(jī)的研究進(jìn)展[J];計(jì)算機(jī)工程與應(yīng)用;2012年12期

4 王云英;閻滿富;;C-支持向量機(jī)及其改進(jìn)[J];唐山師范學(xué)院學(xué)報(bào);2012年05期

5 李逢煥;;試述不確定支持向量機(jī)應(yīng)用分析及改進(jìn)思路[J];中國證券期貨;2012年12期

6 邵惠鶴;支持向量機(jī)理論及其應(yīng)用[J];自動(dòng)化博覽;2003年S1期

7 曾嶸,蔣新華,劉建成;基于支持向量機(jī)的異常值檢測的兩種方法[J];信息技術(shù);2004年05期

8 張凡,賀蘇寧;模糊判決支持向量機(jī)在自動(dòng)語種辨識(shí)中的研究[J];計(jì)算機(jī)工程與應(yīng)用;2004年21期

9 魏玲,張文修;基于支持向量機(jī)集成的分類[J];計(jì)算機(jī)工程;2004年13期

10 沈翠華,鄧乃揚(yáng),肖瑞彥;基于支持向量機(jī)的個(gè)人信用評(píng)估[J];計(jì)算機(jī)工程與應(yīng)用;2004年23期

相關(guān)會(huì)議論文 前10條

1 余樂安;姚瀟;;基于中心化支持向量機(jī)的信用風(fēng)險(xiǎn)評(píng)估模型[A];第六屆(2011)中國管理學(xué)年會(huì)——商務(wù)智能分會(huì)場論文集[C];2011年

2 劉希玉;徐志敏;段會(huì)川;;基于支持向量機(jī)的創(chuàng)新分類器[A];山東省計(jì)算機(jī)學(xué)會(huì)2005年信息技術(shù)與信息化研討會(huì)論文集(一)[C];2005年

3 史曉濤;劉建麗;駱玉榮;;一種抗噪音的支持向量機(jī)學(xué)習(xí)方法[A];全國第19屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(下冊)[C];2008年

4 何琴淑;劉信恩;肖世富;;基于支持向量機(jī)的系統(tǒng)辨識(shí)方法研究及應(yīng)用[A];中國力學(xué)大會(huì)——2013論文摘要集[C];2013年

5 劉駿;;基于支持向量機(jī)方法的衢州降雪模型[A];第五屆長三角氣象科技論壇論文集[C];2008年

6 王婷;胡秀珍;;基于組合向量的支持向量機(jī)方法預(yù)測膜蛋白類型[A];第十一次中國生物物理學(xué)術(shù)大會(huì)暨第九屆全國會(huì)員代表大會(huì)摘要集[C];2009年

7 趙晶;高雋;張旭東;謝昭;;支持向量機(jī)綜述[A];全國第十五屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2003年

8 周星宇;王思元;;智能數(shù)學(xué)與支持向量機(jī)[A];2005年中國智能自動(dòng)化會(huì)議論文集[C];2005年

9 顏根廷;馬廣富;朱良寬;宋斌;;一種魯棒支持向量機(jī)算法[A];2006中國控制與決策學(xué)術(shù)年會(huì)論文集[C];2006年

10 侯澍e,

本文編號(hào):1601856


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1601856.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0c7f2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
一区二区三区欧美高清| 精品人妻一区二区三区在线看| 日木乱偷人妻中文字幕在线| 国产免费一区二区不卡| 国产精品尹人香蕉综合网| 亚洲一区二区久久观看| 国产熟女高清一区二区| 丰满少妇被粗大猛烈进出视频| 黑鬼糟蹋少妇资源在线观看 | 中文字幕人妻日本一区二区| 中文字幕乱码一区二区三区四区 | 91插插插外国一区二区婷婷| 久久精品欧美一区二区三不卡| 国产精品一区二区三区欧美| 欧美日韩国产黑人一区| 国内尹人香蕉综合在线| 欧美日韩精品一区免费| 欧美一区二区黑人在线| 欧美欧美日韩综合一区| 欧美一区二区三区性视频| 色哟哟在线免费一区二区三区| 无套内射美女视频免费在线观看| 欧美日韩在线视频一区| 激情五月激情婷婷丁香| 无套内射美女视频免费在线观看| 欧美成人一区二区三区在线| 久久精品国产99精品亚洲| 加勒比系列一区二区在线观看 | 日韩人妻欧美一区二区久久| 日韩精品中文字幕亚洲| 91在线爽的少妇嗷嗷叫| 欧美丰满大屁股一区二区三区| 真实偷拍一区二区免费视频 | 中文字幕91在线观看| 日韩视频在线观看成人| 大香蕉大香蕉手机在线视频| 国产欧美高清精品一区| 在线一区二区免费的视频| 午夜资源在线观看免费高清| 午夜久久久精品国产精品| 视频一区中文字幕日韩|