天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于聚類改進(jìn)的KNN文本分類算法

發(fā)布時(shí)間:2017-10-19 20:38

  本文關(guān)鍵詞:基于聚類改進(jìn)的KNN文本分類算法


  更多相關(guān)文章: 文本分類 KNN 聚類化 訓(xùn)練集


【摘要】:傳統(tǒng)的KNN文本分類算法是一種無監(jiān)督的、無參數(shù)的、簡單的、較流行的且容易實(shí)現(xiàn)的分類算法。但是KNN算法在處理文本分類的過程中需要不斷地計(jì)算待測文本與樣本的相似度,當(dāng)文本數(shù)量更大時(shí),算法的效率就會(huì)更差。為了提高傳統(tǒng)KNN算法在文本分類中的效率,提出一種基于聚類的改進(jìn)KNN算法。算法開始之前采用改進(jìn)χ~2統(tǒng)計(jì)量方法進(jìn)行文本特征提取,再依據(jù)聚類方法將文本集聚類成幾個(gè)簇,最后利用改進(jìn)的KNN方法對簇類進(jìn)行文本分類。實(shí)驗(yàn)對比與分析結(jié)果表明,該方法可以較好地進(jìn)行文本分類。
【作者單位】: 中南大學(xué)軟件學(xué)院;
【關(guān)鍵詞】文本分類 KNN 聚類化 訓(xùn)練集
【分類號(hào)】:TP391.1
【正文快照】: 0引言互聯(lián)網(wǎng)的飛速發(fā)展,每天來自商業(yè)、社會(huì)、科學(xué)界和工程界、醫(yī)療以及日常生活的方方面面的大量數(shù)據(jù)注入到計(jì)算機(jī)網(wǎng)絡(luò)、互聯(lián)網(wǎng)和各種數(shù)據(jù)存儲(chǔ)設(shè)備中。要從大量的數(shù)據(jù)中獲取人們需要的知識(shí),就迫切要求采用某種數(shù)據(jù)挖掘的方法將海量的、無序的、離散的數(shù)據(jù)進(jìn)行分類。數(shù)據(jù)分類

【相似文獻(xiàn)】

中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會(huì)議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年

9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國青年通信學(xué)術(shù)會(huì)議論文集[C];2001年

10 江荻;;藏語文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

中國重要報(bào)紙全文數(shù)據(jù)庫 前1條

1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報(bào);2004年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年

2 韓開旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年

3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年

4 韓磊;漢語句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年

5 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年

6 孫曉華;基于聚類的文本機(jī)會(huì)發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年

7 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年

8 霍躍紅;典籍英譯譯者文體分析與文本的譯者識(shí)別[D];大連理工大學(xué);2010年

9 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2006年

10 李自強(qiáng);大規(guī)模文本分類的若干問題研究[D];電子科技大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年

2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年

3 李少卿;不良文本及其變體信息的檢測過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年

4 董秦濤;基于文本的個(gè)人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年

5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評(píng)估及推薦應(yīng)用[D];華南理工大學(xué);2015年

6 黃晨;基于新詞識(shí)別和時(shí)間跨度的微博熱點(diǎn)研究[D];上海交通大學(xué);2015年

7 陳紅陽;中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年

8 王s,

本文編號(hào):1063211


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1063211.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e620d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com