基于改進(jìn)的TF-IDF權(quán)重的短文本分類算法
本文關(guān)鍵詞:基于改進(jìn)的TF-IDF權(quán)重的短文本分類算法
更多相關(guān)文章: 短文本 TF-IDF權(quán)重 特征擴(kuò)展
【摘要】:短文本具有特征稀疏的特點(diǎn),如采用TF-IDF權(quán)重和算法來選擇短文本特征,很多具有專業(yè)領(lǐng)域信息特征而訓(xùn)練集中未出現(xiàn)過的特征將被忽略,從而導(dǎo)致待分類文本集的權(quán)值分布比較集中,區(qū)分度小,最終影響短文本信息推送。因此,一種基于改進(jìn)的TF-IDF權(quán)重的短文本分類算法被提出。該算法通過同義詞對(duì)分類器的關(guān)鍵詞庫進(jìn)行擴(kuò)展和基于特征長度對(duì)短文本權(quán)值進(jìn)行加權(quán),使得文本集的權(quán)值方差增大。與直接對(duì)短文本進(jìn)行擴(kuò)展的算法相比,該算法具有更快的分類速度。
【作者單位】: 重慶大學(xué)通信工程學(xué)院;重慶阿爾法碳索科技有限公司;
【關(guān)鍵詞】: 短文本 TF-IDF權(quán)重 特征擴(kuò)展
【基金】:國家自然科學(xué)基金青年基金資助項(xiàng)目(41404027)
【分類號(hào)】:TP391.1
【正文快照】: 引用格式:楊彬,韓慶文,雷敏,等.基于改進(jìn)的TF-IDF權(quán)重的短文本分類算法[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2016(12):108-113.Citation format:YANG Bin,HAN Qing-wen,LEI Min,et al.Short Text Classification Algorithm Based on Improved TF-IDFWeight[J].Journal of Chongqin
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李盛瑜;何文;;一種對(duì)聊天文本進(jìn)行特征選取的方法研究[J];計(jì)算機(jī)科學(xué);2007年05期
2 蔣志方;祝翠玲;吳強(qiáng);;一個(gè)對(duì)不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計(jì)算機(jī)工程;2007年12期
3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國審計(jì);2007年18期
4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期
5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2004年09期
6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期
7 諶志群;;文本趨勢(shì)挖掘綜述[J];情報(bào)科學(xué);2010年02期
8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報(bào)雜志;2012年08期
9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年10期
10 陳福海;C++中用>>和<<重載實(shí)現(xiàn)文本文件的方便存取[J];現(xiàn)代計(jì)算機(jī);1997年05期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測(cè)[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會(huì)議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測(cè)[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
9 江荻;;藏語文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
10 侯松;周斌;賈焰;;分詞結(jié)果的再搭配對(duì)文本分類效果的增強(qiáng)[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十四卷)[C];2009年
中國重要報(bào)紙全文數(shù)據(jù)庫 前1條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報(bào);2004年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年
2 韓開旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年
3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年
4 韓磊;漢語句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年
5 張博宇;基于局部特征的場景文本分析方法研究[D];哈爾濱工業(yè)大學(xué);2015年
6 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年
7 孫曉華;基于聚類的文本機(jī)會(huì)發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年
8 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年
9 霍躍紅;典籍英譯譯者文體分析與文本的譯者識(shí)別[D];大連理工大學(xué);2010年
10 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年
2 李少卿;不良文本及其變體信息的檢測(cè)過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年
3 楊名陽;基于空間文本數(shù)據(jù)的k近鄰連接研究[D];上海交通大學(xué);2015年
4 李天彩;短文本信息流的會(huì)話抽取與分析技術(shù)研究[D];解放軍信息工程大學(xué);2015年
5 陳亮宇;面向微博文本的事件抽取[D];東南大學(xué);2015年
6 許慧芳;基于全覆蓋粒計(jì)算模型的文本表示和特征提取研究[D];太原理工大學(xué);2016年
7 王煒;面向網(wǎng)絡(luò)輿情的文本語義傾向性分類算法研究[D];河北工程大學(xué);2016年
8 任倚天;基于支持向量機(jī)的海量文本分類并行化技術(shù)研究[D];北京理工大學(xué);2016年
9 光順利;基于Spark的文本分類的研究[D];長春工業(yè)大學(xué);2016年
10 張高祥;基于SVM的文本信息過濾算法研究[D];吉林大學(xué);2016年
,本文編號(hào):713316
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/713316.html