一種面向文本分類的特征向量優(yōu)化方法
本文關(guān)鍵詞: 機(jī)器學(xué)習(xí) Mahout 特征向量 向量優(yōu)化 文本分類 出處:《計算機(jī)應(yīng)用研究》2017年08期 論文類型:期刊論文
【摘要】:對文本進(jìn)行建模的普遍方法是使用向量空間模型構(gòu)建文本向量,并利用權(quán)值調(diào)整和維度調(diào)整對文本向量進(jìn)行優(yōu)化。提出了一種面向文本分類的特征向量優(yōu)化方法。首先利用剔除近義詞方法優(yōu)化文本向量中的特征項;然后提出貢獻(xiàn)率因子的概念,并利用其優(yōu)化特征值。實驗表明,相比樸素貝葉斯分類方法其效果提高了0.96%。因此,通過去除近義詞和對提取出的特征詞調(diào)整權(quán)重,可以達(dá)到優(yōu)化特征向量、提高文本分類效果的目的。
[Abstract]:A common approach to text modeling is to construct text vectors using vector space models. The text vector is optimized by weight adjustment and dimension adjustment. A feature vector optimization method for text classification is proposed. Firstly, the feature items in the text vector are optimized by eliminating the near synonyms. Then we put forward the concept of contribution factor and use it to optimize the eigenvalue. Experiments show that compared with naive Bayes classification method, its effect is improved by 0.96. By removing the synonyms and adjusting the weight of the extracted feature words, the feature vector can be optimized and the text classification effect can be improved.
【作者單位】: 北京信息科技大學(xué)智能信息處理研究所;
【基金】:國家自然科學(xué)基金資助項目(61370139) 北京市教委科研計劃面上項目(KM201411232014) 北京市屬高等學(xué)校創(chuàng)新團(tuán)隊建設(shè)與教師職業(yè)發(fā)展計劃項目(IDHT20130519) 北京信息科技大學(xué)促進(jìn)高校內(nèi)涵發(fā)展專項項目(5111623403)
【分類號】:TP181;TP391.1
【正文快照】: 文本分類作為數(shù)據(jù)挖掘的一項研究內(nèi)容,要從文本中獲取有價值的信息來處理,其任務(wù)是把文本劃分到與它最相似的一類。文本分類,早期使用的是詞匹配法、知識工程等方法,這些方法存在用時長、效率低的缺點(diǎn)。但隨著互聯(lián)網(wǎng)海量文本的出現(xiàn),統(tǒng)計和機(jī)器學(xué)習(xí)方法開始適用于這一領(lǐng)域,并逐
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 許錫春,胡運(yùn)發(fā),施伯樂;特征向量的獲取[J];計算機(jī)應(yīng)用;2000年09期
2 葛新;趙海;張昕;李超;;基于多維特征向量的網(wǎng)絡(luò)社團(tuán)劃分方法[J];東北大學(xué)學(xué)報(自然科學(xué)版);2008年07期
3 高靈霞;李國敏;孫鳳蘭;;方陣廣義特征向量的一種相似迭代算法[J];計算機(jī)應(yīng)用與軟件;2014年02期
4 夏慧明;周永權(quán);;求解矩陣特征值及特征向量的新方法[J];計算機(jī)工程;2008年11期
5 鄧廣宏;曹萬華;夏奕;蔡斌;池志強(qiáng);程雄;;基于特征向量的基本口型分類[J];計算機(jī)應(yīng)用與軟件;2010年10期
6 劉青光,鄒理和;信號特征向量分解與到達(dá)波方向估計[J];電子學(xué)報;1993年01期
7 張霖;吳麒;;設(shè)計魯棒控制器的主導(dǎo)特征向量配正方法[J];自動化學(xué)報;1991年01期
8 鄧曉剛;田學(xué)民;;基于特征向量提取的核回歸建模方法研究[J];控制工程;2010年04期
9 李博濤;王之琪;王秀彩;;分支界定法在特征向量提取中的應(yīng)用[J];山西電子技術(shù);2011年02期
10 劉俊;黃秀玲;張智光;;基于產(chǎn)品特征向量的產(chǎn)品配置研究[J];制造業(yè)自動化;2008年12期
相關(guān)會議論文 前5條
1 陳力奮;宋漢文;王文亮;;確定退化模態(tài)可導(dǎo)特征向量轉(zhuǎn)換矩陣的一種新方法[A];振動工程學(xué)報(工程應(yīng)用專輯)[C];2001年
2 戴琨;汪小帆;;根據(jù)特征向量判據(jù)優(yōu)化網(wǎng)絡(luò)的同步能力[A];第四屆全國網(wǎng)絡(luò)科學(xué)學(xué)術(shù)論壇暨研究生暑期學(xué)校論文集[C];2008年
3 劉增武;蔡悅斌;;基于K-L變換的船舶噪聲特征向量的降維處理[A];中國聲學(xué)學(xué)會1999年青年學(xué)術(shù)會議[CYCA'99]論文集[C];1999年
4 張新培;曹策慧;;隨機(jī)結(jié)構(gòu)特征值和特征向量統(tǒng)計特性的研究[A];第五屆全國結(jié)構(gòu)工程學(xué)術(shù)會議論文集(第二卷)[C];1996年
5 曹玉娟;牛振東;彭學(xué)平;江鵬;;一個基于特征向量的近似網(wǎng)頁去重算法[A];中國索引學(xué)會第三次全國會員代表大會暨學(xué)術(shù)論壇論文集[C];2008年
相關(guān)博士學(xué)位論文 前2條
1 龔世才;圖的特征向量的組合結(jié)構(gòu)[D];安徽大學(xué);2010年
2 陳曉s,
本文編號:1450863
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1450863.html