基于詞條屬性聚類的文本特征選擇算法
本文選題:文本特征選擇 切入點:詞條屬性 出處:《計算機應(yīng)用研究》2017年02期 論文類型:期刊論文
【摘要】:文本挖掘之前首先要對文本集進行有效的特征選擇。傳統(tǒng)的特征選擇算法在維數(shù)約減及文本表征方面效果有限,并且因需要用到文本的類別信息而不適用于無監(jiān)督的文本聚類任務(wù)。針對這種情況,設(shè)計一種適用于文本聚類任務(wù)的特征選擇算法,提出詞條屬性的概念。首先基于詞頻、文檔頻、詞位置及詞間關(guān)聯(lián)性構(gòu)建詞條特征模型,重點研究了詞位置屬性及詞間關(guān)聯(lián)性屬性的權(quán)值計算方法,改進了Apriori算法用于詞間關(guān)聯(lián)性屬性權(quán)值計算;然后通過改進的K-means聚類算法對詞條特征模型進行多次聚類完成文本特征選擇。實驗結(jié)果表明,與傳統(tǒng)特征選擇算法相比,該算法在獲得較好維數(shù)約減率的同時提高了所選特征詞的文本表征能力,能有效適用于文本聚類任務(wù)。
[Abstract]:Text mining before the first to carry out the effective feature selection of text set. The traditional feature selection algorithms for dimensionality reduction and text representation and the effect is limited, because of the need to use the category information of the text and is not suitable for the task of unsupervised text clustering. In this case, design a feature selection in text clustering task the algorithm, put forward the concept of entry attribute. Based on word frequency, document frequency, word position and word association between construction characteristic model, focus on the words and word position attribute correlation between attribute weight calculation method, improved Apriori algorithm for word correlation between attribute weight calculation; and then through the improved K-means clustering algorithm multiple entries to cluster feature model to complete the text feature selection. The experimental results show that compared with the traditional feature selection algorithm, this algorithm has better dimension about The reduction rate improves the text representation ability of the selected feature words and can be effectively applied to the text clustering task.
【作者單位】: 電子工程學(xué)院;
【基金】:國家自然科學(xué)基金資助項目(61273302)
【分類號】:TP391.1
【相似文獻】
相關(guān)期刊論文 前10條
1 李盛瑜;何文;;一種對聊天文本進行特征選取的方法研究[J];計算機科學(xué);2007年05期
2 蔣志方;祝翠玲;吳強;;一個對不帶類別標記文本進行分類的方法[J];計算機工程;2007年12期
3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國審計;2007年18期
4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計算機科學(xué);2002年08期
5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報;2004年09期
6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期
7 諶志群;;文本趨勢挖掘綜述[J];情報科學(xué);2010年02期
8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報雜志;2012年08期
9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計算機技術(shù)與發(fā)展;2013年10期
10 陳福海;C++中用>>和<<重載實現(xiàn)文本文件的方便存取[J];現(xiàn)代計算機;1997年05期
相關(guān)會議論文 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進展[A];開創(chuàng)新世紀的通信技術(shù)——第七屆全國青年通信學(xué)術(shù)會議論文集[C];2001年
10 江荻;;藏語文本信息處理的歷程與進展[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
相關(guān)重要報紙文章 前1條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報;2004年
相關(guān)博士學(xué)位論文 前10條
1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年
2 韓開旭;基于支持向量機的文本情感分析研究[D];東北石油大學(xué);2014年
3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年
4 韓磊;漢語句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年
5 劉林;面向論壇文本的大學(xué)生情緒識別研究[D];華中師范大學(xué);2016年
6 張博宇;基于局部特征的場景文本分析方法研究[D];哈爾濱工業(yè)大學(xué);2015年
7 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年
8 孫曉華;基于聚類的文本機會發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年
9 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年
10 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年
2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實現(xiàn)[D];南京信息工程大學(xué);2015年
3 李少卿;不良文本及其變體信息的檢測過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年
4 董秦濤;基于文本的個人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年
5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評估及推薦應(yīng)用[D];華南理工大學(xué);2015年
6 黃晨;基于新詞識別和時間跨度的微博熱點研究[D];上海交通大學(xué);2015年
7 陳紅陽;中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年
8 王s,
本文編號:1621474
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1621474.html