中文文本聚類常用停用詞表對比研究
[Abstract]:[Objective] To compare the effect of different stop-use vocabulary on different types of text data and provide reference for the construction and use of stop-use vocabulary. The same corpus uses Chinese word segmentation technology, TF-IDF feature evaluation function and VSM model for text processing, and uses K-means algorithm written in Java to do clustering experiments, through the accuracy of P, recall R and F1 three evaluation indicators to evaluate the effect of different clustering results. [Results] Different stop-word lists for different types of text. The results showed that the length and content structure of the vocabulary were the direct factors affecting the effect, and the effect of two-character stop words was the most obvious. [Conclusion] Stop word list has a great influence on the accuracy of text clustering, so it is very important to construct or select a suitable Chinese stop word list. At the same time, excessive increase of stop words does not always improve the clustering results.
【作者單位】: 南京大學(xué)信息管理學(xué)院;江蘇省數(shù)據(jù)工程與知識服務(wù)重點實驗室;
【基金】:中國地震局星火計劃攻關(guān)項目“面向地震應(yīng)急的空間智能決策方法研究”(項目編號:XH15019) 江蘇省自然科學(xué)基金項目“面向?qū)@A(yù)警的中文文本學(xué)習(xí)研究”(項目編號:BK20130587)的研究成果之一
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前10條
1 黃磊;伍雁鵬;朱群峰;;關(guān)鍵詞自動提取方法的研究與改進[J];計算機科學(xué);2014年06期
2 于娟;尹積棟;費庶;;基于句法結(jié)構(gòu)分析的同義詞識別方法研究[J];現(xiàn)代圖書情報技術(shù);2013年09期
3 陳欣;張菁;李曉光;卓力;;一種面向中文敏感網(wǎng)頁識別的文本分類方法[J];測控技術(shù);2011年05期
4 崔彩霞;;停用詞的選取對文本分類效果的影響研究[J];太原師范學(xué)院學(xué)報(自然科學(xué)版);2008年04期
5 化柏林;;知識抽取中的停用詞處理技術(shù)[J];現(xiàn)代圖書情報技術(shù);2007年08期
6 熊文新;宋柔;;信息檢索用戶查詢語句的停用詞過濾[J];計算機工程;2007年06期
7 顧益軍,樊孝忠,王建華,汪濤,黃維金;中文停用詞表的自動選取[J];北京理工大學(xué)學(xué)報;2005年04期
8 費洪曉,康松林,朱小娟,謝文彪;基于詞頻統(tǒng)計的中文分詞的研究[J];計算機工程與應(yīng)用;2005年07期
9 孫國菊,張杰;中文文本分類的特征選取評價[J];哈爾濱理工大學(xué)學(xué)報;2005年01期
10 周欽強,孫炳達,王義;文本自動分類系統(tǒng)文本預(yù)處理方法的研究[J];計算機應(yīng)用研究;2005年02期
相關(guān)碩士學(xué)位論文 前5條
1 華林森;中文文本情感分類研究[D];重慶大學(xué);2014年
2 周姚;基于云計算的文本挖掘技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
3 李梅;改進的K均值算法在中文文本聚類中的研究[D];安徽大學(xué);2010年
4 江兆中;基于語境和停用詞驅(qū)動的中文自動分詞研究[D];合肥工業(yè)大學(xué);2010年
5 胡曉輝;基于團結(jié)構(gòu)的文本分類技術(shù)研究[D];江西師范大學(xué);2008年
【共引文獻】
相關(guān)期刊論文 前10條
1 關(guān)浩華;;基于語音分析的智能質(zhì)檢關(guān)鍵詞提取方法設(shè)計[J];自動化與儀器儀表;2017年07期
2 田鳳亮;孫效玉;張航;;一種露天礦卡車故障的NLP技術(shù)挖掘與分析方法[J];金屬礦山;2017年07期
3 李巖;徐碩;吳廣印;干生洪;;一種采用SpotSigs算法的中文新聞網(wǎng)頁相似性檢測方法[J];情報工程;2017年03期
4 尹積棟;劉紅;彭崧;張慧;;一種信息檢索系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機與現(xiàn)代化;2017年05期
5 王艷玲;林瑩含;徐榮歡;許嘉琳;;基于科普平臺的知識圖譜[J];電腦知識與技術(shù);2017年14期
6 竇鵬偉;王珍;佘侃侃;樊文玲;王旭東;;基于文本挖掘的中醫(yī)文本情感分析[J];中華中醫(yī)藥學(xué)刊;2017年05期
7 郭東亮;劉小明;鄭秋生;;基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本分類方法[J];計算機與現(xiàn)代化;2017年04期
8 馮青文;;知識抽取國內(nèi)研究現(xiàn)狀分析[J];常州信息職業(yè)技術(shù)學(xué)院學(xué)報;2017年02期
9 何薇;張劍;于雪霞;吳佐平;張小華;陳晨;;基于文本挖掘的電網(wǎng)客戶服務(wù)滿意度評價模型[J];電子世界;2017年07期
10 官琴;鄧三鴻;王昊;;中文文本聚類常用停用詞表對比研究[J];數(shù)據(jù)分析與知識發(fā)現(xiàn);2017年03期
相關(guān)碩士學(xué)位論文 前10條
1 陳文;中文短文本跨領(lǐng)域情感分類算法研究[D];重慶大學(xué);2016年
2 張磊磊;基于Hadoop和SVM算法的中文文本分類的研究與實現(xiàn)[D];昆明理工大學(xué);2015年
3 楊文敏;自然語言文本中不確定性信息的識別研究[D];河南工業(yè)大學(xué);2015年
4 宋亭亭;林產(chǎn)品供求垃圾信息的過濾研究[D];北京林業(yè)大學(xué);2015年
5 吳楠;基于LDA模型的微博話題與事件檢測[D];哈爾濱工業(yè)大學(xué);2014年
6 林琳;結(jié)合雙粒子群和K-means的文本聚類研究[D];遼寧工程技術(shù)大學(xué);2015年
7 巨瑜芳;基于NMF算法的文本聚類研究[D];中國礦業(yè)大學(xué);2014年
8 袁恩閣;基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)[D];新疆大學(xué);2014年
9 鄭秋輝;基于垂直搜索引擎的文本挖掘系統(tǒng)研究與實現(xiàn)[D];首都師范大學(xué);2014年
10 宋振偉;用電信息采集系統(tǒng)數(shù)據(jù)庫的云存儲設(shè)計[D];山東大學(xué);2014年
【二級參考文獻】
相關(guān)期刊論文 前10條
1 李學(xué)明;李海瑞;薛亮;何光軍;;基于信息增益與信息熵的TFIDF算法[J];計算機工程;2012年08期
2 張保富;施化吉;馬素琴;;基于TFIDF文本特征加權(quán)方法的改進研究[J];計算機應(yīng)用與軟件;2011年02期
3 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計算方法[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2010年06期
4 張穎穎;謝強;丁秋林;;基于同義詞鏈的中文關(guān)鍵詞提取算法[J];計算機工程;2010年19期
5 劉銘;王曉龍;劉遠超;;基于詞匯鏈的關(guān)鍵短語抽取方法的研究[J];計算機學(xué)報;2010年07期
6 于娟;黨延忠;;結(jié)合詞性分析與串頻統(tǒng)計的詞語提取方法[J];系統(tǒng)工程理論與實踐;2010年01期
7 施聰鶯;徐朝軍;楊曉江;;TFIDF算法研究綜述[J];計算機應(yīng)用;2009年S1期
8 沈志斌;白清源;;文本分類中特征權(quán)重算法的改進[J];南京師范大學(xué)學(xué)報(工程技術(shù)版);2008年04期
9 張玉芳;陳小莉;熊忠陽;;基于信息增益的特征詞權(quán)重調(diào)整算法研究[J];計算機工程與應(yīng)用;2007年35期
10 熊文新;宋柔;;信息檢索用戶查詢語句的停用詞過濾[J];計算機工程;2007年06期
相關(guān)碩士學(xué)位論文 前10條
1 程苗;云計算技術(shù)在web日志挖掘中的應(yīng)用研究[D];中國科學(xué)技術(shù)大學(xué);2011年
2 李雪鋒;基于云計算環(huán)境的web數(shù)據(jù)挖掘算法研究[D];北京交通大學(xué);2010年
3 李軍華;云計算及若干數(shù)據(jù)挖掘算法的MapReduce化研究[D];電子科技大學(xué);2010年
4 劉洋;基于MapReduce的中醫(yī)藥并行數(shù)據(jù)挖掘服務(wù)[D];浙江大學(xué);2010年
5 張宇;WEB中文文本聚類分類系統(tǒng)的設(shè)計與實現(xiàn)[D];西南交通大學(xué);2009年
6 曾路平;基于相似度的文本聚類算法研究及應(yīng)用[D];江蘇大學(xué);2009年
7 潘啟蒙;文本聚類算法的研究與實現(xiàn)[D];吉林大學(xué);2008年
8 余俊英;文本分類中特征選擇方法的研究[D];江西師范大學(xué);2007年
9 韋魯玉;基于Agent的個性化智能信息檢索系統(tǒng)[D];哈爾濱理工大學(xué);2007年
10 羅遠勝;基于PLS的文本分類技術(shù)研究[D];江西師范大學(xué);2006年
【相似文獻】
相關(guān)期刊論文 前10條
1 趙亞琴;周獻中;;一種基于小生境遺傳算法的中文文本聚類新方法[J];計算機工程;2006年06期
2 劉務(wù)華;羅鐵堅;王文杰;;文本聚類技術(shù)的有效性驗證[J];計算機工程;2007年01期
3 丁X;許侃;;基于文本聚類方法的我國科技管理研究領(lǐng)域的計量研究[J];科學(xué)學(xué)研究;2007年S1期
4 孫愛香;楊鑫華;;關(guān)于文本聚類有效性評價的研究[J];山東理工大學(xué)學(xué)報(自然科學(xué)版);2007年05期
5 丘志宏;宮雷光;;利用上下文提高文本聚類的效果[J];中文信息學(xué)報;2007年06期
6 吳啟明;易云飛;;文本聚類綜述[J];河池學(xué)院學(xué)報;2008年02期
7 李江華;楊書新;劉利峰;;基于概念格的文本聚類[J];計算機應(yīng)用;2008年09期
8 趙文鵬;;淺談文本聚類研究[J];企業(yè)家天地下半月刊(理論版);2009年02期
9 章成志;;文本聚類結(jié)果描述研究綜述[J];現(xiàn)代圖書情報技術(shù);2009年02期
10 馬娜;;文本聚類研究[J];電腦知識與技術(shù);2009年20期
相關(guān)會議論文 前10條
1 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
2 王洪俊;俞士汶;蘇祺;施水才;肖詩斌;;中文文本聚類的特征單元比較[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
3 胡吉祥;許洪波;劉悅;王斌;程學(xué)旗;;基于重復(fù)串的短文本聚類研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
4 白剛;張錚;丁宗堯;朱毅;;中文文本聚類在互聯(lián)網(wǎng)搜索的研究與應(yīng)用[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
5 王明文;付劍波;羅遠勝;陸旭;;基于協(xié)同聚類的兩階段文本聚類方法研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
6 張猛;王大玲;于戈;;一種基于自動閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
7 王樂;田李;賈焰;韓偉紅;;一個并行的文本聚類混合算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年
8 王瑩;劉楊;;維基百科的文本聚類方法分析[A];2009年研究生學(xué)術(shù)交流會通信與信息技術(shù)論文集[C];2009年
9 張寶艷;王慶輝;;中文文本聚類的研究與實現(xiàn)[A];第一屆學(xué)生計算語言學(xué)研討會論文集[C];2002年
10 章成志;;基于多語文本聚類的主題層次體系生成研究1)[A];國家自然科學(xué)基金委員會管理科學(xué)部宏觀管理與政策學(xué)科青年基金獲得者交流研討會論文集[C];2010年
相關(guān)博士學(xué)位論文 前3條
1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 高茂庭;文本聚類分析若干問題研究[D];天津大學(xué);2007年
3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 康健;基于Multi-agent和群體智能的藏文網(wǎng)絡(luò)輿情管理研究[D];西南交通大學(xué);2015年
2 張培偉;基于改進Single-Pass算法的熱點話題發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D];華中師范大學(xué);2015年
3 郭士串;結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用[D];江西理工大學(xué);2015年
4 邵明來;中文文本聚類關(guān)鍵技術(shù)研究[D];廣西大學(xué);2015年
5 王恒靜;基于詞類和搭配的微博輿情文本聚類方法研究[D];江蘇科技大學(xué);2015年
6 吳潔潔;基于RI方法的文本聚類研究[D];南昌大學(xué);2015年
7 樊兆欣;個性化新聞推薦系統(tǒng)關(guān)鍵技術(shù)研究與實現(xiàn)[D];北京理工大學(xué);2015年
8 蘇圣瞳;微博熱點話題發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D];復(fù)旦大學(xué);2014年
9 孫東普;融合屬性抽取的多粒度專利文本聚類研究[D];大連理工大學(xué);2015年
10 李蕓;基于爬蟲和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年
,本文編號:2207094
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2207094.html