一種主題爬蟲文本分類器的構(gòu)建
[Abstract]:This paper uses the method of feature selection based on DF and CHI statistics to extract features from web pages related to Chinese as a foreign language on the Internet, and on this basis, A two-step classifier based on the combination of title and text is constructed. The experiment shows that the efficiency and recall rate of the classifier are higher than that of the traditional classifier. At present, the classifier has been used to provide data sources for the construction of large Chinese as a foreign language corpus.
【作者單位】: 北京師范大學(xué)信息科學(xué)與技術(shù)學(xué)院;
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前2條
1 代六玲,黃河燕,陳肇雄;中文文本分類中特征抽取方法的比較研究[J];中文信息學(xué)報;2004年01期
2 龐劍鋒,卜東波,白碩;基于向量空間模型的文本自動分類系統(tǒng)的研究與實現(xiàn)[J];計算機應(yīng)用研究;2001年09期
相關(guān)碩士學(xué)位論文 前1條
1 彭時名;中文文本分類中特征提取算法研究[D];重慶大學(xué);2006年
【共引文獻】
相關(guān)期刊論文 前10條
1 戰(zhàn)守義,井新;加入時間因素的個性化信息過濾技術(shù)[J];北京理工大學(xué)學(xué)報;2005年09期
2 代勁;胡峰;王國胤;;基于不完備信息系統(tǒng)的文本分類研究與應(yīng)用[J];重慶郵電學(xué)院學(xué)報(自然科學(xué)版);2006年03期
3 李粵;安捷;李星;;排序融合算法在校園網(wǎng)搜索引擎中的應(yīng)用[J];大連理工大學(xué)學(xué)報;2005年S1期
4 谷峰;吳揚揚;;文本分類關(guān)鍵技術(shù)[J];福建電腦;2006年09期
5 賀衛(wèi)紅;曹毅;;基于向量空間模型文本過濾算法[J];系統(tǒng)工程;2005年10期
6 胡佳妮,徐蔚然,郭軍,鄧偉洪;中文文本分類中的特征選擇算法研究[J];光通信研究;2005年03期
7 謝科;張輝;陳鵬;龐斌;;文本分類系統(tǒng)關(guān)鍵技術(shù)[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2007年02期
8 朱培毅,黃敏;基于Boosting算法的文本自動分類器模型設(shè)計[J];高校圖書館工作;2004年05期
9 何峰;;一種基于粗糙集理論的文本分類方法[J];自動化與信息工程;2006年03期
10 吳志峰,田學(xué)東;人名、機構(gòu)名在基于概念的文本分類中的應(yīng)用研究[J];河北大學(xué)學(xué)報(自然科學(xué)版);2004年06期
相關(guān)會議論文 前2條
1 Zhao Shuanzhu Chen Junjie Guo Xin College of Computer and Software Taiyuan University of Technology,Taiyuan,Shanxi,Chnia,030024;Research on the Frame Structure and Its Implement of a Special Field-based Content Information Mining System on Web[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 8)[C];2005年
2 Zhenxing Wang Jingbo Zhu Institute of Computer Software and Theory,Northeastern University Shenyang,China,110004;Improving K-NN Text Categorization by Bootstrap Technique[A];中國計算技術(shù)與語言問題研究——第七屆中文信息處理國際會議論文集[C];2007年
相關(guān)博士學(xué)位論文 前10條
1 楊震;個性化信息獲取方法的研究[D];大連理工大學(xué);2004年
2 劉華;基于關(guān)鍵短語的文本內(nèi)容標(biāo)引研究[D];北京語言大學(xué);2005年
3 楊爾弘;突發(fā)事件信息提取研究[D];北京語言大學(xué);2005年
4 詹川;反垃圾郵件技術(shù)的研究[D];電子科技大學(xué);2005年
5 王秀娟;文本檢索中若干問題研究[D];北京郵電大學(xué);2006年
6 劉濤;現(xiàn)代信息檢索中的文本分類及圖像恢復(fù)研究[D];北京郵電大學(xué);2006年
7 周瑛;神經(jīng)網(wǎng)絡(luò)作為分類器的算法研究及在信息檢索中的應(yīng)用[D];安徽大學(xué);2006年
8 張亮;面向開放域的中文問答系統(tǒng)問句處理相關(guān)技術(shù)研究[D];南京理工大學(xué);2006年
9 姜韶華;科研項目管理中的文本挖掘方法研究及應(yīng)用[D];大連理工大學(xué);2006年
10 杜衛(wèi)鋒;粗糙集理論在中文文本分類中的應(yīng)用[D];西南交通大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 何堯;基于半監(jiān)督學(xué)習(xí)的中文文檔分類技術(shù)研究[D];中南大學(xué);2005年
2 楊盛;電子郵件過濾系統(tǒng)的研究與設(shè)計[D];中南大學(xué);2005年
3 邱宇紅;向量空間模型在醫(yī)學(xué)文獻相關(guān)性研究中的應(yīng)用[D];中國醫(yī)科大學(xué);2006年
4 馬安香;基于分類語義的Web信息抽取機制的研究與實現(xiàn)[D];東北大學(xué);2005年
5 周欽強;基于人工智能技術(shù)Naive Bayes文本自動分類系統(tǒng)研究[D];廣東工業(yè)大學(xué);2005年
6 湯賽麗;常識知識問答系統(tǒng)中知識庫構(gòu)建的研究與設(shè)計[D];河南大學(xué);2005年
7 鄒金鳳;基于綜合評價理論的多分類器容器[D];大連理工大學(xué);2005年
8 胡卓穎;專題型網(wǎng)頁搜集器關(guān)鍵算法的研究及實現(xiàn)[D];江西師范大學(xué);2005年
9 廖海波;基于投影尋蹤回歸的文本分類研究[D];江西師范大學(xué);2005年
10 付雪峰;基于模糊—粗糙集的文本分類模型[D];江西師范大學(xué);2005年
【二級參考文獻】
相關(guān)期刊論文 前9條
1 趙豐年;劉林;商建云;;基于概念的文本過濾模型[J];計算機工程與應(yīng)用;2006年04期
2 劉麗珍,宋瀚濤;文本分類中的特征選取[J];計算機工程;2004年04期
3 宋楓溪,鄭如冰,王積忠;自動文本分類中兩種文本表示方式的比較[J];計算機工程;2004年18期
4 周水庚,關(guān)佶紅,俞紅奇,胡運發(fā);基于Ngram信息的中文文檔分類研究[J];中文信息學(xué)報;2001年01期
5 代六玲,黃河燕,陳肇雄;中文文本分類中特征抽取方法的比較研究[J];中文信息學(xué)報;2004年01期
6 成穎,史九林;自動分類研究現(xiàn)狀與展望[J];情報學(xué)報;1999年01期
7 張文進;文本信息檢索中的概率模型[J];情報雜志;2005年03期
8 肖明,沈英;自動分類研究進展[J];現(xiàn)代圖書情報技術(shù);2000年05期
9 孫麗華,張積東,李靜梅;一種改進的kNN方法及其在文本分類中的應(yīng)用[J];應(yīng)用科技;2002年02期
相關(guān)碩士學(xué)位論文 前1條
1 陳本慶;遺傳算法研究及其在排課問題中的應(yīng)用[D];西南交通大學(xué);2003年
【相似文獻】
相關(guān)碩士學(xué)位論文 前2條
1 蓋慧敏;DF公司管理信息系統(tǒng)改進方案研究[D];西北大學(xué);2012年
2 曹群;DF集團ERP實施關(guān)鍵成功因素研究[D];蘭州大學(xué);2010年
,本文編號:2403220
本文鏈接:http://sikaile.net/jiaoyulunwen/duiwaihanyulunwen/2403220.html