基于多示例的中文文本分類
發(fā)布時間:2018-03-16 23:15
本文選題:文本分類 切入點(diǎn):多示例學(xué)習(xí) 出處:《南京大學(xué)》2012年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著信息技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)進(jìn)入了信息爆炸的時代,海量的信息以指數(shù)級的速度增長。用戶希望能夠快速、準(zhǔn)確地從海量信息中獲取其關(guān)注的信息。在此需求的驅(qū)動下,信息的自動處理成為研究熱點(diǎn)。搜索引擎、文本分類、信息過濾等相關(guān)的技術(shù)被廣泛的應(yīng)用。 自然語言文本是海量互聯(lián)網(wǎng)信息的主要表現(xiàn)形態(tài),文本的自動處理成為海量數(shù)據(jù)處理研究的核心內(nèi)容。本文以中文文本的自動分類展開研究。 中文文本缺乏自然分詞,而自動分詞的錯誤會對分類精度產(chǎn)生較大影響。本文針對這一問題,提出一種無需分詞,基于多示例學(xué)習(xí)的中文文本分類方法。該方法通過抽取文章中中文字符與后續(xù)一定數(shù)目的字符構(gòu)造文章的多示例特征表示,再利用隨機(jī)森林多示例分類方法及多示例轉(zhuǎn)換分類方法進(jìn)行中文文本分類。在對從BBS收集的語料庫以及tc-corpus-train語料庫上的實驗表明,利用多示例學(xué)習(xí)來處理中文文本的自動分類在避免分詞的情況下保證了比較高的精度,具有實用價值。
[Abstract]:With the rapid development of information technology, the Internet has entered the era of information explosion, the mass of information is growing exponentially. Users hope to get the information of their concern from the mass information quickly and accurately. Automatic processing of information has become a research hotspot. Search engine, text classification, information filtering and other related technologies are widely used. Natural language text is the main representation of mass Internet information, and automatic text processing becomes the core of mass data processing. This paper focuses on the automatic classification of Chinese text. The Chinese text lacks the natural participle, but the error of automatic segmentation will have a great influence on the classification accuracy. Chinese text classification method based on multi-example learning. This method constructs multi-example feature representation of articles by extracting Chinese characters in articles and a certain number of subsequent characters. Then we use the random forest multi-example classification method and the multi-example transformation classification method to classify the Chinese text. The experiments on the corpus collected from BBS and the tc-corpus-train corpus show that, Multi-example learning is used to deal with the automatic classification of Chinese text, which is of practical value because of its high accuracy in avoiding word segmentation.
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識與技術(shù);2009年10期
2 劉永丹,曾海泉,李榮陸,胡運(yùn)發(fā);基于語義分析的傾向性文本過濾[J];通信學(xué)報;2004年07期
,本文編號:1622108
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1622108.html
最近更新
教材專著