中文垃圾短文本的自動(dòng)識(shí)別研究
本文選題:短文本 + 短信。 參考:《鄭州大學(xué)》2017年碩士論文
【摘要】:當(dāng)前社會(huì)上用于信息交互的各種社交平臺(tái)、即時(shí)通訊工具日益普及。這些用來信息交流的平臺(tái)工具目前主要使用短文本作為信息傳播與交互的載體,其方便、快捷、高效的特點(diǎn)適合當(dāng)今信息化、快節(jié)奏的生活。所謂短文本主要是指手機(jī)短信、微博、商品評(píng)論、論壇帖子等一類長(zhǎng)度較短,字?jǐn)?shù)有限的文本。在該類短文本中,往往存在著大量的違反信息交互平臺(tái)使用規(guī)定的違法的垃圾類文本,例如垃圾短信、廣告微博、虛假評(píng)論等。由于短文本長(zhǎng)度較短,字?jǐn)?shù)有限,編輯來源廣泛且內(nèi)容編輯存在諸多不規(guī)范。因此,對(duì)其進(jìn)行二分類,識(shí)別其中的垃圾類短文本時(shí)將會(huì)面臨三個(gè)問題:(1)數(shù)據(jù)噪聲大;(2)訓(xùn)練數(shù)據(jù)集不平衡;(3)如果直接采用基于詞表的向量空間模型來表示短文本,將會(huì)導(dǎo)致特征向量過于稀疏且維度較高。針對(duì)以上三個(gè)問題,本文主要進(jìn)行了以下研究:1)提出了適用于短文本的預(yù)處理方法,對(duì)短文本數(shù)據(jù)進(jìn)行規(guī)范化處理,主要包括“錯(cuò)別字糾正”、“繁體字轉(zhuǎn)換”、“大小寫字母的轉(zhuǎn)換”、“同類信息的統(tǒng)一化表示”等,在一定程度上減少數(shù)據(jù)集中存在的噪聲。2)從短文本內(nèi)容的編輯語法、用詞特點(diǎn)等及非內(nèi)容的結(jié)構(gòu)屬性,即多個(gè)角度來提取特征,避免采用基于詞表的向量空間模型表示短文本時(shí),特征向量過于稀疏且維度較高。3)提出了隨機(jī)森林與Adaboost相結(jié)合的“隨機(jī)森林+Adaboost”集成分類方法,該方法將隨機(jī)森林作為Adaboost算法的基分類器,用來降低數(shù)據(jù)噪聲及數(shù)據(jù)不平衡所帶來的影響。由于短信與商品評(píng)論在內(nèi)容上具有較大相似性,故本文通過選取短信、商品評(píng)論作為研究對(duì)象,采用本文所提出的方法進(jìn)行垃圾短文本的識(shí)別研究工作。最后,在由中國移動(dòng)提供的大量短信數(shù)據(jù)集及COAE 2015任務(wù)四的評(píng)論數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明本文所提出的方法是有效的,而且“隨機(jī)森林+Adaboost”集成算法相對(duì)于其它分類算法具備一定的優(yōu)越性。
[Abstract]:At present, various social platforms for information exchange, instant messaging tools are increasingly popular. These platform tools for information exchange currently mainly use short text book as the carrier of information dissemination and interaction. Its convenient, fast and efficient characteristics are suitable for today's information-based, fast-paced life. Short text mainly refers to text messages, Weibo, commodity reviews, forum posts and other short, limited words. In this kind of short text, there are often a large number of illegal spam texts, such as spam SMS, advertising Weibo, false comments and so on, which violate the rules of information exchange platform. Due to the short length and limited number of words, the short text has a wide range of editing sources and a lot of irregularities in content editing. Therefore, if we use vector space model based on thesaurus to express the short text, we will face three problems when we classify it two times, and we will face three problems: 1) 1) the data noise is very large and 2) the training data set is unbalanced (3) if we use the vector space model based on word table directly to express the short text, The feature vector is too sparse and the dimension is high. In view of the above three problems, this paper mainly carries on the following research: 1) put forward the preprocessing method suitable for short text, and normalizes the data of short text, mainly includes "correcting the wrong character", "converting the traditional characters", "conversion of letters between case and case", "uniform representation of similar information", etc., to a certain extent, reduces the noise existing in the data set) from the editorial syntax of short text content, the features of words, etc., and the structural attributes of non-content, etc. That is, to extract features from multiple angles and avoid using vector space model based on word table to represent short text, the feature vector is too sparse and the dimension is high. 3) an integrated classification method of "random forest Adaboost", which combines stochastic forest and Adaboost, is proposed. In this method, random forest is used as the base classifier of Adaboost algorithm to reduce the effect of data noise and data imbalance. Because of the similarity between short message and commodity comment, this paper chooses short message and commodity comment as the object of study, and adopts the method proposed in this paper to study the identification of short junk text. Finally, experiments are carried out on a large number of short message data sets provided by China Mobile and the comment data set of COAE 2015 Task 4. The results show that the proposed method is effective. Moreover, the "random forest Adaboost" ensemble algorithm has some advantages over other classification algorithms.
【學(xué)位授予單位】:鄭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳敏,湯曉安;在Microsoft Access中引入文本文件[J];微型電腦應(yīng)用;1995年02期
2 李盛瑜;何文;;一種對(duì)聊天文本進(jìn)行特征選取的方法研究[J];計(jì)算機(jī)科學(xué);2007年05期
3 蔣志方;祝翠玲;吳強(qiáng);;一個(gè)對(duì)不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計(jì)算機(jī)工程;2007年12期
4 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國審計(jì);2007年18期
5 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期
6 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2004年09期
7 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期
8 諶志群;;文本趨勢(shì)挖掘綜述[J];情報(bào)科學(xué);2010年02期
9 王亞民;劉洋;;含附件文本的分類算法研究[J];情報(bào)雜志;2012年08期
10 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年10期
相關(guān)會(huì)議論文 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測(cè)[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會(huì)議論文集[C];2008年
7 Wen Feng;;A Novel Lips Detection Method Combined Adaboost Algorithm and Camshift Algorithm[A];2012年計(jì)算機(jī)應(yīng)用與系統(tǒng)建模國際會(huì)議論文集[C];2012年
8 張超;苗振江;;基于AdaBoost的面部信息感知[A];第十三屆全國信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2007)論文集[C];2007年
9 郭翌;汪源源;;基于Adaboost算法的頸動(dòng)脈粥樣硬化判別方法[A];中國儀器儀表學(xué)會(huì)第十一屆青年學(xué)術(shù)會(huì)議論文集[C];2009年
10 張紅梅;高海華;王行愚;;抑制樣本噪聲的AdaBoost算法及其在入侵檢測(cè)中的應(yīng)用[A];2007年中國智能自動(dòng)化會(huì)議論文集[C];2007年
相關(guān)重要報(bào)紙文章 前1條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報(bào);2004年
相關(guān)博士學(xué)位論文 前10條
1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年
2 韓開旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年
3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年
4 韓磊;漢語句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年
5 劉林;面向論壇文本的大學(xué)生情緒識(shí)別研究[D];華中師范大學(xué);2016年
6 張博宇;基于局部特征的場(chǎng)景文本分析方法研究[D];哈爾濱工業(yè)大學(xué);2015年
7 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年
8 孫曉華;基于聚類的文本機(jī)會(huì)發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年
9 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年
10 霍躍紅;典籍英譯譯者文體分析與文本的譯者識(shí)別[D];大連理工大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 畢銀龍;中文垃圾短文本的自動(dòng)識(shí)別研究[D];鄭州大學(xué);2017年
2 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年
3 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年
4 李少卿;不良文本及其變體信息的檢測(cè)過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年
5 董秦濤;基于文本的個(gè)人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年
6 鐘文波;搜索引擎中關(guān)鍵詞分類方法評(píng)估及推薦應(yīng)用[D];華南理工大學(xué);2015年
7 黃晨;基于新詞識(shí)別和時(shí)間跨度的微博熱點(diǎn)研究[D];上海交通大學(xué);2015年
8 陳紅陽;中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年
9 王s,
本文編號(hào):1885433
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1885433.html