短文本分類技術(shù)研究
本文關(guān)鍵詞:短文本分類技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,社交網(wǎng)絡(luò)也逐漸成為人們交流和獲取信息的重要渠道。其中,國外最具有代表性的社交網(wǎng)絡(luò)是Facebook和Twitter,而國內(nèi)最具代表性的則是新浪微博和騰訊微博等。由于這些數(shù)據(jù)大多數(shù)是以文本形式來存在的,且通常都會(huì)有字?jǐn)?shù)限制,因此有關(guān)短文本的研究勢(shì)在必行,而如何通過相關(guān)文本挖掘技術(shù)有效及時(shí)地獲取其中的有用信息顯得尤為重要。文本挖掘通常包括文本分類、文本聚類、文檔摘要等。近年來,隨著文本分類技術(shù)的廣泛使用,它已成為一個(gè)熱門的研究領(lǐng)域。本文首先對(duì)短文本的主要特點(diǎn)以及研究領(lǐng)域進(jìn)行了概述,并對(duì)有關(guān)的短文本的研究現(xiàn)狀和其中涉及到的關(guān)鍵技術(shù)進(jìn)行了簡明扼要的介紹。接著,針對(duì)短文本具有的數(shù)據(jù)量大、數(shù)據(jù)稀疏的特點(diǎn),我們引入了LDA(Latent Dirichlet Allocation)主題模型和信息增益(Information gain, IG)特征選擇算法來提高短文本分類的效率。傳統(tǒng)的文本表示模型是向量空間模型(Vector Space Model,VSM),它通常是以詞或短語為特征的,文檔集被表示成文檔一詞匯矩陣。但是對(duì)于短文本來講,同一個(gè)詞出現(xiàn)在不同短文本的概率會(huì)遠(yuǎn)遠(yuǎn)小于長文本,這種數(shù)據(jù)的稀疏性,使得傳統(tǒng)的長文本表示模型以及機(jī)器學(xué)習(xí)的方法無法直接應(yīng)用到短文本上;其次,由于短文本的數(shù)據(jù)多,計(jì)算量大,因此需要通過特征降維來提高它的效率。LDA模型是一個(gè)三級(jí)分層貝葉斯無監(jiān)督學(xué)習(xí)模型,它能夠直接獲取隱藏在文本中的語義信息,而不需要通過搜索引擎等外部文本來擴(kuò)展短文本。從信息增益特征選擇公式來看,它不僅前半部分考慮了特征出現(xiàn)的情況,同時(shí)后半部分也考慮了特征不出現(xiàn)的情況,因而在去除“無用詞”時(shí)效果顯著。針對(duì)以上問題和基于LDA模型和信息增益的特點(diǎn),本文的第3部分采用信息增益來進(jìn)行特征降維,然后再用LDA進(jìn)行主題建模,最后以主題作為特征,建立文本類模型。經(jīng)過對(duì)比實(shí)驗(yàn)的micro_F1值顯示,短文本的分類性能有了顯著提升。傳統(tǒng)的信息增益算法在類和特征項(xiàng)分布不均時(shí),分類性能明顯下降。所以本文的第4部分主要針對(duì)改進(jìn)后的信息增益算法結(jié)合LDA模型來進(jìn)行文本分類。具體執(zhí)行步驟為:首先是對(duì)類內(nèi)類內(nèi)特征進(jìn)行降維處理,主要利用的是特征分布均勻度和特征關(guān)聯(lián)樹模型。然后,使用類間加權(quán)離散度對(duì)信息增益公式進(jìn)行改進(jìn),進(jìn)一步提高類間特征IG的精確度,獲得更優(yōu)的特征子集。最后,再結(jié)合LDA主題建模來進(jìn)行文本分類。通過對(duì)比實(shí)驗(yàn)表明,短文本的分類性能有了更進(jìn)一步的提升。
【關(guān)鍵詞】:短文本分類 LDA 信息增益 特征選擇 特征冗余
【學(xué)位授予單位】:遼寧師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-9
- 1 緒論9-14
- 1.1 研究背景及意義9-11
- 1.2 短文本分類的研究現(xiàn)狀11-12
- 1.3 論文的相關(guān)內(nèi)容12-13
- 1.4 論文的結(jié)構(gòu)安排13-14
- 2 短文本分類技術(shù)簡介14-26
- 2.1 基本概念14-15
- 2.2 短文本的特點(diǎn)15
- 2.3 文本分類相關(guān)技術(shù)15-21
- 2.3.1 文本分類主要流程15-16
- 2.3.2 文本分類算法16-19
- 2.3.3 文本預(yù)處理19
- 2.3.4 文本表示19-21
- 2.3.5 特征降維21
- 2.5 概率主題模型21-24
- 2.5.1 一元混合模型(Mixture of unigrams)22-23
- 2.5.2 LSI模型23-24
- 2.5.3 pLSI模型24
- 2.6 本章小結(jié)24-26
- 3 基于信息增益和LDA的中文短文本分類26-35
- 3.1 信息增益26-27
- 3.2 LDA模型27-29
- 3.2.1 LDA模型的基本概念27-28
- 3.2.2 LDA算法描述28-29
- 3.2.3 建模結(jié)果29
- 3.3 實(shí)驗(yàn)結(jié)果和分析29-35
- 3.3.1 實(shí)驗(yàn)語料29-30
- 3.3.2 實(shí)驗(yàn)過程與說明30-32
- 3.3.3 評(píng)價(jià)指標(biāo)32-33
- 3.3.4 實(shí)驗(yàn)結(jié)果及分析33-34
- 3.3.5 小結(jié)34-35
- 4 基于改進(jìn)信息增益和LDA的中文短文本分類35-43
- 4.1 信息增益的不足及相關(guān)定義35
- 4.2 基于特征關(guān)聯(lián)樹模型剔除類內(nèi)冗余特征35-39
- 4.2.1 相關(guān)定義35-36
- 4.2.2 改善類內(nèi)特征分布不均36-37
- 4.2.3 通過類內(nèi)特征關(guān)聯(lián)樹模型清除冗余特征37-38
- 4.2.4 基于類間加權(quán)離散度的信息增益公式改進(jìn)38-39
- 4.3 基本算法描述39-40
- 4.4 實(shí)驗(yàn)結(jié)果及分析40-43
- 4.4.1 實(shí)驗(yàn)語料40
- 4.4.2 實(shí)驗(yàn)過程與說明40-41
- 4.4.3 結(jié)果分析41-42
- 4.4.4 小結(jié)42-43
- 結(jié)論43-45
- 參考文獻(xiàn)45-49
- 攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況49-50
- 致謝50
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張浩;汪楠;;文本分類技術(shù)研究進(jìn)展[J];科技信息(科學(xué)教研);2007年23期
2 周文霞;;現(xiàn)代文本分類技術(shù)研究[J];武警學(xué)院學(xué)報(bào);2007年12期
3 張春紅;;文本分類技術(shù)應(yīng)用于學(xué)科導(dǎo)航分類的可行性探討[J];情報(bào)科學(xué);2009年07期
4 楊麗華;戴齊;楊占華;;文本分類技術(shù)研究[J];微計(jì)算機(jī)信息;2006年15期
5 胡恬;王敬;;中文文本分類技術(shù)的研究[J];科技咨詢導(dǎo)報(bào);2006年09期
6 徐大偉;董淵;張素琴;;文本分類技術(shù)在海洋信息處理領(lǐng)域中的應(yīng)用[J];計(jì)算機(jī)科學(xué);2008年11期
7 曹鋒;張代遠(yuǎn);;文本分類技術(shù)研究[J];電腦知識(shí)與技術(shù);2009年32期
8 胡文靜;;文本分類技術(shù)進(jìn)展[J];知識(shí)經(jīng)濟(jì);2011年10期
9 牛洪波;丁華福;;基于文本分類技術(shù)的信息過濾方法的研究[J];信息技術(shù);2007年12期
10 于麗;;文本分類技術(shù)在陶瓷行業(yè)中的應(yīng)用[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2010年14期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前1條
1 張娟;王慧鋒;;文本分類技術(shù)在海量金融信息處理中的應(yīng)用[A];第二十四屆中國控制會(huì)議論文集(下冊(cè))[C];2005年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 程軍;基于統(tǒng)計(jì)的文本分類技術(shù)研究[D];中國科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2003年
2 郝秀蘭;文本分類技術(shù)與應(yīng)用研究[D];復(fù)旦大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張虹;短文本分類技術(shù)研究[D];遼寧師范大學(xué);2015年
2 熊大康;中文短文本分類技術(shù)的研究與實(shí)現(xiàn)[D];安徽大學(xué);2014年
3 郭明;基于文本分類技術(shù)的文本情感傾向性研究[D];鄭州大學(xué);2010年
4 牛洪波;基于文本分類技術(shù)的信息過濾方法的研究[D];哈爾濱理工大學(xué);2008年
5 李斌;基于文本分類技術(shù)的英語作文自動(dòng)評(píng)分研究[D];蘇州大學(xué);2009年
6 胡曉輝;基于團(tuán)結(jié)構(gòu)的文本分類技術(shù)研究[D];江西師范大學(xué);2008年
7 王憲剛;文本分類技術(shù)及在輔助決策中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2008年
8 張超林;文本分類技術(shù)在數(shù)字圖書館中的應(yīng)用與研究[D];首都師范大學(xué);2007年
9 蘇道;蒙文文本分類技術(shù)研究與系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2007年
10 易路杰;網(wǎng)絡(luò)文本分類技術(shù)研究[D];北方工業(yè)大學(xué);2012年
本文關(guān)鍵詞:短文本分類技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):347048
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/347048.html