基于詞性與LDA主題模型的文本分類技術(shù)研究
本文關(guān)鍵詞:基于詞性與LDA主題模型的文本分類技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著“互聯(lián)網(wǎng)+”時(shí)代的到來,需要處理的數(shù)據(jù)越來越多,文本挖掘的工作也顯得越來越重要,人們希望能夠從海量的信息文本中準(zhǔn)確地獲得想要的信息,于是對于現(xiàn)有的文本數(shù)據(jù)挖掘技術(shù),人們提出來一系列更高的需求。文本分類作為文本數(shù)據(jù)挖掘的重要組成部分之一,目前已經(jīng)廣泛應(yīng)用于信息過濾、搜索引擎、數(shù)字化圖書館、個(gè)性化推薦等多個(gè)領(lǐng)域,對它的研究擁有很強(qiáng)的現(xiàn)實(shí)意義。首先,本文介紹了文本分類技術(shù)的價(jià)值,簡要介紹了當(dāng)前時(shí)代下文本分類的課題背景;闡述了國內(nèi)外目前對于文本表示、特征選擇的研究現(xiàn)狀;對傳統(tǒng)文本分類技術(shù)的特征提取方法進(jìn)行了剖析,針對其存在的特征空間維度大、分類效率低、準(zhǔn)確率相對偏低的現(xiàn)狀,結(jié)合詞性在文本中的地位,提出了使用基于詞性的特征選擇的方法,同時(shí)將其與LDA主題模型結(jié)合使用,并深刻分析了該方法存在的意義與價(jià)值,以及其應(yīng)用在LDA主題模型上的優(yōu)勢,以及對最終分類結(jié)果的性能評估的影響。其次,對文本分類過程中重要的環(huán)節(jié),包括預(yù)處理、文本分詞、特征提取、特征權(quán)重、分類算法、性能評估等,都選擇了目前比較常用經(jīng)典的算法以及實(shí)驗(yàn)中將會使用到的算法、指標(biāo)等,進(jìn)行了簡要的介紹與原理分析,對文本分類的整體流程進(jìn)行了系統(tǒng)性的介紹。然后,針對提出的基于詞性的特征選擇方法與結(jié)合LDA主題模型的方式,重點(diǎn)介紹了詞關(guān)于詞性的這個(gè)特性,以及LDA主題模型。為了驗(yàn)證詞性的可用性,研究了典型特征提取算法提取的特征詞的詞性分布;然后有選擇的篩選詞性作為特征,研究其對特征空間降維的影響以及分類結(jié)果的影響;并對比篩選不同詞性特征詞組合的分類結(jié)果,分析各種詞性的重要程度,以及它們在文本中的實(shí)際價(jià)值;最后結(jié)合詞性與LDA主題模型,研究詞性在LDA主題模型的作用于意義。通過系統(tǒng)的實(shí)驗(yàn),使用真實(shí)的數(shù)據(jù)進(jìn)行了最終的結(jié)果分析,得出名詞、動詞、形容詞構(gòu)成文本的主體,它們基本決定了文本的屬性,其中尤其以名詞表現(xiàn)最為突出的結(jié)論,驗(yàn)證了詞性的重要性,同時(shí)也發(fā)現(xiàn)詞性在傳統(tǒng)特征選擇算法中,并沒有發(fā)揮太大的作用,反而能夠從語料的角度來說,能夠縮減原始數(shù)據(jù)集,從另一個(gè)角度降低分類算法的需要處理的數(shù)據(jù)量,從而節(jié)約了時(shí)間與空間,還能保持原有的正確率。同時(shí)在原有實(shí)驗(yàn)基礎(chǔ)上,驗(yàn)證了LDA主題模型對于詞性的依賴,證明了詞性在LDA主題模型上的適用性,而且詞性與LDA主題模型的結(jié)合使用擁有非常好的分類效果。最后,結(jié)合實(shí)驗(yàn)中遇到的問題,總結(jié)了下一步的研究方向,展望了文本分類技術(shù)在未來的發(fā)展趨勢。
【關(guān)鍵詞】:特征選擇 詞性 LDA主題模型 文本分類
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要3-5
- Abstract5-9
- 第一章 緒論9-15
- 1.1 課題背景9
- 1.2 國內(nèi)外研究現(xiàn)狀9-11
- 1.3 研究意義11-13
- 1.4 研究內(nèi)容及主要工作13-14
- 1.5 論文組織結(jié)構(gòu)14-15
- 第二章 文本分類技術(shù)15-31
- 2.0 文本分類的一般流程15-16
- 2.1 文本的表示16-18
- 2.2 預(yù)處理18-20
- 2.3 特征選擇20-23
- 2.3.1 特征評估算法20-22
- 2.3.2 特征搜索算法22-23
- 2.4 特征權(quán)重23-25
- 2.5 分類算法25-28
- 2.6 性能評估28-30
- 2.6.1 評估方法28
- 2.6.2 評估指標(biāo)28-30
- 2.7 本章小結(jié)30-31
- 第三章 基于詞性與LDA主題模型的特征選擇31-37
- 3.1 詞性與LDA主題模型31-33
- 3.2 傳統(tǒng)的特征選擇33-34
- 3.3 基于詞性與LDA主題模型的特征選擇34-36
- 3.4 本章小結(jié)36-37
- 第四章 實(shí)驗(yàn)與分析37-60
- 4.1 實(shí)驗(yàn)平臺37
- 4.2 實(shí)驗(yàn)數(shù)據(jù)37-38
- 4.3 基于詞性的傳統(tǒng)文本特征選擇38-50
- 4.3.1 實(shí)驗(yàn)?zāi)繕?biāo)38-39
- 4.3.2 實(shí)驗(yàn)流程39
- 4.3.3 實(shí)驗(yàn)步驟39-42
- 4.3.4 結(jié)果分析42-50
- 4.4 基于詞性與LDA主題模型的特征選擇50-58
- 4.4.1 實(shí)驗(yàn)?zāi)繕?biāo)50
- 4.4.2 實(shí)驗(yàn)流程50-51
- 4.4.3 實(shí)驗(yàn)步驟51-53
- 4.4.4 結(jié)果分析53-58
- 4.5 本章小結(jié)58-60
- 第五章 總結(jié)與展望60-62
- 5.1 總結(jié)60-61
- 5.2 展望61-62
- 參考文獻(xiàn)62-66
- 附錄A 圖索引66-68
- 附錄B 表索引68-69
- Appendix A: Figure Index69-71
- Appendix B: Table Index71-72
- 致謝72
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張浩;汪楠;;文本分類技術(shù)研究進(jìn)展[J];科技信息(科學(xué)教研);2007年23期
2 周文霞;;現(xiàn)代文本分類技術(shù)研究[J];武警學(xué)院學(xué)報(bào);2007年12期
3 張春紅;;文本分類技術(shù)應(yīng)用于學(xué)科導(dǎo)航分類的可行性探討[J];情報(bào)科學(xué);2009年07期
4 楊麗華;戴齊;楊占華;;文本分類技術(shù)研究[J];微計(jì)算機(jī)信息;2006年15期
5 胡恬;王敬;;中文文本分類技術(shù)的研究[J];科技咨詢導(dǎo)報(bào);2006年09期
6 徐大偉;董淵;張素琴;;文本分類技術(shù)在海洋信息處理領(lǐng)域中的應(yīng)用[J];計(jì)算機(jī)科學(xué);2008年11期
7 曹鋒;張代遠(yuǎn);;文本分類技術(shù)研究[J];電腦知識與技術(shù);2009年32期
8 胡文靜;;文本分類技術(shù)進(jìn)展[J];知識經(jīng)濟(jì);2011年10期
9 牛洪波;丁華福;;基于文本分類技術(shù)的信息過濾方法的研究[J];信息技術(shù);2007年12期
10 于麗;;文本分類技術(shù)在陶瓷行業(yè)中的應(yīng)用[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2010年14期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 張娟;王慧鋒;;文本分類技術(shù)在海量金融信息處理中的應(yīng)用[A];第二十四屆中國控制會議論文集(下冊)[C];2005年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 程軍;基于統(tǒng)計(jì)的文本分類技術(shù)研究[D];中國科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2003年
2 郝秀蘭;文本分類技術(shù)與應(yīng)用研究[D];復(fù)旦大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張鵬;基于文本分類技術(shù)的漏洞分類[D];貴州師范大學(xué);2015年
2 張虹;短文本分類技術(shù)研究[D];遼寧師范大學(xué);2015年
3 張勇;基于詞性與LDA主題模型的文本分類技術(shù)研究[D];安徽大學(xué);2016年
4 熊大康;中文短文本分類技術(shù)的研究與實(shí)現(xiàn)[D];安徽大學(xué);2014年
5 郭明;基于文本分類技術(shù)的文本情感傾向性研究[D];鄭州大學(xué);2010年
6 牛洪波;基于文本分類技術(shù)的信息過濾方法的研究[D];哈爾濱理工大學(xué);2008年
7 李斌;基于文本分類技術(shù)的英語作文自動評分研究[D];蘇州大學(xué);2009年
8 胡曉輝;基于團(tuán)結(jié)構(gòu)的文本分類技術(shù)研究[D];江西師范大學(xué);2008年
9 王憲剛;文本分類技術(shù)及在輔助決策中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2008年
10 張超林;文本分類技術(shù)在數(shù)字圖書館中的應(yīng)用與研究[D];首都師范大學(xué);2007年
本文關(guān)鍵詞:基于詞性與LDA主題模型的文本分類技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號:350035
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/350035.html