基于主題相似度的短文本分類方法研究
本文選題:短文本 + 主題相似度 ; 參考:《華中師范大學(xué)》2017年碩士論文
【摘要】:在互聯(lián)網(wǎng)廣泛應(yīng)用的影響下,特別是微信、微博、問(wèn)答系統(tǒng)等新媒體的出現(xiàn)使得互聯(lián)網(wǎng)每天產(chǎn)生海量的短文本信息。這些短文本的長(zhǎng)度短、內(nèi)容少、用詞不規(guī)范、數(shù)據(jù)量龐大而且屬于半結(jié)構(gòu)化的信息數(shù)據(jù)。把長(zhǎng)文本的處理方法直接應(yīng)用于短文本的文本挖掘中,難以取得令人滿意的文本挖掘效果。因此,如何準(zhǔn)確、實(shí)時(shí)、高效的挖掘短文本中隱藏的信息,是目前中文信息處理與文本挖掘討論與研究的熱點(diǎn)。短文本具有結(jié)構(gòu)短、文本內(nèi)容少、數(shù)量龐大、語(yǔ)義不明顯等特點(diǎn),導(dǎo)致短文本的分類面臨特征稀疏、噪聲多、上下文依賴強(qiáng)等問(wèn)題;谒阉饕娴亩涛谋痉诸惙椒,分類結(jié)果比較依賴搜索引擎;基于大規(guī)模語(yǔ)料庫(kù)的分類方法,比較依賴外部語(yǔ)料庫(kù)。本文在分析短文本特點(diǎn)的基礎(chǔ)上,根據(jù)目前短文本分類方法存在的缺陷,從短文本的建模矩陣特征稀疏、短文本上下文依賴性強(qiáng)等問(wèn)題進(jìn)行切入,探索根據(jù)主題判斷短文本的相似度從而實(shí)現(xiàn)分類。首先,研究文獻(xiàn)資料,分析中文文本分類的理論和方法,著重分析短文本分類方法。在分析基于VSM的傳統(tǒng)短文本分類方法時(shí),發(fā)現(xiàn)短文本建模的特征矩陣稀疏、維度高不利于準(zhǔn)確分類,因此設(shè)計(jì)一種基于主題相似度的分類算法。應(yīng)用主題挖掘的理論和方法,采用LDA概率模型來(lái)估算短文本的主題概率分布向量。其次,針對(duì)傳統(tǒng)KNN算法在分類過(guò)程中,計(jì)算量特別大,處理文本集龐大的短文本集時(shí),計(jì)算量會(huì)更大。本文根據(jù)局部敏感哈希解決ANN問(wèn)題的優(yōu)點(diǎn),構(gòu)建改進(jìn)LSH的KNN分類器,實(shí)現(xiàn)從主題層面上對(duì)短文本的快速分類。最后,本文從理論上敘述了構(gòu)建改進(jìn)LSH的KNN分類器,能夠在一定程度上提高分類效果,減少分類時(shí)間。本文根據(jù)構(gòu)建的分類器和文本分類方法,在Linux環(huán)境下建模,利用MATLAB實(shí)現(xiàn)分類,設(shè)計(jì)基于VSM分類方法的對(duì)比實(shí)驗(yàn),對(duì)最終的實(shí)驗(yàn)結(jié)果對(duì)比,得出本文基于主題相似度的分類方法整體分類性能較好。
[Abstract]:Under the influence of the wide application of the Internet, especially the emergence of new media, such as WeChat, Weibo, Question-answering system, etc.These short texts are short in length, small in content, nonstandard in terms, large in data volume and semi-structured information data.It is difficult to obtain satisfactory text mining effect by directly applying the long text processing method to the text mining of short text.Therefore, how to accurately, real-time and efficiently mine hidden information in short text is a hot topic in the discussion and research of Chinese information processing and text mining.Short text text has the characteristics of short structure, less text content, large quantity and unobvious semantics, which leads to the problems of sparse feature, high noise and strong context-dependent in short text classification.Based on search engine, the classification result depends on search engine, and the classification method based on large-scale corpus relies on external corpus.Based on the analysis of the characteristics of the short text, according to the shortcomings of the current short text classification methods, this paper analyzes the sparse features of the modeling matrix of the short text and the strong context-dependent characteristics of the short text.This paper explores how to judge the similarity of short text according to the topic, so as to realize classification.Firstly, the paper studies the literature, analyzes the theory and method of Chinese text classification, and focuses on the text classification method.When analyzing the traditional short text classification method based on VSM, it is found that the feature matrix of short text modeling is sparse and the dimension is high, so a classification algorithm based on topic similarity is designed.Using the theory and method of topic mining, LDA probability model is used to estimate the topic probability distribution vector of short text.Secondly, for the traditional KNN algorithm in the process of classification, the computation is especially large, when dealing with the text set of large short text set, the computation will be more.Based on the advantages of locally sensitive hash to solve the ANN problem, this paper constructs an improved KNN classifier for LSH, and realizes the fast classification of short text at the topic level.Finally, this paper describes theoretically the construction of an improved LSH KNN classifier, which can improve the classification effect and reduce the classification time to a certain extent.In this paper, according to the classifier and text classification method, we model in Linux environment, use MATLAB to realize classification, design a comparative experiment based on VSM classification method, and compare the final experimental results.It is concluded that the classification method based on topic similarity in this paper has better overall classification performance.
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 陳靜;徐波;王甜甜;陸泉;;基于hLDA的圖書(shū)內(nèi)部主題層次組織研究[J];圖書(shū)情報(bào)工作;2016年18期
2 黃嬋;;基于LDA主題模型的短文本結(jié)構(gòu)化分類研究[J];信息系統(tǒng)工程;2016年07期
3 戴月明;張朋;吳定會(huì);;基于密度檢測(cè)的EM算法[J];計(jì)算機(jī)應(yīng)用研究;2016年09期
4 杜選;;基于加權(quán)補(bǔ)集的樸素貝葉斯文本分類算法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年09期
5 鄭霖;徐德華;;基于改進(jìn)TFIDF算法的文本分類研究[J];計(jì)算機(jī)與現(xiàn)代化;2014年09期
6 馬雯雯;鄧一貴;;新的短文本特征權(quán)重計(jì)算方法[J];計(jì)算機(jī)應(yīng)用;2013年08期
7 張志飛;苗奪謙;高燦;;基于LDA主題模型的短文本分類方法[J];計(jì)算機(jī)應(yīng)用;2013年06期
8 奉國(guó)和;;文本分類性能評(píng)價(jià)研究[J];情報(bào)雜志;2011年08期
相關(guān)博士學(xué)位論文 前3條
1 張丁文;基于特征矩陣的空間場(chǎng)景相似性度量模型與約束指標(biāo)松弛化研究[D];中國(guó)地質(zhì)大學(xué);2016年
2 李熙銘;基于主題模型的多標(biāo)簽文本分類和流文本數(shù)據(jù)建模若干問(wèn)題研究[D];吉林大學(xué);2015年
3 朱林;基于特征加權(quán)與特征選擇的數(shù)據(jù)挖掘算法研究[D];上海交通大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 鄒進(jìn)屹;基于特征提取和稀疏表示的圖像分類算法研究[D];北京化工大學(xué);2016年
2 史淼;文本分類算法的研究與實(shí)現(xiàn)[D];安徽大學(xué);2016年
3 杜婷;基于屬性選擇的樸素貝葉斯分類研究與應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年
4 王甜甜;基于hLDA的圖書(shū)內(nèi)部主題層次組織研究[D];華中師范大學(xué);2016年
5 邱磊;基于決策樹(shù)C4.5算法剪枝策略的改進(jìn)研究[D];華中師范大學(xué);2016年
6 張麗穎;基于聚類的網(wǎng)絡(luò)輿情熱點(diǎn)關(guān)鍵詞推薦研究[D];華北電力大學(xué)(北京);2016年
7 高揚(yáng);基于LDA主題模型的TFIDF算法改進(jìn)及應(yīng)用[D];廣西大學(xué);2015年
8 張超;一種詞性標(biāo)注LDA模型的文本分類方法研究[D];華中師范大學(xué);2015年
9 檀何鳳;基于標(biāo)簽相關(guān)性的KNN多標(biāo)簽分類方法研究[D];安徽大學(xué);2015年
10 黎荊妗;微博文本預(yù)處理與用戶興趣建模方法研究[D];重慶大學(xué);2015年
,本文編號(hào):1758238
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1758238.html